Résumé - Revisiting la fiabilité dans le cadre du benchmark d'estimation de pose basé sur le raisonnement

Titre
Revisiting la fiabilité dans le cadre du benchmark d'estimation de pose basé sur le raisonnement

Temps
2025-07-17 17:33:11

Auteur
{"Junsu Kim","Naeun Kim","Jaeho Lee","Incheol Park","Dongyoon Han","Seungryul Baek"}

Catégorie
{cs.CV,cs.AI}

Lien
http://arxiv.org/abs/2507.13314v1

PDF Lien
http://arxiv.org/pdf/2507.13314v1

Résumé

Ce document enquête sur la fiabilité du benchmark d'estimation de pose basée sur le raisonnement (RPE), un standard largement adopté pour évaluer les modèles d'estimation de pose humaine. Les auteurs identifient plusieurs problèmes critiques qui compromettent l'efficacité et la reproductibilité du benchmark : **Problèmes de reproductibilité** : * **Indices d'images incohérents** : Le benchmark RPE utilise des indices d'images différents de ceux du jeu de données original 3DPW, nécessitant une correspondance manuelle pour obtenir des annotations de vérité de terrain précises. Ce processus est lourd, sujet à des erreurs et compromet la reproductibilité. * **Taille de jeu de données limitée** : Le benchmark RPE ne contient que 50 images, limitant sa diversité et sa robustesse représentatives. **Limites du benchmark** : * **Imbalance des scénarios** : Le benchmark met l'accent de manière disproportionnée sur un sous-ensemble limité de scénarios, créant des contextes répétitifs et simplifiant les tâches. * **Scènes simplistes** : Le benchmark contient fréquemment des scénarios triviaux comme "debout" ou "marchant", qui ne mettent pas à l'épreuve la capacité des modèles à raisonner sur des poses humaines complexes. * **Requêtes ambiguës et répétitives** : Les prompts textuels sont souvent ambigus et répétitifs, augmentant le risque de malinterprétation et compliquant les évaluations. * **Annotations incomplètes pour les scénarios à plusieurs personnes** : Le benchmark ne annotations que deux individus par cadre, limitant la capacité à évaluer la performance des modèles dans des scénarios complexes, multi-personnes. * **Perte d'information due au rognage** : Des étapes de prétraitement telles que le rognage central suppriment involontairement un contexte visuel crucial ou des régions corporelles importantes, simplifiant les tâches et potentiellement introduisant des gains de performance. **Réponse aux problèmes** : Pour répondre à ces problèmes, les auteurs proposent plusieurs solutions : * **Annotations de vérité de terrain raffinées** : Les auteurs raffinent manuellement les annotations de vérité de terrain pour les aligner avec le jeu de données original 3DPW, éliminant ainsi le besoin de correspondance manuelle et améliorant la reproductibilité. * **Documentation des problèmes du benchmark** : Les auteurs fournissent une documentation détaillée des limites du benchmark, guidant les améliorations futures et facilitant des évaluations plus rigoureuses. * **Lancement en open-source** : Les annotations de vérité de terrain raffinées sont publiées comme une ressource open-source, permettant aux chercheurs de conducts des évaluations reproductibles. **Conclusion** : Les auteurs soulignent l'importance de résoudre les limites du benchmark RPE pour assurer des évaluations fiables et significatives des modèles d'estimation de pose humaine. En améliorant la reproductibilité, la qualité du benchmark et la documentation, le benchmark RPE peut devenir un outil plus robuste et précieux pour avancer la recherche dans ce domaine.


Articles Recommandés

Boudes inférieures plus strictes pour le Personalized PageRank de source unique

Barrières computationnelles pour les problèmes basés sur les permutations, et cumulants des variables aléatoires faiblement dépendantes

Théorie quantique du piège opto-magnétique

Un seuil inférieur inconditionnel pour la méthode de l'ensemble actif en maximisation quadratique convexe

PRACtical : Mise à jour du compteur au niveau des sous-tableaux et isolation de la récupération au niveau des banques pour la mitigation efficace du Rowhammer PRAC

Itération de point fixe déplacée avec applications au partage résolvent de pas variables

MC synthétique via des transmetteurs biologiques : Modulation thérapeutique de l'axe intestin-cerveau

Marche d'amplitude en timing rapide : Le rôle des seuils doubles

Décomposition en domaine temporel basée sur la dissipativité pour le contrôle optimal des EDP hyperboliques

Beaucoup plus que la somme de leurs parties : des mélanges statistiques aux mélanges structuraux