Résumé - CXR-CML : Amélioration de la classification à partir de zéro des maladies à longues queues à étiquettes multiples sur les radiographies thoraciques

Titre
CXR-CML : Amélioration de la classification à partir de zéro des maladies à longues queues à étiquettes multiples sur les radiographies thoraciques

Temps
2025-07-25 16:05:47

Auteur
{"Rajesh Madhipati","Sheethal Bhat","Lukas Buess","Andreas Maier"}

Catégorie
{cs.CV,cs.AI}

Lien
http://arxiv.org/abs/2507.19398v1

PDF Lien
http://arxiv.org/pdf/2507.19398v1

Résumé

CXR-CML est une nouvelle approche pour améliorer la classification à partir de zéro des maladies à longues queues multi-label dans les images de radiographies thoraciques (CXR). Elle vise à répondre aux défis de l'imbalance des classes et de l'under-représentation des maladies rares dans les ensembles de données CXR, avec lesquels les modèles de deep learning supervisés automatiquement actuels ont du mal. Les auteurs de CXR-CML s'appuient sur le modèle existant CLIP, qui modélise efficacement l'espace latent de l'ensemble de données. Cependant, ils ont constaté que la performance de CLIP se détériore considérablement pour les classes à longues queues avec une distribution rare. Pour traiter ce problème, ils introduisent un mécanisme de pondération des classes qui s'aligne sur la distribution des classes dans l'espace latent. Les principales contributions de CXR-CML sont : 1. Modéliser plus efficacement le manifold de distribution latente en utilisant le Modèle de Mixture Gaussienne (GMM) et la distribution t de Student. 2. Utiliser la distribution groupée pour appliquer une perte de métrique, ce qui entraîne une amélioration robuste sur une large gamme de catégories. 3. Effectuer une évaluation robuste en utilisant la validation croisée 5-fois sur un ensemble diversifié de 40 catégories de maladies, y compris 12 catégories rares et 28 catégories communes. Voici une analyse détaillée de la méthode CXR-CML : 1. **Modélisation de l'espace latent** : - Les auteurs appliquent un GMM sur les embeddings visuels-langage extraits par CLIP, ce qui aide à identifier les clusters correspondant à différentes catégories de maladies. - La distribution t de Student est utilisée pour affiner les clusters du GMM, capturant la nature heavy-tailed des données médicales et améliorant la représentation des classes sous-représentées. 2. **Apprentissage métrique** : - Les auteurs utilisent une perte de métrique (perte triplet) pour affiner davantage l'espace des caractéristiques en améliorant la compacité intra-classe et la séparation inter-classe. - Des pseudo-étiquettes générées à partir du clustering GMM sont utilisées pour guider la sélection des triplets pour la perte de métrique. 3. **Génération de texte** : - Les auteurs génèrent des descriptions textuelles pour chaque catégorie en utilisant les annotations de vérité et des techniques de traitement du langage naturel (NLP). - Ces descriptions textuelles agissent comme des signaux supervisés faibles pour améliorer l'entraînement et améliorer les performances de classification. 4. **Évaluation** : - Les auteurs évaluent CXR-CML sur le dataset MIMIC-CXR-JPG, qui contient 234 800 images de CXR étiquetées avec 39 catégories de maladies. - Ils comparent les performances de CXR-CML avec d'autres modèles VL de pointe (SOTA) et atteignent des résultats supérieurs, en particulier pour les maladies rares. Les auteurs concluent que CXR-CML répond efficacement aux défis de la classification à longues queues dans les images de CXR en modélisant la distribution latente et en améliorant la représentation des classes sous-représentées. Cela en fait une approche prometteuse pour les applications pratiques dans les environnements cliniques.


Articles Recommandés

Arbres de dépliage co-compactes

De la Feedback à la Liste de Vérification : Évaluation Fondée des Carnets Cliniques Générés par l'IA

Fonction L de Godement--Jacquet et élèvement homologique du theta

Apprentissage contrastif Audio-Vision pour la reconnaissance des classes phonologiques

Récupération d'informations privées symétrique (SPIR) sur des systèmes répliqués basés sur des graphes

L'Autre Esprit : Comment les Modèles Linguistiques Montrent une Cognition Temporelle Humaine

Flattening en $L^2$ des mesures auto-similaires sur des courbes non-dégénérées

Défis de sécurité des logiciels quantiques dans des environnements de calcul quantique partagés

Effets tridimensionnels et des coups de main et lâcher sur un couple d'ailes frétillantes utilisées pour la génération de poussée

États de mur quantique pour la réduction du bruit et des bornes de pureté éternelle