Résumé - Apprentissage amélioré de la récupération pour l'alignement et la fusion visuel-texte renforcés à l'intention de la génération de rapports de radiologie
Titre
Apprentissage amélioré de la récupération pour l'alignement et la fusion visuel-texte renforcés à l'intention de la génération de rapports de radiologie
Temps
2025-07-10 09:13:10
Auteur
{"Qin Zhou","Guoyan Liang","Xindi Li","Jingyuan Chen","Wang Zhe","Chang Yao","Sai Wu"}
Catégorie
{stat.ME}
Lien
http://arxiv.org/abs/2507.07568v1
PDF Lien
http://arxiv.org/pdf/2507.07568v1
Résumé
Le papier "Learnable Retrieval Enhanced Visual-Text Alignment and Fusion for Radiology Report Generation" par Qin Zhou et al. présente un nouveau cadre, REVTAF, pour automatiser la génération de rapports de radiologie. Ce cadre répond aux défis de l'imbalance des classes et de la fusion insuffisante entre les modalités, qui sont des problèmes significatifs dans les méthodes existantes.
REVTAF intègre deux composants centraux :
1. Enhanceur de Récupération Apprenant (LRE) : Ce composant utilise des hiérarchies sémantiques à partir de l'espace hyperbolique et le contexte intra-batch via un métrique basé sur le classement pour récupérer de manière adaptive les rapports de référence les plus pertinents. Cela améliore les représentations d'image, en particulier pour les classes sous-représentées (extrémité).
2. Alignement et Fusion Visuels-Textuels Finement Granulaires (FVTAF) : Ce composant assure une cohérence à travers les cartes d'attention croisée de multiples sources pour une alignement précis. Il utilise également un mécanisme d'attention croisée basé sur le transport optimal pour intégrer dynamiquement les connaissances textuelles pertinentes pour améliorer la génération de rapports.
Les expériences montrent que REVTAF surperforme les méthodes les plus avancées, atteignant une amélioration moyenne de 7,4 % sur le jeu de données MIMIC-CXR et de 2,9 % sur le jeu de données IU X-Ray. Les comparaisons avec les LLM multimodaux courants (par exemple, les modèles de la série GPT) mettent en lumière sa supériorité dans la génération de rapports de radiologie.
Les contributions principales du papier sont :
- Un nouveau cadre qui combine LRE et FVTAF pour traiter l'imbalance des classes et la fusion insuffisante entre les modalités.
- Une solution apprenante pour récupérer de manière adaptive le rapport de référence le plus pertinent pour chaque image d'entrée, en particulier pour les classes extrêmes.
- Un module d'alignement et de fusion visuels-textuels novateur qui intègre une cohérence croisée modale fine et un mécanisme d'attention croisée optimisé.
- Comparaisons extensives avec les méthodes de génération de rapports de radiologie les plus avancées et les LLM multimodaux, démontrant la supériorité de l'approche proposée.
En résumé, REVTAF est un cadre prometteur pour améliorer l'efficacité et l'exactitude de la génération de rapports de radiologie, avec le potentiel de réduire la charge de travail des professionnels de la santé et d'améliorer l'efficacité diagnostique.
Articles Recommandés
Rattachement du sujet pour réduire les interférences électromagnétiques des scanners IRM fonctionnant dans des environnements non blindés.
CASCADE : Déboucheur JavaScript déobfusqué alimenté par un LLM chez Google
Modélisation des incertitudes sur le fond de bosons Z dans le contexte des mesures de haute précision de la masse du boson W
Biquandles Virtuels et Nœuds Virtuels
AbGen : Évaluation des grands modèles de langage dans la conception et l'évaluation des études d'ablation pour la recherche scientifique
Un accélérateur de planification de trajectoire autonome conscient de la sparsity avec co-conception HW/SW et optimisation de données de flux multi-niveaux
Complexité des Explications Facétialisées dans l'Abduction Propositionnelle
Un cadre de physique statistique pour l'apprentissage optimal
RADAR : une analyse basée sur les radio pour la dynamique d'association et la reconnaissance de pseudonymes dans les VANETs (Vehicular Ad-hoc Networks).
Spectroscopie de refroidissement pour les bosons de Lieb-Liniger en présence de piégeage harmonique