Résumé - Apprentissage amélioré de la récupération pour l'alignement et la fusion visuel-texte renforcés à l'intention de la génération de rapports de radiologie

Titre
Apprentissage amélioré de la récupération pour l'alignement et la fusion visuel-texte renforcés à l'intention de la génération de rapports de radiologie

Temps
2025-07-10 09:13:10

Auteur
{"Qin Zhou","Guoyan Liang","Xindi Li","Jingyuan Chen","Wang Zhe","Chang Yao","Sai Wu"}

Catégorie
{stat.ME}

Lien
http://arxiv.org/abs/2507.07568v1

PDF Lien
http://arxiv.org/pdf/2507.07568v1

Résumé

Le papier "Learnable Retrieval Enhanced Visual-Text Alignment and Fusion for Radiology Report Generation" par Qin Zhou et al. présente un nouveau cadre, REVTAF, pour automatiser la génération de rapports de radiologie. Ce cadre répond aux défis de l'imbalance des classes et de la fusion insuffisante entre les modalités, qui sont des problèmes significatifs dans les méthodes existantes. REVTAF intègre deux composants centraux : 1. Enhanceur de Récupération Apprenant (LRE) : Ce composant utilise des hiérarchies sémantiques à partir de l'espace hyperbolique et le contexte intra-batch via un métrique basé sur le classement pour récupérer de manière adaptive les rapports de référence les plus pertinents. Cela améliore les représentations d'image, en particulier pour les classes sous-représentées (extrémité). 2. Alignement et Fusion Visuels-Textuels Finement Granulaires (FVTAF) : Ce composant assure une cohérence à travers les cartes d'attention croisée de multiples sources pour une alignement précis. Il utilise également un mécanisme d'attention croisée basé sur le transport optimal pour intégrer dynamiquement les connaissances textuelles pertinentes pour améliorer la génération de rapports. Les expériences montrent que REVTAF surperforme les méthodes les plus avancées, atteignant une amélioration moyenne de 7,4 % sur le jeu de données MIMIC-CXR et de 2,9 % sur le jeu de données IU X-Ray. Les comparaisons avec les LLM multimodaux courants (par exemple, les modèles de la série GPT) mettent en lumière sa supériorité dans la génération de rapports de radiologie. Les contributions principales du papier sont : - Un nouveau cadre qui combine LRE et FVTAF pour traiter l'imbalance des classes et la fusion insuffisante entre les modalités. - Une solution apprenante pour récupérer de manière adaptive le rapport de référence le plus pertinent pour chaque image d'entrée, en particulier pour les classes extrêmes. - Un module d'alignement et de fusion visuels-textuels novateur qui intègre une cohérence croisée modale fine et un mécanisme d'attention croisée optimisé. - Comparaisons extensives avec les méthodes de génération de rapports de radiologie les plus avancées et les LLM multimodaux, démontrant la supériorité de l'approche proposée. En résumé, REVTAF est un cadre prometteur pour améliorer l'efficacité et l'exactitude de la génération de rapports de radiologie, avec le potentiel de réduire la charge de travail des professionnels de la santé et d'améliorer l'efficacité diagnostique.


Articles Recommandés

Rattachement du sujet pour réduire les interférences électromagnétiques des scanners IRM fonctionnant dans des environnements non blindés.

CASCADE : Déboucheur JavaScript déobfusqué alimenté par un LLM chez Google

Modélisation des incertitudes sur le fond de bosons Z dans le contexte des mesures de haute précision de la masse du boson W

Biquandles Virtuels et Nœuds Virtuels

AbGen : Évaluation des grands modèles de langage dans la conception et l'évaluation des études d'ablation pour la recherche scientifique

Un accélérateur de planification de trajectoire autonome conscient de la sparsity avec co-conception HW/SW et optimisation de données de flux multi-niveaux

Complexité des Explications Facétialisées dans l'Abduction Propositionnelle

Un cadre de physique statistique pour l'apprentissage optimal

RADAR : une analyse basée sur les radio pour la dynamique d'association et la reconnaissance de pseudonymes dans les VANETs (Vehicular Ad-hoc Networks).

Spectroscopie de refroidissement pour les bosons de Lieb-Liniger en présence de piégeage harmonique