Résumé - DR.EHR : Recherche dense pour les dossiers de santé électroniques avec injection de connaissances et données synthétiques

Titre
DR.EHR : Recherche dense pour les dossiers de santé électroniques avec injection de connaissances et données synthétiques

Temps
2025-07-24 17:02:46

Auteur
{"Zhengyun Zhao","Huaiyuan Ying","Yue Zhong","Sheng Yu"}

Catégorie
{cs.IR,cs.AI,cs.CL}

Lien
http://arxiv.org/abs/2507.18583v1

PDF Lien
http://arxiv.org/pdf/2507.18583v1

Résumé

L'article présente DR.EHR, une approche innovante pour la recherche de dossiers de santé électroniques (EHR) en utilisant des techniques de recherche dense avec injection de connaissances et données synthétiques. Les EHR sont essentiels dans les pratiques cliniques, mais la récupération d'informations pertinentes à partir de ceux-ci reste un défi dû aux problèmes de lacunes sémantiques. Les modèles de recherche dense existants, tant dans le domaine général que dans le domaine biomédical, sont insuffisants en raison d'une connaissance médicale limitée ou de corpus d'entraînement non correspondants. DR.EHR résout ce problème en proposant un pipeline d'entraînement en deux étapes : 1. **Injection de Connaissances** : Utilise les résumés de sortie MIMIC-IV et un graphique de connaissances biomédical (KG) pour extraire les mentions d'entités médicales et effectuer l'injection de connaissances. Cela implique l'identification de synonymes, d'hypernymes et d'entités liées pour chaque entité médicale, enrichissant la base de connaissances du modèle. 2. **Génération de Données Synthétiques** : Utilise des modèles de grande langue (LLM) pour générer des données d'entraînement diversifiées. Les LLM sont invités à générer des entités pertinentes pour chaque EHR, créant un grand ensemble de données diversifié pour l'entraînement. L'article présente deux variantes de DR.EHR, DR.EHR-small (110M paramètres) et DR.EHR-large (7B paramètres), entraînées à l'aide de l'apprentissage contrastif avec des négatifs en interne. L'évaluation sur le cadre de référence CliniQ montre que DR.EHR surpasse significativement les rétrécisseurs dense existants, atteignant des résultats de pointe. Des analyses détaillées confirment la performance supérieure de DR.EHR sur divers types de correspondance et de requêtes, en particulier dans les correspondances sémantiques difficiles telles que les correspondances par implication et les correspondances par abréviation. Des études d'ablation valident l'efficacité de chaque composant dans le pipeline d'entraînement, et des expériences sur les ensembles de données d'QA EHR montrent la généralisabilité des modèles aux questions naturelles, y compris celles complexes avec plusieurs entités. Dans l'ensemble, DR.EHR offre une solution robuste pour la recherche de dossiers de santé électroniques, en répondant au défi des lacunes sémantiques et en fournissant un outil précieux pour les applications cliniques.


Articles Recommandés

Données atomiques calibrées des lanthanides pour la transmission radiative des kilonovae. I. Structure atomique et opacités.

Intérieur des arbres à distance sur des ensembles de Cantor fins

Une étude complète sur les signaux de vitesse radiale utilisant ESPRESSO : Amélioration de la précision jusqu'au niveau de 10 cm/s

Barrières computationnelles pour les problèmes basés sur les permutations, et cumulants des variables aléatoires faiblement dépendantes

États de groupes résilients dans le Mott dans la Nb$_3$Cl$_8$ couchée contre la brisure de symétrie induite par la pression

Compteage SMT Approximatif au-delà des Domains Discrètes

Hyperons dans les étoiles neutres froides avec un fossé

L'hypothèse géométrique P=W et la compactification de Thurston

Quantification de la formation de biofilm grâce à l'espace latent assisté par microfluidique à goutte résolue temporellement

Mélange vestigial de l'ordre dans un superfluide atomique chirale dans un réseau optique à deux vallées