Zusammenfassung - DR.EHR: Dichtes Retrieval für elektronische Gesundheitsakten mit Wissensinjektion und synthetischen Daten
Titel
DR.EHR: Dichtes Retrieval für elektronische Gesundheitsakten mit Wissensinjektion und synthetischen Daten
Zeit
2025-07-24 17:02:46
Autor
{"Zhengyun Zhao","Huaiyuan Ying","Yue Zhong","Sheng Yu"}
Kategorie
{cs.IR,cs.AI,cs.CL}
Link
http://arxiv.org/abs/2507.18583v1
PDF Link
http://arxiv.org/pdf/2507.18583v1
Zusammenfassung
Das Papier stellt DR.EHR vor, eine neue Methode zur Recherche elektronischer Gesundheitsdaten (EHR) durch den Einsatz dichter Suchtechniken mit Wissensinjektion und synthetischen Daten. EHRs sind in der klinischen Praxis entscheidend, aber die Recherche relevanter Informationen aus ihnen bleibt eine Herausforderung aufgrund von semantischen Lücken. Bestehende dichte Retrieval-Modelle, sowohl im Allgemeinsachgebiet als auch im biomedizinischen Bereich, sind unzureichend, da sie begrenzte medizinisches Wissen oder nicht übereinstimmende Trainingskorpora aufweisen.
DR.EHR behebt dies durch die Vorschläge einer zweistufigen Trainingspipeline:
1. **Wissensinjektion**: Nutzt Discharge-Summaries aus MIMIC-IV und ein biomedizinisches Wissensnetzwerk (KG), um medizinische Entitätsnennungen zu extrahieren und Wissensinjektion durchzuführen. Dies beinhaltet das Identifizieren von Synonymen, Hypernymen und verwandten Entitäten für jede medizinische Entität, um die Wissensbasis des Modells zu bereichern.
2. **Synthetische Daten Generierung**: Verwendet große Sprachmodelle (LLMs), um diverse Trainingsdaten zu generieren. Die LLMs werden dazu angeregt, relevante Entitäten für jedes EHR zu erzeugen, um ein großes und vielfältiges Trainingsdatenset zu schaffen.
Das Papier präsentiert zwei Varianten von DR.EHR, DR.EHR-small (110M Parameter) und DR.EHR-large (7B Parameter), die mit kontrastiver Lernen und negativen Einträgen im Batch trainiert wurden. Die Bewertung auf dem CliniQ-Benchmark zeigt, dass DR.EHR erheblich überlegen ist im Vergleich zu bestehenden dichten Retrieval-Modellen, indem es state-of-the-art-Ergebnisse erzielt. Detaillierte Analysen bestätigen die überlegene Leistung von DR.EHR bei verschiedenen Arten von Übereinstimmungen und Abfragen, insbesondere in herausfordernden semantischen Übereinstimmungen wie Implikation und Abkürzungsmatching.
Ablation-Studien validieren die Effektivität jedes Bestandteils in der Trainingspipeline, und Experimente auf EHR-QA-Datensätzen demonstrate die Generalisierungsfähigkeit der Modelle auf natürliche Sprachfragen, einschließlich komplexer Fragen mit mehreren Entitäten.
Insgesamt bietet DR.EHR eine robuste Lösung für die Recherche elektronischer Gesundheitsdaten, löst die Herausforderung der semantischen Lücke und stellt ein wertvolles Werkzeug für klinische Anwendungen zur Verfügung.
Empfohlene Papiere
Vorab trainiertes AI-Modell zur Unterstützung des Online-Entscheidungsprozesses bei fehlenden Kovariaten: Eine theoretische Perspektive
Latente-Raum-gesteuerte Quantifizierung der Biofilm-Bildung mittels zeitrafferbasierter Tropfen-Mikrofludik
(Note: The translation has been adapted to fit the German scientific terminology and syntax.)
Unausgewogen im Gleichgewicht: Online-Konzeptausgewogenheit in Generationsmodellen
Produktion, Qualitätssicherung und Qualitätskontrolle der SiPM-Tiles für die DarkSide-20k Zeitprojektionskammer
Lehre aus dem TREC Plain Language Adaptation of Biomedical Abstracts (PLABA) Track
Verbesserte Aufwachzeit für das Euclidische Freezing-Tag-Problem
Synthetische MC über biologische Botenstoffe: Therapeutische Modulation des Darm-Hirn-Achses
Zeitliche und räumliche Abtrennungen zwischen Spin-Glass und Kurzreichweite-Ordnung
DT4PCP: Ein Digital-Twin-Framework für personalisierte Pflegeplanung angewendet auf die Behandlung von Typ-2-Diabetes
Geheimnisse aus dem frühen Universum: Der Ringdown primordialer Schwarzer Löcher