Resumen - DR.EHR: Búsqueda Densa para Registros Clínicos Electrónicos con Inyección de Conocimiento y Datos Sintéticos
Título
DR.EHR: Búsqueda Densa para Registros Clínicos Electrónicos con Inyección de Conocimiento y Datos Sintéticos
Tiempo
2025-07-24 17:02:46
Autor
{"Zhengyun Zhao","Huaiyuan Ying","Yue Zhong","Sheng Yu"}
Categoría
{cs.IR,cs.AI,cs.CL}
Enlace
http://arxiv.org/abs/2507.18583v1
PDF Enlace
http://arxiv.org/pdf/2507.18583v1
Resumen
El documento introduce DR.EHR, un nuevo enfoque para la recuperación de registros electrónicos de salud (EHR) utilizando técnicas de recuperación densa con inyección de conocimiento y datos sintéticos. Los EHR son cruciales en las prácticas clínicas, pero recuperar información relevante de ellos sigue siendo un desafío debido a problemas de brecha semántica. Los modelos de recuperación densa existentes, tanto del dominio general como del dominio biomédico, son insuficientes debido a un conocimiento médico limitado o a conjuntos de entrenamiento no coincidentes.
DR.EHR aborda esto proponiendo una tubería de entrenamiento en dos etapas:
1. **Inyección de Conocimiento**: Utiliza resúmenes de alta hospitalización de MIMIC-IV y un grafo de conocimiento biomédico (KG) para extraer menciones de entidades médicas y realizar inyección de conocimiento. Esto implica identificar sinónimos, superpuestos y entidades relacionadas para cada entidad médica, enriqueciendo la base de conocimiento del modelo.
2. **Generación de Datos Sintéticos**: Emplea grandes modelos de lenguaje (LLM) para generar datos de entrenamiento diversos. Los LLM se les pide que generen entidades relevantes para cada EHR, creando un conjunto de datos grande y diverso para el entrenamiento.
El documento presenta dos variantes de DR.EHR, DR.EHR-small (con 110M parámetros) y DR.EHR-large (con 7B parámetros), entrenadas utilizando aprendizaje contrastivo con negativos en el lote. La evaluación en el conjunto de datos de referencia CliniQ demuestra que DR.EHR supera significativamente a los recuperadores densos existentes, alcanzando resultados de vanguardia. Análisis detallados confirman la superioridad del DR.EHR en varios tipos de coincidencia y consulta, particularmente en coincidencias semánticas desafiantes como la coincidencia de implicación y la coincidencia de abreviaturas.
Estudios de ablación validan la efectividad de cada componente en la tubería de entrenamiento, y los experimentos en conjuntos de datos de QA de EHR demuestran la generalización de los modelos a preguntas de lenguaje natural, incluyendo las complejas con múltiples entidades.
En resumen, DR.EHR ofrece una solución robusta para la recuperación de EHR, abordando el desafío de la brecha semántica y proporcionando una herramienta valiosa para aplicaciones clínicas.
Artículos Recomendados
Análisis Térmico de Espectros de Momentum Transversal en Colisiones Pb-Pb a 2.76 TeV: Dependencia de la Centralidad de la Temperatura, Parámetros de Congelamiento y No-Extensividad
Parametrizaciones de FPT de Ancho de Hipertree Fraccional y Generalizado
Tipo IIB en ocho derivados: Acoplamientos Axio-Dilatón de Cinco Puntos
Buscar la cláusula falsificada en (log n)-CNFs aleatorios es difícil para la comunicación aleatoria
Planetas más grandes que Neptuno tienen elevadas excentricidades
Explorando espectros primordiales de poder a pequeña escala con ondas gravitacionales inducidas por tensores y escalar
Dinámica macroscópica de conjuntos de osciladores con comunidades, interacciones de orden superior y retrasos en la fase
Estabilidad de Fase y Transformaciones en Perovskitas Mixtas de Haluros de Plomo desde Campos de Fuerza de Aprendizaje Automático
Un nuevo coeficiente para medir el acuerdo entre variables continuas
AbGen: Evaluación de Grandes Modelos de Lenguaje en Diseño y Evaluación de Estudios de Ablación para la Investigación Científica