概要 - DR.EHR: 知識注入と合成データを用いた電子健康記録の密な検索

タイトル
DR.EHR: 知識注入と合成データを用いた電子健康記録の密な検索

時間
2025-07-24 17:02:46

著者
{"Zhengyun Zhao","Huaiyuan Ying","Yue Zhong","Sheng Yu"}

カテゴリ
{cs.IR,cs.AI,cs.CL}

リンク
http://arxiv.org/abs/2507.18583v1

PDF リンク
http://arxiv.org/pdf/2507.18583v1

概要

この論文は、知識注入と合成データを使用した密集な検索技術を適用した電子健康記録(EHR)の検索方法であるDR.EHRを紹介しています。EHRは臨床実践において重要ですが、意味のギャップの問題により、関連情報を検索することは難しいです。既存の密集検索モデル、一般分野と生物医学分野の両方では、医療知識が限られているか、トレーニングコーパスが一致していないため、不十分です。 DR.EHRは、以下の二段階のトレーニングパイプラインを提案してこの問題に対処しています: 1. **知識注入**:MIMIC-IVの入院記録と生物医学知識グラフ(KG)を使用して、医療エンティティの言及を抽出し、知識注入を行います。これは、各医療エンティティに対して同義語、上位概念、関連エンティティを識別することで、モデルの知識ベースを充実させることを含みます。 2. **合成データ生成**:大規模言語モデル(LLM)を使用して多様なトレーニングデータを生成します。LLMは、各EHRに対して関連するエンティティを生成するように促され、訓練に使用する大規模で多様なデータセットを作成します。 論文は、DR.EHRの2つのバリエーション、DR.EHR-small(110Mパラメータ)とDR.EHR-large(7Bパラメータ)を紹介し、バッチ内ネガティブと比較的な学習を使用してトレーニングしています。CliniQベンチマークにおける評価では、DR.EHRが既存の密集検索器を大幅に上回り、最も優れた結果を達成しました。詳細な分析では、DR.EHRがさまざまなマッチングとクエリのタイプにおいて、特に難しい意味のマッチング、例えば含意や省略形のマッチングにおいて優れたパフォーマンスを示しました。 アブレーション研究は、トレーニングパイプラインの各要素の効果を確認し、EHR QAデータセットにおける実験は、モデルが複数のエンティティを含む複雑な自然言語の質問に一般化できることを示しました。 全体として、DR.EHRはEHR検索に対する堅牢な解決策を提供し、意味のギャップの課題を解決し、臨床アプリケーションに対する価値あるツールを提供します。


推奨論文

RailX:超スケールLLMトレーニングシステムのための柔軟で拡張可能で低コストなネットワークアーキテクチャ

未来の知能のためのヴォン・ノイマンのアーキテクチャを強化する

感情記憶リンク:記憶性アノテーションがインテリジェントシステムにとって重要か?

射影変換を通じての線形および定常ケプラー動力学:幾何学的視点

ヒーガード分離に対する圧縮データ構造

ブロック符号化におけるアンシラ・オーバーヘッドを削減する方法

VideoITG: 指示的な時空基盤を用いた多模様ビデオ理解

脊椎側弯診断のための深層学習モデルの多施設認証

バランスの乱れ:生成モデルにおけるオンライン概念バランス

圧縮性と敵対的耐性の相互作用