概要 - 画像とテキストの連携強化のための学習可能なリトリーブと放射線報告書生成のための融合

タイトル

画像とテキストの連携強化のための学習可能なリトリーブと放射線報告書生成のための融合

時間

2025-07-10 09:13:10

著者

{"Qin Zhou","Guoyan Liang","Xindi Li","Jingyuan Chen","Wang Zhe","Chang Yao","Sai Wu"}

カテゴリ

{stat.ME}

リンク
http://arxiv.org/abs/2507.07568v1

PDF リンク
http://arxiv.org/pdf/2507.07568v1

概要

秦周らの論文「Learnable Retrieval Enhanced Visual-Text Alignment and Fusion for Radiology Report Generation」では、画像診断報告書の自動生成を自動化するための新しいフレームワーク、REVTAFを提案しています。このフレームワークは、既存の方法におけるクラス不均衡と十分なクロスモーダル融合の問題に対処しています。 REVTAFには以下の2つの主要なコンポーネントが含まれています： 1. 学習可能なリトリーブメントエンリッチャー（LRE）：このコンポーネントは、超曲面空間からのセマンチックヒエラルキーとインバッチコンテキストを用いて、ランクに基づくメトリクスを通じて適応的に最も関連する参照報告書をリトリーブメントします。これにより、特に低頻度（テール）クラスの入力に対する画像表現が向上します。 2. 細粒度視覚-テキストアライメントと融合（FVTAF）：このコンポーネントは、多源クロスアテンションマップの一致を確保し、正確なアライメントを実現します。さらに、タスクに関連するテキストの知識を動的に統合するために、最適な輸送に基づくクロスアテンションメカニズムを用います。実験では、REVTAFが最も優れた方法を超えて性能を発揮し、MIMIC-CXRデータセットにおいて平均7.4%、IU X-Rayデータセットにおいて平均2.9%の改善を達成しました。主流のマルチモーダルLLM（例えば、GPTシリーズモデル）との比較では、画像診断報告書生成における優位性がさらに強調されました。論文の主な貢献は以下の通りです： - クラス不均衡と十分なクロスモーダル融合に対処するためのLREとFVTAFを組み合わせた新しいフレームワーク。 - 各入力画像に対して最も関連する参照報告書を適応的にリトリーブメントするための学習可能なソリューション、特にテールクラスに対して。 - 細粒度視覚-テキストアライメントと融合モジュールが、最適化されたクロスアテンションメカニズムと組み合わせた新しい視覚-テキスト一致モジュール。 - 最も優れた画像診断報告書生成方法およびマルチモーダルLLMとの広範な比較が行われ、提案されたアプローチの優れた性能が示されました。まとめると、REVTAFは画像診断報告書生成の効率と精度を向上させる有望なフレームワークであり、医療専門家の負担を軽減し、診断の効率を向上させる可能性があります。

推奨論文

ThermoRL: 蛋白質変異設計のための構造意識型強化学習による熱安定性の向上

「確証可能に修正可能なエージェントのための基本的安全価値」

SeC: 渐進的な概念構築を通じて複雑なビデオオブジェクトセグメンテーションを推進する

SIDA: 合成画像駆動のゼロショットドメイン適応

DNNベースのHSIセグメンテーション用FPGAベースのSoCのための最適化：実践的なアプローチ

検出されていない光子を使用した中間赤外線ハイパースペクトル画像撮影

変額年金：リベット保証、ハイブリッド契約設計、および課税の詳細な見解

VideoITG: 指示的な時空基盤を用いた多模様ビデオ理解

PrompTrend：大規模言語モデルのための継続的なコミュニティ主導の脆弱性発見と評価

SpiNNaker2神経モーフィックMPSoCのためのエンドツーエンドDNN推論フレームワーク