概要 - 「強化学習を通じて大規模言語モデルによる推論駆動型逆合成予測」
タイトル
「強化学習を通じて大規模言語モデルによる推論駆動型逆合成予測」
時間
2025-07-23 12:13:06
著者
{"Situo Zhang","Hanqi Li","Lu Chen","Zihan Zhao","Xuanze Lin","Zichen Zhu","Bo Chen","Xin Chen","Kai Yu"}
カテゴリ
{cs.CE,cs.AI,physics.chem-ph}
リンク
http://arxiv.org/abs/2507.17448v1
PDF リンク
http://arxiv.org/pdf/2507.17448v1
概要
この論文は、化学の逆合成反応に特化した推論駆動型大規模言語モデル(LLM)であるRETRO DFM-Rを提案しています。逆合成反応は有機合成や薬の発見において重要なプロセスであり、目標分子を可能な前駆体に分解することで、化学者が効率的な合成経路を設計できるようにします。
現存の逆合成反応のための方法は、適用範囲と説明可能性の両方で限界があります。伝統的なグラフベースやシーケンスからシーケンスへのモデルは一般化された化学知識に欠け、一貫性のない精度と説明の難しさをもたらします。RETRO DFM-RはLLMの推論能力と強化学習を活用してこれらの課題を解決しています。
RETRO DFM-Rの主要な特徴:
* **推論駆動型LLM**:RETRO DFM-Rは化学の分野知識と高度な推論能力を統合し、正確かつ説明可能な逆合成予測を提供します。専門の化学者の段階的な論理を模倣し、分子構造を系統的に分析し、合理的な逆合成分解を特定します。
* **トレーニングパイプライン**:モデルは以下の三段階のパイプラインでトレーニングされます:
1. **継続的な事前トレーニング**:モデルはSMILES-IUPAC名の変換ペアと逆合成予測を含むデータセットで事前トレーニングされ、分野固有の知識を豊かにします。
2. **冷始推理精製**:モデルは答え条件付きの精製を使用してさらにトレーニングされ、一般領域の推論モデルを利用して高品質な推理トレースを生成し、モデルの推論能力を初期化します。
3. **強化学習**:モデルは検証可能な報酬を使用するDAPOアルゴリズムでトレーニングされ、精度をさらに向上させ、健全な推論を促進します。
* **SMILES-IUPAC変換トレーニング**:RETRO DFM-Rはターゲット分子の入出力に必要なSMILES表現とテキスト中の化学知識のギャップを埋めるために、ターゲット的なSMILES-IUPAC変換トレーニングを実施します。
* **説明可能性**:モデルは合成決定の詳細な理由を提供し、化学者がモデルの思考プロセスを理解し、実行可能な洞察を得られるようにします。
評価結果:
* RETRO DFM-RはUSPTO-50Kバenchmarkにおいて最も優れた方法を大幅に上回り、65.0%のトップ-1精度を達成しました。
* 双盲の人間評価はRETRO DFM-Rの予測の化学的合理性と実用性を確認しました。
* RETRO DFM-Rは文献で報告された多段階の逆合成経路を正確に予測し、実際の薬分子やペロブスキート素材の両方で実現しました。
* モデルの明確な推論プロセスは、人間が解釈可能な洞察を提供し、実際の逆合成適用における信頼性と実用価値を高めます。
全体的に見て、RETRO DFM-Rは推論駆動型LLMが逆合成予測の精度と説明可能性を向上させる可能性を示し、薬の発見や物質科学の化学者にとって価値のあるツールを提供しています。
推奨論文
IFD: 内部者報告違反検出のための大規模バンチマーク
分数的および拡張したハイパートリewidthのFPTパラメタ化
ランクベクトルクラスタリング:理論と応用
草のゲノムにおける広範な遠縁 introgression
機械学習駆動の酵素採掘:機会、課題、そして将来の展望
PurpCode: より安全なコード生成のための推論
チェックリストは、言語モデルの一致を促進するための報酬モデルよりも優れている
非交差数の一般の厳しい制限(境界交差点数に対して厳しい)
セキュア・タグ・オブ・ウォー(SecTOW):マルチモーダルモデルのセキュリティのための強化学習を用いた反復的な防衛攻撃トレーニング
ICモジュールレベルの検証自動化のためのマルチエージェント生成AIフレームワーク