概要 - TrinityDNA:効率的な長序列DNAモデリングのための生物由来の基盤モデル

タイトル
TrinityDNA:効率的な長序列DNAモデリングのための生物由来の基盤モデル

時間
2025-07-25 12:55:30

著者
{"Qirong Yang","Yucheng Guo","Zicheng Liu","Yujie Yang","Qijin Yin","Siyuan Li","Shaomin Ji","Linlin Chao","Xiaoming Zhang","Stan Z. Li"}

カテゴリ
{cs.CE}

リンク
http://arxiv.org/abs/2507.19229v1

PDF リンク
http://arxiv.org/pdf/2507.19229v1

概要

この論文では、DNAシークエンスモデルリングの課題に対処するための新しいディープラーニングモデルであるTrinityDNAを提案しています。それは、生物学的情報を基にしたコンポーネントと革新的なアーキテクチャを統合し、ゲノムシークエンス解析の精度と効率を向上させることを目的としています。 **TrinityDNAの主要な機能**: * **生物学的にインスパイアされたコンポーネント**: * **溝融合モジュール**:DNAの独特の構造的特徴、例えば主要溝と次要溝を、多尺度の卷積操作を使用して捉えます。 * **ゲートド・リバースコンプリメント(GRC)メカニズム**:DNAシークエンスの内在的な対称性を利用し、並列で前向きと逆方向のコンプリメントストランドを処理します。 * **多尺度の注意メカニズム**:モデルが局所的なモチーフから長距離の調節領域までの依存関係を捉えることができます。 * **進化的トレーニング戦略**:プロカリアートと真核生物のゲノムをトレーニングすることで、多様なゲノム環境とシークエンス長に徐々に適応させます。 **TrinityDNAの利点**: * **精度向上**:遺伝子機能予測、調節機構の発見など、多くのゲノミクス応用における顕著な改善を達成します。 * **効率**:長距離依存関係を効率的に捉え、大規模なゲノムデータを処理します。 * **一般化**:多様なゲノム環境とシークエンス長に適応します。 **評価**: 論文では、以下の多くのタスクに対してTrinityDNAを評価しています: * **ゲノミック理解評価(GUE)ベンチマーク**:調節要素分類、ヒストンマーカー予測、スプライサイトアノテーションなどのタスクにおいて、最も優れた性能を達成しています。 * **ゼロショット性能**:DNA病原性、RNA DMS、タンパク質適応予測など、幅広いタスクにおいて既存のモデルを凌駕しています。 * **CDSアノテーションベンチマーク**:多様なデータセットに対して強力な一般化能力を示し、古典的な遺伝子予測ツールを凌駕しています。 **結論**: TrinityDNAはDNAシークエンスモデルリングにおける大きな進歩を代表しています。生物学的情報を基にしたコンポーネント、革新的なアーキテクチャ、堅牢なトレーニング戦略を組み合わせることで、より正確かつ効率的なゲノムシークエンス解析の方法を提供します。これは、個別医療、バイオテクノロジー、進化生物学などの多くの分野を革新する可能性があります。


推奨論文

三次元UAVパスプランニングと工学問題のための多戦略改善型スネーク最適化アルゴリズム

AQuilt: 専門用LLMsのための低コスト、高い関連性を持つデータ統合にロジックと自己検査を織り交ぜたもの

フロー・マッチングが生物学と生命科学に遭遇する:一つの調査

電気機械シミュレーションにおける不確実性評価のための並列時間積分を用いたマルチレベルモンテカルロサンプリング

「提案的帰納における断面説明の複雑さ」

プログラム可能な仮想人間による人間の生理学的な薬物発見への進展

流体力学の洞察が、ストリームライン工学を通じて多様な渦流場の動態を駆動します。

連続変数間の一致を測定する新しい係数

「手を放つ?」ほどではない:コンテンツベースの初期化を使用した連続的な推薦におけるアイテムの冷始末問題の解決策を探る

バランスの乱れ:生成モデルにおけるオンライン概念バランス