概要 - 稀疏自動エンコーダが小規模遺伝子言語モデルにおける解釈可能な構造を明らかにする

タイトル
稀疏自動エンコーダが小規模遺伝子言語モデルにおける解釈可能な構造を明らかにする

時間
2025-07-10 07:13:54

著者
{"Haoxiang Guan","Jiyan He","Jie Zhang"}

カテゴリ
{q-bio.OT}

リンク
http://arxiv.org/abs/2507.07486v1

PDF リンク
http://arxiv.org/pdf/2507.07486v1

概要

シンガポールで2025年7月8日から11日に開催されたAI4X 2025会議では、Haoxiang Guan、Jiyan He、Jie Zhangによる「稀疏自動エンコーダが小規模遺伝子言語モデルの解釈可能な構造を明らかにする」と題する研究が発表されました。この研究は、稀疏自動エンコーダ(SAE)が遺伝子言語モデルの内部の動作を解釈する可能性を探っています。特に、サイズがコンパクトなモデルについての研究です。 遺伝子言語モデルは、ゲノムシークエンスのパターンを理解し予測するために設計されています。生物学的研究において重要ですが、その解釈可能性は難しいままです。一方、稀疏自動エンコーダは、大規模言語モデルの内部表現を解釈する強力なツールとして登場しています。これにより、意味を持つ潜在的な特徴が明らかになります。 この研究では、研究者たちはSAEを小規模な遺伝子言語モデルであるHyenaDNA-small-32kの活性化に適用しました。このモデルはパラメータが少ないためコンパクトですが、生物学的に関連するゲノム特徴をエンコードする能力があります。HyenaDNA-small-32kから得られたエンブディングにSAEをトレーニングし、モデルが意味のある特徴を効果的に発見できることを示しました。例えば、転写因子結合モチーフなどの特徴です。 研究者たちはSAEのトレーニングにパイプラインを使用し、HyenaDNA-small-32kの第3層から潜在的な表現を抽出することから始めました。特定のゲノム環境に過度に適応することを防ぐために、アクティベーションを全体でシャッフルしました。処理されたアクティベーションは、32倍の拡張係数でトレーニングされ、8,192のサイズの特徴辞書が作成されました。 結果として得られた稀疏な特徴の生物学的相关性を評価するために、研究者たちは染色体14にJASPAR転写因子結合サイト(TFBS)を注釈し、モチーフ頻度とp値の閾値に基づいた品質フィルタリングを実施しました。次に、モチーフレベルの注釈をヌクレオチドレベルのラベルに変換し、0.15の活性化閾値を使用して、SAEの特徴が活性化されているかどうかを決定しました。 結果は、SAEが個別のヌクレオチドに対応する稀疏な特徴や生物学に関連するTFBSを成功して特定したことを示しました。ヌクレオチド特異的な特徴は高い精度を示し、学習された表現が特定のヌクレオチドの識別に対して選択的であることを示しました。ヌクレオチドレベルの特徴に加えて、研究者たちは既知の転写因子モチーフと一致する稀疏な次元を特定し、コンパクトモデルが重要なゲノム特徴を捉える能力を強調しました。 全体として、この研究は小規模な遺伝子言語モデルが構造的で生物学に関連する表現をエンコードし、ヌクレオチド構成と転写因子結合パターンを両方にわたることを示しました。研究者たちは、SAEが小規模な遺伝子言語モデルから生物学的な意味のある表現を効果的に抽出し、ヌクレオチドレベルと調節要素レベルの構造的な特徴を明らかにすることを結論付けました。 この研究は、SAEが遺伝子言語モデルの解釈可能性を向上させ、ゲノムシークエンスのさらなる探索を促進する可能性を持つことを示唆しています。今後の研究では、このアプローチを非コード領域や種特異的な変異などの他のゲノム環境に拡張することが考えられ、SAEが異なるアーキテクチャ間のモデルの改良と解釈可能性を支援する方法を探ることができます。さらに、SAEは単細胞遺伝子発現や多オミクスデータセットなどの他の生物学モデルやデータモダリティに適用され、多様な生物学システムにおける解釈可能な表現を明らかにすることが期待されます。


推奨論文

CRAFT: エッジ-フォグ環境におけるノード配置のための遺伝子ベースの遅延とコスト意識フレームワーク

ツイートを用いた混合専門家による説明可能な株価予測の学習

「コードベースのPIRスキーマの安全性について」

薄膜におけるランダムプラズマ照射下の双峰分布の正確な解

SVAgent:ハードウェアセキュリティ検証の断言のためのAIアージェント

UserBench: ユーザーセンタルなエージェントのためのインタラクティブなジム環境

MODA: マルチタスクターゲット意識型分子生成のための統一化3D拡散フレームワーク

光顕微鏡および生物医学画像における曲線構造のセグメントーションのための適応的な注目残差U-Net

視覚と言語のトレーニングは分類学的知識の展開を助けますが、それを根本的に変えるものではありません

GEPA: 反映的なプルミプト進化が强化学習を超える可能性があります