概要 - Mix-Geneformer: 人間とマウスのscRNA-seqデータのための統一表現学習
タイトル
Mix-Geneformer: 人間とマウスのscRNA-seqデータのための統一表現学習
時間
2025-07-10 06:15:17
著者
{"Yuki Nishio","Takayoshi Yamashita","Keita Ito","Tsubasa Hirakawa","Hironobu Fujiyoshi"}
カテゴリ
{q-bio.GN}
リンク
http://arxiv.org/abs/2507.07454v1
PDF リンク
http://arxiv.org/pdf/2507.07454v1
概要
Mix-Geneformerは、ヒトとマウスの遺伝子発現データを分析するために設計された新しいディープラーニングモデルです。ハイブリッド自己監督学習のアプローチを使用して、共有および種特異的な遺伝子表現を効果的にキャプチャします。Transformerアーキテクチャに基づくモデルは、マスクされた言語モデル(MLM)とSimCSEに基づく対比学習を組み合わせて、種間における一貫した遺伝子表現を達成します。 Mix-GeneformerのアーキテクチャはGeneformerやMouse-Geneformerに似ていますが、種間データを処理するように設計されています。このモデルは、ヒトとマウスのscRNA-seqデータを統合した大規模な合計データセット、Mix-Genecorpus-50Mを使用します。このデータセットは慎重にカurationされ、ランク値エンコーディングを使用して事前処理されたことで、モデルが生物学的に意味のある遺伝子パターンを学習する能力が向上しました。 Mix-Geneformerの事前訓練には、MLMとSimCSE損失を組み合わせたハイブリッド自己監督学習目標が含まれており、モデルは種間における文脈依存の遺伝子関係とセマンティックに一致する細胞表現を学習します。評価実験では、Mix-Geneformerが細胞種類分類およびインシリコパーシュタージョンタスクで既存の種特異的モデルと比較して同等または優れた性能を示しました。 インシリコパーシュタージョン実験では、Mix-Geneformerがヒトとマウスのモデルで病気に関連する遺伝子を特定および予測する能力が確認されました。これは、モデルが薬探索と病気機構の解明に役立つ可能性を示しています。全体として、Mix-Geneformerは種間表現データ分析のための有望なツールであり、薬探索と病気分析における転換研究の加速とリソース要求の削減に寄与する可能性があります。
推奨論文
因果学習のための目標指向的な連続ベイズ実験デザイン
流体力学の洞察が、ストリームライン工学を通じて多様な渦流場の動態を駆動します。
射影変換を通じての線形および定常ケプラー動力学:幾何学的視点
FD4QC:金融詐欺検出のための古典的および量子ハイブリッド機械学習の適用 技術報告
プログラム可能な仮想人間による人間の生理学的な薬物発見への進展
モダリティに依存しない効率的な長距離エンコーダ
フレッドキン-ヨンセン意見動態モデルの関連する量に対する効率的なアルゴリズム
ReCatcher: コード生成のためのLLMs(強化学習モデル)のリグレッションテストへの挑戦
「手を放つ?」ほどではない:コンテンツベースの初期化を使用した連続的な推薦におけるアイテムの冷始末問題の解決策を探る
保守的なSPH流体力学のための零次一致残差と背景圧力に関するもの