機構的解釈可能性 - 百科事典
### メカニズムの解釈可能性(しばしば「メカ インタ」と略される)は、人工知能の解釈可能な分野の中のサブフィールドで、神経網を完全にリバースエンジニアリングすることを目指しています(コンピュータープログラムのコンパイルバイナリをリバースエンジニアリングに似ています)。最終的な目標は、その計算の背後にあるメカニズムを理解することです。この分野は特に大規模な言語モデルに焦点を当てています。
歴史
Chris Olahは「メカニズムの解釈可能性」という用語を考案し、分野の初期開発をリードしたと一般的に認められています。2018年の論文「The Building Blocks of Interpretability」で、Olah(当時Google Brainに在籍)とその同僚は、特徴視覚化、次元削減、属性と人間-コンピュータインターフェース方法を組み合わせて、視覚モデルの神経細胞に表現される特徴を探求しました。2020年3月の論文「Zoom In: An Introduction to Circuits」で、OlahとOpenAIのClarityチームは「神経科学や細胞生物学にインスパイアされたアプローチ」として、「特徴は個々の細胞のように計算の基盤を形成し、回路に接続して「ネットワークのサブグラフ」として理解できる」と仮説しました。この論文では、著者たちは自らの研究を「神経細胞の重みに基づくメカニズムの実装の理解」と述べています。
2021年、Chris OlahはAnthropicという会社を共同設立し、その解釈可能性チームを設立しました。このチームはTransformer Circuits Threadで結果を発表しました。2021年12月には、チームは「A Mathematical Framework for Transformer Circuits」というタイトルの論文を発表し、単層と二層の注目層を持つトイトランスフォーマーをリバースエンジニアリングしました。特に、インコンテキストでのトークンシークエンスの学習に責任がある誘導回路の完全なアルゴリズムを見つけました。チームは2022年3月の論文「In-context Learning and Induction Heads」でこの結果をさらに詳細に説明しました。
### 定義
メカニズムの解釈可能性という用語は、技術的メソッドのクラスと研究コミュニティの両方を指します。
Chris Olahは「メカニズムの解釈可能性」という用語を考案し、その動機は、当時コンピュータビジョンを支配していた既存の視覚マップに基づく解釈可能なアプローチとは異なる新しい解釈可能なアプローチを区別することでした。
メカニズムの解釈可能性は、神経網をリバースエンジニアリングすることを目指しており、コンピュータプログラムのリバースエンジニアリングに似ています。
メカニズムの解釈可能性の初期開発はAIセーフティコミュニティに根ざしていましたが、その用語は現在、広範な学術界に採用されています。
### キーポイント概念
= 線形表示仮説 =
線形表示仮説(LRH)は、高次的概念が神経網の活性化空間で線形表示として表現されていると主張しています。これは、初期の単語エンブディング研究から始まる経験的な証拠が支持されています。
= 超位相 =
超位相は、多くの無関係な特徴が同じ亜空間に「パッケージ」される現象であり、ネットワークが高度にオーバーコンプリートされているにもかかわらず、非線形フィルタリングの後でも線形に解読可能です。
### 方法
= プロービング =
プロービングは、モデルの活性化に線形分類器をトレーニングして、特定の層または神経細胞の集合で特徴が線形に解読可能かどうかをテストすることです。
= 差分 =
差分は、一つのクラスの例の平均活性化からもう一つのクラスの平均活性化を差し引いて、誘導ベクトルを作成することで構成されています。
= 誘導 =
誘導は、残差ストリームに方向を加えたり引いたりして、モデルの行動を因果的に変えることを意味します。
### 構成
= 種別介入 =
介入方法は、モデルの内部部品の因果役割を理解するために必要です。
= グラディエントベースの属性 =
因果介入方法は、コストが高く、1つの入力に対してnモデル部品の属性を計算するためにn前向きパスが必要です。
= 種別分解 =
メカニズムの解釈可能性の主要な目標は、事前トレーニングされた神経網を解釈可能なコンポーネントに分解することです。
= 種別ディクショナリーレーニング(SDL) =
稀疏ディクショナリーレーニング(SDL)は、モデルの表現を稀疏にする方法として提案されました。
### 機構
= 種別オートエンコーダ(SAEs) =
稀疏オートエンコーダ(SAEs)は、特徴空間を単一のニューロンにわたる多種多様な概念のオーバーコンプリートベースに分解することで、超位相問題を解決することを目指しています。
### 評価
SAEsの評価の主要な指標は、データセット全体での潜在对数のl0ノルムと、再構成誤差(MSE再構成誤差)やモデルの元の行動からのKL分散などの下流指標です。
### 補足
Transcodersは、異なる