エントロピー推定 - 百科事典

様々な科学/工学の応用、例えば独立成分分析、画像分析、遺伝子分析、音声認識、マニフェスト学習、時間遅延推定において、観測されたデータに基づいてシステムまたはプロセスの微分情報量を推定することが有用です。最もシンプルで一般的なアプローチはヒストグラムに基づく推定を使用しますが、他のアプローチも開発され、それぞれに独自の利点と欠点があります。方法を選択する際の主な要因は、多くの場合、推定のバイアスと分散のトレードオフであり、データの(推定される)分布の性質やサンプルサイズ、確率分布のアルファベットのサイズも要因となります。

ヒストグラム推定
ヒストグラムアプローチは、連続的なランダム変数 \(x\) の確率分布の微分情報量

\[ h(X) = -\int_{\mathbb{X}} f(x) \log f(x) \, dx \]

が、まず観測のヒストグラムで \(f(x)\) を近似し、その後、\(x\) の量子化の离散情報量を見つけることで近似できるというアイデアを使用します。

\[ H(X) = -\sum_{i=1}^{n} f(x_{i}) \log \left( \frac{f(x_{i})}{w(x_{i})} \right) \]

ここで、ビン確率はそのヒストグラムによって与えられます。ヒストグラム自体は、ビンの幅 \(w\) が \(i\) 番目のビンの幅である离散化された頻度分布の最大似然(ML)推定です。

ヒストグラムは計算が速く、簡単であるため、このアプローチにはある程度の吸引力があります。しかし、生成される推定値はバイアスがあり、修正は可能ですが常に満足のいくものではありません。

多変数確率密度関数(pdf)に適した方法は、まず特定の方法でpdfを推定し、その後、pdf推定から情報量を計算することです。有効なpdf推定方法の1つは、例えば、データpdfを近似するガウスpdfの重み付き和の最大似然(ML)推定を行うガウス混合モデル(GMM)です。これには、データpdfに近いガウスpdfを最大似然で見つけるための期待最大化(EM)アルゴリズムが使用されます。

サンプル空間に基づく推定
データが1次元の場合、すべての観測を値の順に並べ替え、その値と次の値の間のスペースを取ることができます。その値の間のスペースは、その領域の(逆の)確率密度の大まかなアイデアを提供します:値が近いほど、確率密度が高いです。これは非常に大まかな推定であり、分散が高いですが、例えば、与えられた値とそのm遠く離れた値の間のスペースを考慮することで改善できます(ここでのmはある固定数です)。

この方法で推定された確率密度は、上で説明したヒストグラムと同様に、但し少し調整された方法で、情報量の推定に使用できます。

このアプローチの主な欠点は、1次元以上のデータに対して適用することです:データポイントを並べ替えるアイデアは、1次元以上では崩壊します。しかし、類似の方法を使用して、いくつかの多変数情報量推定器が開発されています。

最寄りの隣接点に基づく推定
データセットの各点について、その最寄りの隣接点までの距離を見つけることができます。実際には、データポイントの最寄りの隣接点距離の分布から情報量を推定することができます。(均等分布では、これらの距離は比較的似ているが、強く非均等分布では、もっと変化することがあります。)

ベイジアン推定器
サンプルが少ない場合、分布に対する先験知識を持つことが推定を助けることができます。そのようなベイジアン推定器の1つは、神経科学の文脈でNSB(Nemenman-Shafee-Bialek)推定器として知られています。NSB推定器は、エントロピーに対する引き出される先験知識がほぼ均等になるように選択されたDirichlet先験知識の混合を使用します。

期待情報量に基づく推定
情報量評価の問題に対する新しいアプローチは、ランダムシークエンスのサンプルの期待情報量とサンプルの計算情報量を比較することです。この方法は非常に正確な結果を提供しますが、第1 OrdersのMarkov連鎖でバイアスと相関が小さいランダムシークエンスのモデル化に限られています。これは、サンプルシークエンスのサイズとその情報量計算の正確性への影響を考慮する最初の方法として知られています。

深層ニューラルネットワーク推定器
深層ニューラルネットワーク(DNN)を使用して、統合情報量を推定し、神経統合情報量推定器(NJEE)と呼ばれます。実際には、DNNは入力ベクトルまたは行列 \(X\) をランダム変数 \(Y\) の可能なクラスの確率分布にマッピングする分類器としてトレーニングされます。例えば、画像分類タスクでは、NJEEはピクセル値のベクトルを可能な画像クラスの確率分布にマッピングします。実際には、\(Y\) のアルファベットのサイズに等しいノード数を持つSoftmax層を使用して、\(Y\) の確率分布を取得します。NJEEは連続的に微分可能な活性化関数を使用し、ユニバーサル近似定理の条件を満たします。この方法は強固に一貫する推定器であり、アルファベットのサイズが大きい場合に他の方法を上回ることが示されています。

参考文献