情報の量 - 百科事典
情報の数学的理論は確率論と統計学に基づいており、情報をいくつかの情報の量で測定します。以下の公式での対数の底の選択は、使用される情報エントロピーの単位を決定します。最も一般的な情報の単位はビット、もしくはより正確にシャノンであり、これは二進数の対数に基づいています。ビットはシャノンよりも頻繁に使用されるが、データ処理でエントロピー(情報内容)に関係なくバイナリ値やストリームを指すビットと区別される名前ではありません。他の単位には、自然対数に基づくナットや、10の対数に基づくハートリーがあります。
以下の式の形
p
log
p
{\displaystyle p\log p\,}
は、慣習上、次の通り零とされることが考慮されます。これは、どの対数の底でも以下のように適用されるためです。
自情報
シャノンは、メッセージの自己情報や「驚愕」と呼ばれる情報内容の測定を行いました。
I(m) = log(1/p(m)) = -log(p(m))
ここで、
p(m) = Pr(M = m)
メッセージ m がメッセージ空間 M から選択される確率です。対数の底は、測定される情報内容の単位に影響を与えるだけであり、結果としてその単位がどのように表現されるかに関わります。対数の底が2の場合、情報の測定はシャノンまたは「ビット」として表現されます(他の文脈でビットは「バイナリ桁」と定義されており、平均情報内容は最大1シャノンです)。
情報源からの情報は、受け取り手が既にその情報を持っていなかった場合のみ受け取り手によって得られます。特定の(P=1)イベント(例えば、バックチャンネルを通じて確実に知られているもの)を伝達するメッセージは、上記の式に示されるように情報を提供しません。稀に発生するメッセージは、頻繁に発生するメッセージよりも多くの情報を含みます。
また、2つの(またはそれ以上の)関係のないメッセージの複合メッセージは、各メッセージの情報の測定の合計となる情報量を持つことが示されます。これは、以下の定義を使用して導き出すことができます。複合メッセージ m & n が提供する情報は、要素メッセージ m および n が連結して提供されるメッセージであり、それぞれの情報内容は I(m) および I(n) で与えられます。メッセージ m および n がそれぞれ M および N に依存し、プロセス M および N が独立している場合、統計的独立性の定義から以下の通り明らかになります。
I(m & n) = I(m) + I(n)
例えば、天気予報の放送が「今夜の予報:暗い。朝に広く散らばった光まで続く暗闇」となります。このメッセージにはほとんど情報がありません。しかし、雪の予報は確かに情報を含むでしょう(たとえば、毎晩起こることはありません)。さらに、暖かい場所(例えば、マイアミ)での正確な雪の予報は、雪が降らない場所(不可能なイベント)での予報よりも情報量が大きい(無限です)。
エントロピー
离散メッセージ空間 M のエントロピーは、どのメッセージが選択されるかについての不確実性の量を測定します。これは、そのメッセージ空間からメッセージ m の平均自己情報として定義されます。
H(M) = E[I(M)] = ∑m∈M p(m)I(m) = -∑m∈M p(m)log p(m)
ここで、
E[-]
は期待値操作を示します。
エントロピーの重要な性質は、メッセージ空間の全てのメッセージが等確率である場合に最大値を取ることです(例えば、p(m) = 1/|M|)。この場合、
H(M) = log|M|
です。
時には、以下のように分布の確率の形で関数 H を表現することがあります。
H(p1, p2, …, pk) = -∑i=1^k pi log pi
ここで、pi ≥ 0 であり、
∑i=1^k pi = 1
です。
この中の重要な特別な場合が二進数エントロピー関数です。
Hb(p) = H(p, 1-p) = -p log p - (1-p) log(1-p)
共同エントロピー
二つの离散ランダム変数 X および Y の共通エントロピーは、X および Y の共通分布のエントロピーとして定義されます。
H(X, Y) = E[X, Y][-log p(x, y)] = -∑(x, y)p(x, y)log p(x, y)
X および Y が独立している場合、共通エントロピーは単に個別のエントロピーの和です。
(注:共通エントロピーは、似た記号のために混同されがちですが、交差エントロピーと混同しないようにしてください。)
条件エントロピー(誤解)
ランダム変数 Y の特定の値が与えられた場合、X が Y = y に対する条件エントロピーは以下のように定義されます。
H(X|y) = E[X|Y=y][-log p(x|y)] = -∑x∈X p(x|y)log p(x|y)
ここで、
p(x|y) = p(x, y) / p(y)
は x が y に対する条件確率です。
X が Y に関する誤解(またはエquivocation)と呼ばれる Y に対する X の条件エントロピーは以下のように与えられます。
H(X|Y) = E[Y][H(X|y)] = -∑y∈Y p(y)∑x∈X p(x|y)log p(x|y) = ∑(x, y)p(x, y)log(p(y) / p(x, y))
これは確率理論からの条件期待値を使用しています。
条件エントロピーの基本的な性質は以下の通りです。
H(X|Y) = H(X, Y) - H(Y)
Kullback–Leibler拡散(情報増分)
Kullback–Leibler拡散(または情報拡散、情報増分、または相対エントロピー)は、二つの分布、正しい分布 p と任意の分布 q を比較する方法です。データを圧縮する際に、q がデータの下層に存在する分布として仮定することで、実際には p が正しい分布である場合、Kullback–Leibler拡散は単位あたりの平均追加ビット数として必要です。または、数学的には
DKL(p(X) || q(X)) = ∑x∈X p(x)log(p(x) / q(x))
q から p に何らかの「距離」があると考えられますが、対称性がないため真のメトリックではありません。
共通情報(変情報)
最も有用で重要な情報の測定の一つは、共通情報、または変情報です。これは、他のランダム変数を観察することでどれだけの情報が得られるかを測定します。X に関する Y(概念的には、Y を観察することで X に関する平均情報量が得られる)の共通情報は以下のように与えられます。
I(X; Y) = ∑y∈Y p(y)∑x∈X p(x|y)log(p(x|y) / p(x)) = ∑(x, y)p(x, y)log(p(x, y) / (p(x)p(y)))
共通情報の基本的な性質は以下の通りです。
I(X; Y) = H(X) - H(X|Y)
これは、Y を知ると、X に対するエンコードにおいて平均して I(X; Y) ビットを節約できることを意味します。共通情報は対称的です。
I(X; Y) = I(Y; X) = H(X) + H(Y) - H(X, Y)
共通情報は、後続確率分布の平均 Kullback–Leibler拡散(情報増分)として表現できます。
I(X; Y) = E[p(y)][DKL(p(X|Y=y) || p(X))]
これは、Y の値が与えられると、X 上の確率分布がどれだけ平均して変わるかを測定するものです。これは、縁分布の積から実際の共通分布への拡散として再計算されることがあります。
I(X; Y) = DKL(p(X, Y) || p(X)p(Y))
共通情報は、縁分布の積から実際の