Cantidades de información - Enciclopedia
La teoría matemática de la información se basa en la teoría de la probabilidad y la estadística, y mide la información con varias cantidades de información. La elección de la base logarítmica en las siguientes fórmulas determina la unidad de entropía de información que se utiliza. La unidad más común de información es el bit, o más correctamente el shannon, basado en el logaritmo binario. Aunque el bit se utiliza con mayor frecuencia en lugar del shannon, su nombre no se distingue del bit utilizado en el procesamiento de datos para referirse a un valor binario o flujo, independientemente de su entropía (contenido de información). Otras unidades incluyen el nat, basado en el logaritmo natural, y el hartley, basado en la base 10 o logaritmo común.
A continuación, una expresión de la forma
p
log
p
{\displaystyle p\log p\,}
se considera por convención igual a cero siempre que
p
{\displaystyle p}
sea cero. Esto se justifica porque
lim
p
→
0
+
p
log
p
=
0
{\displaystyle \lim _{p\rightarrow 0+}p\log p=0}
para cualquier base logarítmica.
Información autónoma
Shannon derivó una medida de contenido de información llamada información autónoma o "sorpresa" de un mensaje
m
{\displaystyle m}
:
I
(
m
)
=
log
(
1
p
(
m
)
)
=
−
log
(
p
(
m
)
)
{\displaystyle \operatorname {I} (m)=\log \left({\frac {1}{p(m)}}\right)=-\log(p(m))\,}
donde
p
(
m
)
=
P
r
(
M
=
m
)
{\displaystyle p(m)=\mathrm {Pr} (M=m)}
es la probabilidad de que el mensaje
m
{\displaystyle m}
sea elegido de todas las posibles opciones en el espacio de mensajes
M
{\displaystyle M}
. La base del logaritmo solo afecta a un factor de escala y, consecuentemente, a las unidades en las que se expresa el contenido de información medido. Si el logaritmo es base 2, la medida de información se expresa en unidades de shannons o más a menudo simplemente "bits" (en otros contextos, un bit se define como un "dígito binario", cuyo contenido de información promedio es como mucho 1 shannon).
La información de una fuente solo se gana para el destinatario si el destinatario no tenía esa información desde el principio. Los mensajes que transmiten información sobre un evento ciertamente determinado (P=1) no proporcionan información, como indica la ecuación anterior. Los mensajes que ocurren raramente contienen más información que los mensajes que ocurren con mayor frecuencia.
También se puede demostrar que un mensaje compuesto de dos (o más) mensajes no relacionados tendría una cantidad de información que es la suma de las medidas de información de cada mensaje individual. Esto se puede derivar utilizando esta definición considerando un mensaje compuesto
m
&
n
{\displaystyle m\&n}
que proporciona información sobre los valores de dos variables aleatorias M y N utilizando un mensaje que es la concatenación de los mensajes elementales m y n, cuyos contenidos de información se dan por
I
(
m
)
{\displaystyle \operatorname {I} (m)}
y
I
(
n
)
{\displaystyle \operatorname {I} (n)}
respectivamente. Si los mensajes m y n dependen solo de M y N, y los procesos M y N son independientes, entonces, ya que
P
(
m
&
n
)
=
P
(
m
)
P
(
n
)
{\displaystyle P(m\&n)=P(m)P(n)}
(la definición de independencia estadística), se puede ver claramente de la definición anterior que
I
(
m
&
n
)
=
I
(
m
)
+
I
(
n
)
{\displaystyle \operatorname {I} (m\&n)=\operatorname {I} (m)+\operatorname {I} (n)}
.
Un ejemplo: El pronóstico del tiempo emitido es: "Pronóstico nocturno: Oscuro. Oscuridad continua hasta la luz dispersa por la mañana". Este mensaje contiene prácticamente ninguna información. Sin embargo, un pronóstico de una tormenta de nieve ciertamente contendría información ya que no ocurre todas las noches. Hubiera sido incluso mayor la cantidad de información en un pronóstico de nieve para un lugar cálido, como Miami. La cantidad de información en un pronóstico de nieve para un lugar donde nunca nieva (evento imposible) es la más alta (infinito).
Entropía
La entropía de un espacio de mensajes discreto
M
{\displaystyle M}
es una medida de la incertidumbre que se tiene sobre qué mensaje se elegirá. Se define como la información autónoma promedio de un mensaje
m
{\displaystyle m}
de ese espacio de mensajes:
H
(
M
)
=
E
[
I
(
M
)
]
=
∑
m
∈
M
p
(
m
)
I
(
m
)
=
−
∑
m
∈
M
p
(
m
)
log
p
(
m
)
{\displaystyle \mathrm {H} (M)=\mathbb {E} \left[\operatorname {I} (M)\right]=\sum _{m\in M}p(m)\operatorname {I} (m)=-\sum _{m\in M}p(m)\log p(m)}
donde
E
[
−
]
{\displaystyle \mathbb {E} [-]}
denota la operación de valor esperado.
Una propiedad importante de la entropía es que se maximiza cuando todos los mensajes en el espacio de mensajes son equiprobables (por ejemplo,
p
(
m
)
=
1
/
|
M
|
{\displaystyle p(m)=1/|M|}
). En este caso
H
(
M
)
=
log
|
M
|
{\displaystyle \mathrm {H} (M)=\log |M|}
.
A veces la función
H
{\displaystyle \mathrm {H} }
se expresa en términos de las probabilidades de la distribución:
H
(
p
1
,
p
2
,
…
,
p
k
)
=
−
∑
i
=
1
k
p
i
log
p
i
,
{\displaystyle \mathrm {H} (p_{1},p_{2},\ldots ,p_{k})=-\sum _{i=1}^{k}p_{i}\log p_{i},}
donde cada
p
i
≥
0
{\displaystyle p_{i}\geq 0}
y
∑
i
=
1
k
p
i
=
1
{\displaystyle \sum _{i=1}^{k}p_{i}=1}
Un caso especial importante de esto es la función de entropía binaria:
H
b
(
p
)
=
H
(
p
,
1
−
p
)
=
−
p
log
p
−
(
1
−
p
)
log
(
1
−
p
)
{\displaystyle \mathrm {H} _{\mbox{b}}(p)=\mathrm {H} (p,1-p)=-p\log p-(1-p)\log(1-p)\,}
Entropía conjunta
La entropía conjunta de dos variables aleatorias discretas
X
{\displaystyle X}
y
Y
{\displaystyle Y}
se define como la entropía de la distribución conjunta de
X
{\displaystyle X}
y