Estimación de entropía - Enciclopedia
En diversas aplicaciones de ciencia Ingeniería, como el análisis de componentes independientes, análisis de imágenes, análisis genético, reconocimiento de voz, aprendizaje de variedades y estimación del retraso temporal, es útil estimar la entropía diferencial de un sistema o proceso, dadas algunas observaciones.
El enfoque más simple y común utiliza estimación basada en histogramas, pero se han desarrollado y utilizado otros enfoques, cada uno con sus propios beneficios y desventajas. El factor principal en la elección de un método es a menudo un arbitraje entre el sesgo y la varianza de la estimación, aunque la naturaleza de la distribución (sospechada) de los datos también puede ser un factor, así como el tamaño de la muestra y el tamaño del alfabeto de la distribución de probabilidad.
Estimador basado en histogramas
El enfoque basado en histogramas utiliza la idea de que la entropía diferencial de una distribución de probabilidad
f
(
x
)
{\displaystyle f(x)}
para una variable aleatoria continua
x
{\displaystyle x}
,
h
(
X
)
=
−
∫
X
f
(
x
)
log
f
(
x
)
d
x
{\displaystyle h(X)=-\int _{\mathbb {X} }f(x)\log f(x)\,dx}
puede aproximarse primero aproximando
f
(
x
)
{\displaystyle f(x)}
con un histograma de las observaciones y luego encontrando la entropía discreta de una cuantificación de
x
{\displaystyle x}
H
(
X
)
=
−
∑
i
=
1
n
f
(
x
i
)
log
(
f
(
x
i
)
w
(
x
i
)
)
{\displaystyle H(X)=-\sum _{i=1}^{n}f(x_{i})\log \left({\frac {f(x_{i})}{w(x_{i})}}\right)}
con probabilidades de binos dadas por ese histograma. El histograma en sí es una estimación de máxima verosimilitud (ML) de la distribución de frecuencia discretizada ), donde
w
{\displaystyle w}
es el ancho del bino
i
{\displaystyle i}
. Los histogramas pueden calcularse rápidamente y son simples, por lo que este enfoque tiene cierta atracción. Sin embargo, la estimación producida es sesgada y, aunque se pueden realizar correcciones a la estimación, no siempre son satisfactorias.
Estimaciones basadas en espaciado de muestras
Si los datos son unidimensionales, podemos imaginar tomar todas las observaciones y ponerlas en orden de su valor. El espaciado entre un valor y el siguiente nos da una idea rough de (el inverso de) la densidad de probabilidad en esa región: cuanto más juntos estén los valores, mayor será la densidad de probabilidad. Esta es una estimación muy rough con alta varianza, pero puede mejorarse, por ejemplo, pensando en el espacio entre un valor dado y el uno m alejado de él, donde m es algún número fijo.
Estimaciones basadas en los vecinos más cercanos
Para cada punto en nuestra muestra de datos, podemos encontrar la distancia a su vecino más cercano. De hecho, podemos estimar la entropía desde la distribución de la distancia del vecino más cercano de nuestros puntos de datos. (En una distribución uniforme, estos distancias tienden a ser bastante similares, mientras que en una distribución fuertemente no uniforme pueden variar mucho más.)
Estimador bayesiano
Cuando estamos en el régimen de submuestreo, tener una prior sobre la distribución puede ayudar en la estimación. Un estimador bayesiano de este tipo propuesto en el contexto de la neurociencia conocido como el NSB (Nemenman–Shafee–Bialek) estimador. El estimador NSB utiliza una mezcla de priori de Dirichlet, elegida de manera que el priori inducido sobre la entropía sea aproximadamente uniforme.
Estimaciones basadas en la entropía esperada
Un nuevo enfoque para el problema de evaluación de entropía es comparar la entropía esperada de una muestra de secuencia aleatoria con la entropía calculada de la muestra. Este método da resultados muy precisos, pero está limitado a cálculos de secuencias aleatorias modeladas como cadenas de Markov de primer orden con valores pequeños de sesgo y correlaciones. Este es el primer método conocido que tiene en cuenta el tamaño de la secuencia de muestra y su impacto en la precisión del cálculo de la entropía.
Estimador de red neuronal profunda
Una red neuronal profunda (DNN) puede usarse para estimar la entropía conjunta y denominada Estimador de Entropía Conjunta Neuronal (NJEE). En la práctica, la DNN se entrena como un clasificador que mapea un vector o matriz de entrada X a una distribución de probabilidad de salida sobre las posibles clases de la variable aleatoria Y, dada la entrada X. Por ejemplo, en una tarea de clasificación de imágenes, el NJEE mapea un vector de valores de píxeles a probabilidades sobre posibles clases de imágenes. En la práctica, la distribución de probabilidad de Y se obtiene mediante una capa Softmax con el número de nodos igual al tamaño del alfabeto de Y. El NJEE utiliza funciones de activación continuamente diferenciables, de modo que se cumplen las condiciones del teorema de aproximación universal. Se muestra que este método proporciona un estimador consistentemente fuerte y supera a otros métodos en el caso de tamaños de alfabeto grandes.
Referencias