Semántica estadística - Enciclopedia
En lingüística, la semántica estadística aplica los métodos de estadística al problema de determinar el significado de palabras o frases, idealmente a través de aprendizaje no supervisado, hasta un grado de precisión al menos suficiente para el propósito de la recuperación de información.
Historia
El término semántica estadística fue utilizado por primera vez por Warren Weaver en su conocido artículo sobre traducción automática. Argumentó que la disambiguación del significado de las palabras para la traducción automática debería basarse en la frecuencia de co-ocurrencia de las palabras del contexto cerca de una palabra dada. La suposición subyacente de que "una palabra se caracteriza por la compañía que le acompaña" fue promovida por J. R. Firth. Esta suposición es conocida en lingüística como la hipótesis distributiva. Emile Delavenay definió la semántica estadística como el "estudio estadístico de los significados de las palabras y su frecuencia y orden de recurrencia". "Furnas et al. 1983" es frecuentemente citado como una contribución fundacional a la semántica estadística. Un éxito temprano en el campo fue el análisis semántico latente.
Aplicaciones
La investigación en semántica estadística ha resultado en una amplia variedad de algoritmos que utilizan la hipótesis distributiva para descubrir muchos aspectos de la semántica, aplicando técnicas estadísticas a grandes corpus:
Medir la similitud en los significados de las palabras
Medir la similitud en las relaciones de las palabras
Modelar la generalización basada en la similitud
Descubrir palabras con una relación dada
Clasificar relaciones entre palabras
Extraer palabras clave de documentos
Medir la cohesión del texto
Descubrir los diferentes sentidos de las palabras
Distinguir los diferentes sentidos de las palabras
Aspectos subcognitivos de las palabras
Distinguir elogios de críticas
Áreas relacionadas
La semántica estadística se centra en los significados de las palabras comunes y en las relaciones entre las palabras comunes, a diferencia del minería de texto, que tiende a centrarse en documentos enteros, colecciones de documentos o entidades nombradas (nombres de personas, lugares y organizaciones). La semántica estadística es una subárea de la semántica computacional, que a su vez es una subárea de la lingüística computacional y el procesamiento de lenguaje natural.
Muchas de las aplicaciones de la semántica estadística (listadas anteriormente) también pueden abordarse por algoritmos basados en léxicos, en lugar de los algoritmos basados en corpus de la semántica estadística. Una ventaja de los algoritmos basados en corpus es que suelen ser menos intensivos en trabajo que los algoritmos basados en léxicos. Otra ventaja es que generalmente son más fáciles de adaptar a nuevos idiomas o nuevos tipos de texto más ruidosos, como los provenientes de redes sociales, que los algoritmos basados en léxicos. Sin embargo, el mejor rendimiento en una aplicación se suele alcanzar mediante la combinación de ambos enfoques.
Ver también
Referencias
= Fuentes =