stringtranslate.com

Semántica estadística

En lingüística , la semántica estadística aplica los métodos de la estadística al problema de determinar el significado de palabras o frases, idealmente a través del aprendizaje no supervisado , hasta un grado de precisión al menos suficiente para el propósito de la recuperación de información .

Historia

El término semántica estadística fue utilizado por primera vez por Warren Weaver en su conocido artículo sobre traducción automática . [1] Sostuvo que la desambiguación del sentido de las palabras para la traducción automática debería basarse en la frecuencia de coocurrencia de las palabras del contexto cerca de una palabra de destino determinada. La suposición subyacente de que "una palabra se caracteriza por la compañía que mantiene" fue defendida por JR Firth . [2] Esta suposición se conoce en lingüística como la hipótesis distributiva . [3] Emile Delavenay definió la semántica estadística como el "estudio estadístico de los significados de las palabras y su frecuencia y orden de recurrencia". [4] " Furnas et al. 1983" se cita con frecuencia como una contribución fundamental a la semántica estadística. [5] Un éxito temprano en el campo fue el análisis semántico latente .

Aplicaciones

La investigación en semántica estadística ha dado como resultado una amplia variedad de algoritmos que utilizan la hipótesis distributiva para descubrir muchos aspectos de la semántica , mediante la aplicación de técnicas estadísticas a grandes corpus :

Campos relacionados

La semántica estadística se centra en los significados de palabras comunes y las relaciones entre palabras comunes, a diferencia de la minería de texto , que tiende a centrarse en documentos completos, colecciones de documentos o entidades con nombre (nombres de personas, lugares y organizaciones). La semántica estadística es un subcampo de la semántica computacional , que a su vez es un subcampo de la lingüística computacional y el procesamiento del lenguaje natural .

Muchas de las aplicaciones de la semántica estadística (enumeradas anteriormente) también pueden abordarse mediante algoritmos basados ​​en léxicos , en lugar de los algoritmos basados ​​en corpus de la semántica estadística. Una ventaja de los algoritmos basados ​​en corpus es que normalmente no requieren tanto trabajo como los algoritmos basados ​​en léxicos. Otra ventaja es que suelen ser más fáciles de adaptar a nuevos idiomas o nuevos tipos de texto más ruidosos, por ejemplo, de las redes sociales, que los algoritmos basados ​​en léxicos. [21] Sin embargo, el mejor rendimiento en una aplicación a menudo se logra combinando los dos enfoques. [22]

Véase también

Referencias

  1. ^ Tejedor 1955
  2. ^ Firth 1957
  3. ^ Sahlgren 2008
  4. ^ Delavenay 1960
  5. ^ Furnas y otros 1983
  6. ^ Lund, Burgess y Atchley 1995
  7. ^ Landauer y Dumais 1997
  8. ^ McDonald y Ramscar 2001
  9. ^ Terra y Clarke 2003
  10. ^ Turney 2006
  11. ^ Yarlett 2008
  12. ^ Hearst 1992
  13. ^ Turney y Littman 2005
  14. ^ Frank y otros 1999
  15. ^ Turney 2000
  16. ^ Turney 2003
  17. ^ Pantel y Lin 2002
  18. ^ Turney 2004
  19. ^ Turney 2001
  20. ^ Turney y Littman 2003
  21. ^ Sahlgren y Karlgren 2009
  22. ^ Turney y otros, 2003

Fuentes