stringtranslate.com

Palabra de parada

Las palabras vacías son las palabras de una lista de palabras vacías (o lista de palabras vacías o diccionario negativo ) que se filtran (es decir, se detienen) antes o después del procesamiento de datos en lenguaje natural (texto) porque se consideran insignificantes. [1] No existe una única lista universal de palabras vacías que utilicen todas las herramientas de procesamiento del lenguaje natural , ni tampoco reglas acordadas para identificar palabras vacías, y de hecho no todas las herramientas utilizan una lista de este tipo. Por lo tanto, se puede elegir cualquier grupo de palabras como palabras vacías para un propósito determinado. La "tendencia general en los sistemas [de recuperación de información] a lo largo del tiempo ha sido desde el uso estándar de listas de palabras vacías bastante grandes (200-300 términos) a listas de palabras vacías muy pequeñas (7-12 términos) o a ninguna lista de palabras vacías en absoluto". [2]

Historia de las palabras vacías

En la creación de algunas concordancias se utilizó un concepto anterior . Por ejemplo, la primera concordancia hebrea , Me'ir Nativ de Isaac Nathan ben Kalonymus , contenía una lista de una página de palabras no indexadas, con preposiciones y conjunciones no sustantivas que son similares a las palabras vacías modernas. [3]

A Hans Peter Luhn , uno de los pioneros en la recuperación de información , se le atribuye la invención de la frase y el uso del concepto al presentar su proceso de indexación automática de palabras clave en contexto. [4] La frase "stop word", que no está en la presentación de Luhn de 1959, y los términos asociados "stop list" y "stoplist" aparecen en la literatura poco después. [5]

Aunque se suele suponer que las listas de palabras vacías incluyen solo las palabras más frecuentes en un idioma, fue CJ Van Rijsbergen quien propuso la primera lista estandarizada que no se basaba en información sobre la frecuencia de las palabras. La "lista Van" incluía 250 palabras en inglés. El programa de derivación de palabras de Martin Porter desarrollado en la década de 1980 se basó en la lista Van, y ahora la lista de Porter se usa comúnmente como lista de palabras vacías predeterminada en una variedad de aplicaciones de software.

En 1990, Christopher Fox propuso la primera lista general de exclusión basada en información empírica de frecuencia de palabras derivada del Corpus Brown:

En este artículo se presenta un ejercicio de generación de una lista de palabras de exclusión para textos generales a partir del corpus Brown de 1.014.000 palabras extraídas de una amplia gama de literatura en inglés. Comenzamos con una lista de palabras que aparecen más de 300 veces en el corpus Brown. De esta lista de 278 palabras, se eliminan 32 por considerar que son demasiado importantes como términos potenciales de índice. A continuación, se añaden veintiséis palabras a la lista con la creencia de que pueden aparecer con mucha frecuencia en ciertos tipos de literatura. Por último, se añaden 149 palabras a la lista porque el filtro basado en la máquina de estados finitos en el que se pretende utilizar esta lista puede filtrarlas casi sin coste. El producto final es una lista de 421 palabras de exclusión que deberían ser lo más eficientes y eficaces posible para filtrar las palabras que aparecen con más frecuencia y son semánticamente neutras en la literatura general en inglés. [6]

En la terminología de SEO , las palabras vacías son las palabras más comunes que muchos motores de búsqueda suelen evitar con el fin de ahorrar espacio y tiempo en el procesamiento de grandes cantidades de datos durante el rastreo o la indexación .

Para algunos motores de búsqueda , estas son algunas de las palabras de función cortas más comunes , como the , is , at , which y on . En este caso, las palabras vacías pueden causar problemas al buscar frases que las incluyan, en particular en nombres como " The Who ", " The The " o " Take That ". Otros motores de búsqueda eliminan algunas de las palabras más comunes (incluidas las palabras léxicas , como "want") de una consulta para mejorar el rendimiento. [7]

En los últimos años, las mejores prácticas de SEO en torno a las palabras vacías han evolucionado junto con los campos del aprendizaje automático y el procesamiento del lenguaje natural . En febrero de 2021, John Mueller, analista de tendencias para webmasters de Google, tuiteó: "No me preocuparía en absoluto por las palabras vacías; escribe de forma natural. Los motores de búsqueda analizan mucho, mucho más que palabras individuales. ' Ser o no ser ' es simplemente una colección de palabras vacías, pero las palabras vacías por sí solas no le hacen justicia". [8] [9]

Véase también

Referencias

  1. ^ Rajaraman, A.; Ullman, JD (2011). "Minería de datos" (PDF) . Minería de conjuntos de datos masivos . págs. 1–17. doi :10.1017/CBO9781139058452.002. ISBN 9781139058452.
  2. ^ Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze (2008). Introducción a la recuperación de información . Cambridge University Press. pág. 27.{{cite book}}: CS1 maint: varios nombres: lista de autores ( enlace )
  3. ^ Weinberg, Bella Hass (2004). "Predecesores de las estructuras de indexación científica en el ámbito de la religión" (PDF) . Segunda Conferencia sobre la Historia y el Patrimonio de los Sistemas de Información Científica y Técnica : 126–134. Archivado desde el original (PDF) el 3 de enero de 2016. Consultado el 17 de febrero de 2016 .
  4. ^ Luhn, HP (1959). "Índice de palabras clave en contexto para literatura técnica (Índice KWIC)". American Documentation . 11 (4). Yorktown Heights, NY: International Business Machines Corp.: 288–295. doi :10.1002/asi.5090110403.
  5. ^ Flood, Barbara J. (1999). "Nota histórica: El comienzo de una lista de exclusión en Biological Abstracts". Revista de la Sociedad Estadounidense de Ciencias de la Información . 50 (12): 1066. doi :10.1002/(SICI)1097-4571(1999)50:12<1066::AID-ASI5>3.0.CO;2-A.
  6. ^ Fox, Christopher (1989-09-01). "Una lista de exclusión para texto general". Foro ACM SIGIR . 24 (1–2): 19–21. doi :10.1145/378881.378888. ISSN  0163-5840. S2CID  20240000.
  7. ^ Stackoverflow: "Una de nuestras principales optimizaciones de rendimiento para la consulta de "preguntas relacionadas" es eliminar las 10 000 palabras más comunes del diccionario de inglés (según lo determinado por la búsqueda de Google) antes de enviar la consulta al motor de texto completo de SQL Server 2008. Es sorprendente lo poco que queda de la mayoría de las publicaciones una vez que se eliminan las 10 000 palabras principales del diccionario de inglés. Esto ayuda a limitar y acotar los resultados devueltos, lo que hace que la consulta sea mucho más rápida".
  8. ^ "Google: deja de preocuparte por las palabras vacías y escribe de forma natural". seroundtable.com . 16 de febrero de 2021 . Consultado el 15 de julio de 2022 .
  9. ^ John, Mueller (6 de febrero de 2021). "John Mueller sobre las palabras vacías en 2021: "No me preocuparía en absoluto por las palabras vacías"". Twitter . Consultado el 15 de julio de 2022 .

Enlaces externos