stringtranslate.com

Lista de palabras

Una lista de palabras (o léxico ) es una lista del léxico de un idioma (generalmente ordenado por frecuencia de aparición, ya sea por niveles o como una lista clasificada) dentro de un corpus de texto determinado , que sirve para la adquisición de vocabulario . Un léxico ordenado por frecuencia "proporciona una base racional para garantizar que los alumnos obtengan el mejor rendimiento por su esfuerzo de aprendizaje de vocabulario" (Nation 1997), pero está destinado principalmente a los redactores de cursos, no directamente a los alumnos. Las listas de frecuencia también se elaboran con fines lexicográficos, y sirven como una especie de lista de verificación para garantizar que no se omitan palabras comunes. Algunos errores importantes son el contenido del corpus, el registro del corpus y la definición de " palabra ". Si bien el conteo de palabras tiene mil años de antigüedad y los análisis aún gigantescos se realizan a mano a mediados del siglo XX, el procesamiento electrónico en lenguaje natural de grandes corpus, como los subtítulos de películas (megaestudio SUBTLEX), ha acelerado el campo de la investigación.

En lingüística computacional , una lista de frecuencias es una lista ordenada de palabras (tipos de palabras) junto con su frecuencia , donde frecuencia aquí generalmente significa el número de apariciones en un corpus determinado , del cual se puede derivar el rango como la posición en la lista.

Metodología

Factores

Nation (Nation 1997) destacó la increíble ayuda que brindan las capacidades informáticas, lo que hace que el análisis de corpus sea mucho más fácil. Citó varias cuestiones clave que influyen en la elaboración de listas de frecuencias:

corpus

Corpus escrito tradicional

Frecuencia de los pronombres personales en serbocroata

La mayoría de los estudios disponibles actualmente se basan en corpus de texto escrito , más fácilmente disponibles y fáciles de procesar.

Movimiento SUBTEXTO

Sin embargo, New et al. 2007 propuso aprovechar la gran cantidad de subtítulos disponibles en línea para analizar un gran número de discursos. Brysbaert & New 2009 realizó una larga evaluación crítica de este enfoque tradicional de análisis textual y apoya un avance hacia el análisis del habla y el análisis de los subtítulos de películas disponibles en línea. A esto le han seguido recientemente varios estudios de seguimiento, [1] que proporcionan un valioso análisis de recuento de frecuencias para varios idiomas. De hecho, el movimiento SUBTLEX completó en cinco años estudios completos de francés (New et al. 2007), inglés americano (Brysbaert & New 2009; Brysbaert, New & Keuleers 2012), holandés (Keuleers & New 2010), chino (Cai & Brysbaert 2010), español (Cuetos et al. 2011), griego (Dimitropoulou et al. 2010), vietnamita (Pham, Bolger & Baayen 2011), portugués de Brasil (Tang 2012) y portugués de Portugal (Soares et al. 2015), albanés ( Avdyli & Cuetos 2013), polaco (Mandera et al. 2014) y catalán (2019 [2] ). SUBTLEX-IT (2015) proporciona únicamente datos sin procesar. [3]

unidad léxica

En cualquier caso, se debe definir la unidad básica "palabra". Para las escrituras latinas, las palabras suelen tener uno o varios caracteres separados por espacios o puntuación. Pero pueden surgir excepciones, como el inglés "can't", el francés "aujourd'hui" o modismos. También puede ser preferible agrupar palabras de una familia de palabras bajo la representación de su palabra base . Por lo tanto, posible, imposible y posibilidad son palabras de la misma familia de palabras, representadas por la palabra base *possib* . Para fines estadísticos, todas estas palabras se resumen bajo la forma de palabra base *possib*, lo que permite clasificar un concepto y la aparición de una forma. Además, otras lenguas pueden presentar dificultades específicas. Tal es el caso del chino, que no utiliza espacios entre palabras y donde una cadena específica de varios caracteres puede interpretarse como una frase de palabras de un solo carácter o como una palabra de varios caracteres.

Estadísticas

Parece que la ley de Zipf se cumple para listas de frecuencias extraídas de textos más largos de cualquier lenguaje natural. Las listas de frecuencias son una herramienta útil a la hora de crear un diccionario electrónico, que es un requisito previo para una amplia gama de aplicaciones en lingüística computacional .

Los lingüistas alemanes definen la Häufigkeitsklasse (clase de frecuencia) de un elemento de la lista utilizando el logaritmo de base 2 de la relación entre su frecuencia y la frecuencia del elemento más frecuente. El elemento más común pertenece a la clase de frecuencia 0 (cero) y cualquier elemento que sea aproximadamente la mitad de frecuente pertenece a la clase 1. En la lista de ejemplo anterior, la palabra mal escrita indignante tiene una proporción de 76/3789654 y pertenece a la clase 16.

¿Dónde está la función del suelo ?

Las listas de frecuencias, junto con las redes semánticas , se utilizan para identificar los términos especializados menos comunes que serán reemplazados por sus hiperónimos en un proceso de compresión semántica .

Pedagogía

Esas listas no están destinadas a entregarse directamente a los estudiantes, sino más bien a servir como guía para profesores y autores de libros de texto (Nation 1997). El resumen de enseñanza de idiomas modernos de Paul Nation alienta primero a "pasar del vocabulario de alta frecuencia y el vocabulario [temático] de propósitos especiales al vocabulario de baja frecuencia, y luego a enseñar a los estudiantes estrategias para sostener la expansión autónoma del vocabulario" (Nation 2006).

Efectos de la frecuencia de las palabras.

Se sabe que la frecuencia de las palabras tiene varios efectos (Brysbaert et al. 2011; Rudell 1993). La memorización se ve afectada positivamente por una mayor frecuencia de palabras, probablemente porque el alumno está sujeto a más exposiciones (Laufer 1997). El acceso léxico se ve influenciado positivamente por la alta frecuencia de palabras, un fenómeno llamado efecto de frecuencia de palabras (Segui et al.). El efecto de la frecuencia de las palabras está relacionado con el efecto de la edad de adquisición , la edad a la que se aprendió la palabra.

Idiomas

A continuación se muestra una revisión de los recursos disponibles.

Inglés

El conteo de palabras es un campo antiguo, [4] con discusiones conocidas que se remontan a la época helenística . En 1944, Edward Thorndike , Irvin Lorge y sus colegas [5] contaron manualmente 18.000.000 de palabras para obtener la primera lista de frecuencias del idioma inglés a gran escala, antes de que las computadoras modernas hicieran mucho más fáciles estos proyectos (Nation 1997). Todas las obras del siglo XX sufren por su edad. En particular, las palabras relacionadas con la tecnología, como "blog", que, en 2014, ocupaba el puesto 7665 en frecuencia [6] en el Corpus of Contemporary American English, [7] se atestiguó por primera vez en 1999, [8] [9 ] [10] y no aparece en ninguna de estas tres listas.

The Teachers Word Book de 30.000 palabras (Thorndike y Lorge, 1944)

El Teacher Word Book contiene 30.000 lemas o ~13.000 familias de palabras (Goulden, Nation y Read, 1990). Se analizó manualmente un corpus de 18 millones de palabras escritas. El tamaño de su corpus fuente aumentó su utilidad, pero su antigüedad y los cambios en el lenguaje han reducido su aplicabilidad (Nation 1997).

La lista de servicios generales (Oeste, 1953)

La Lista de servicios generales contiene 2000 palabras clave divididas en dos conjuntos de 1000 palabras. En la década de 1940 se analizó un corpus de 5 millones de palabras escritas. Se proporciona la tasa de aparición (%) de diferentes significados y partes de la oración de la palabra principal. Se aplicaron cuidadosamente al corpus varios criterios, además de la frecuencia y el rango. Por lo tanto, a pesar de su antigüedad, algunos errores y de que su corpus es enteramente texto escrito, sigue siendo una excelente base de datos de frecuencia de palabras, frecuencia de significados y reducción de ruido (Nation 1997). Esta lista fue actualizada en 2013 por el Dr. Charles Browne, el Dr. Brent Culligan y Joseph Phillips como la Nueva Lista de Servicios Generales .

Libro de frecuencia de palabras de la herencia estadounidense (Carroll, Davies y Richman, 1971)

Un corpus de 5 millones de palabras consecutivas, procedentes de textos escritos utilizados en escuelas de Estados Unidos (varios grados, diversas materias). Su valor radica en su enfoque en los materiales de enseñanza escolar y en el etiquetado de palabras según la frecuencia de cada palabra, en cada grado escolar y en cada una de las áreas temáticas (Nation 1997).

The Brown (Francis y Kucera, 1982) LOB y corpus relacionados

Estos contienen ahora 1 millón de palabras de un corpus escrito que representa diferentes dialectos del inglés. Estas fuentes se utilizan para producir listas de frecuencias (Nation 1997).

Francés

Conjuntos de datos tradicionales

New & Pallier ha realizado una reseña. En las décadas de 1950 y 1960 se hizo un intento con el Français fundamental. Incluye la lista FF1 con 1.500 palabras de alta frecuencia, completada por una lista FF2 posterior con 1.700 palabras de frecuencia media y las reglas de sintaxis más utilizadas. [11] Se afirma que 70 palabras gramaticales constituyen el 50% de la oración comunicativa, [12] [13] mientras que 3.680 palabras representan aproximadamente el 95-98% de la cobertura. [14] Está disponible una lista de 3.000 palabras frecuentes. [15]

El Ministerio de Educación francés también proporciona una lista clasificada de las 1.500 familias de palabras más frecuentes , proporcionada por el lexicólogo Étienne Brunet. [16] Jean Baudot realizó un estudio siguiendo el modelo del estudio americano Brown, titulado "Fréquences d'utilisation des mots en français écrit contemporain". [17]

Más recientemente, el proyecto Lexique3 proporciona 142.000 palabras francesas, con ortografía , fonética , silabación, parte de la oración , género , número de ocurrencias en el corpus fuente, rango de frecuencia, lexemas asociados , etc., disponibles bajo una licencia abierta CC-by- sa-4.0 . [18]

sutil

Este Lexique3 es un estudio continuo del que se origina el movimiento Subtlex antes citado. Nuevo y otros. En 2007 se realizó un recuento completamente nuevo basado en los subtítulos de películas online.

Español

Se han realizado varios estudios sobre la frecuencia de palabras en español (Cuetos et al. 2011). [19]

Chino

Los corpus chinos se han estudiado durante mucho tiempo desde la perspectiva de las listas de frecuencias. La forma histórica de aprender vocabulario chino se basa en la frecuencia de los caracteres (Allanic 2003). El sinólogo estadounidense John DeFrancis mencionó su importancia para el aprendizaje y la enseñanza del chino como lengua extranjera en Why Johnny Can't Read Chinese (DeFrancis 1966). Como conjunto de herramientas de frecuencia, Da (Da 1998) y el Ministerio de Educación de Taiwán (TME 1997) proporcionaron grandes bases de datos con clasificaciones de frecuencia para caracteres y palabras. La lista HSK de 8.848 palabras de alta y media frecuencia en la República Popular China y la lista TOP de la República de China (Taiwán) de aproximadamente 8.600 palabras comunes del chino tradicional son otras dos listas que muestran palabras y caracteres chinos comunes. Siguiendo el movimiento SUBTLEX, Cai & Brysbaert 2010 realizaron recientemente un rico estudio de las frecuencias de palabras y caracteres chinos.

Otro

Palabras más utilizadas en diferentes idiomas según Wikipedia o corpus combinados. [20]

Ver también

Notas

  1. ^ "Crr» Frecuencias de palabras de subtítulos ".
  2. ^ Boada, Roger; Guasch, Marc; Haro, Juan; Demestre, Josep; Ferré, Pilar (1 de febrero de 2020). "SUBTLEX-CAT: Frecuencias de palabras de subtítulos y diversidad contextual del catalán". Métodos de investigación del comportamiento . 52 (1): 360–375. doi : 10.3758/s13428-019-01233-1 . ISSN  1554-3528. PMID  30895456. S2CID  84843788.
  3. ^ Amenta, Simona; Mandera, Pawel; Keuleers, Emmanuel; Brysbaert, Marc; Crepaldi, Davide (7 de enero de 2022). "SUBTLEX-IT".
  4. ^ Bontrager, Terry (1 de abril de 1991). "El desarrollo de listas de frecuencia de palabras antes de la lista Thorndike-Lorge de 1944". Psicología de la lectura . 12 (2): 91-116. doi :10.1080/0270271910120201. ISSN  0270-2711.
  5. ^ "APA PsycNet". psycnet.apa.org . Consultado el 15 de mayo de 2023 .
  6. ^ "Palabras y frases: frecuencia, géneros, colocaciones, concordancias, sinónimos y WordNet".
  7. ^ "Corpus de inglés americano contemporáneo (COCA)".
  8. ^ "Son los enlaces, estúpido". El economista. 20 de abril de 2006 . Consultado el 5 de junio de 2008 .
  9. ^ Merholz, Peter (1999). "Peterme.com". Archivo de Internet . Archivado desde el original el 13 de octubre de 1999 . Consultado el 5 de junio de 2008 .
  10. ^ Kottke, Jason (26 de agosto de 2003). "kottke.org" . Consultado el 5 de junio de 2008 .
  11. ^ "Le français fundamental". Archivado desde el original el 4 de julio de 2010.
  12. ^ Ouzoulias, André (2004), Comprendre et Aider les enfants en dificultad escolar: Le Vocabulaire fondamental, 70 mots essentiels (PDF) , Retz- Citando a VAC Henmon (enlace inactivo, sin copia de Internet Archive, 10 de agosto de 2023)
  13. ^ Lista de "70 palabras esenciales" reseñadas por VAC Henmon
  14. ^ "Generalidades".
  15. ^ "PDF 3000 palabras en francés".
  16. ^ "Maitrise de la langue à l'école: Vocabulaire". Ministerio de Educación Nacional.
  17. ^ Baudot, J. (1992), Fréquences d'utilisation des mots en français écrit contemporain , Presses de L'Université, ISBN 978-2-7606-1563-2
  18. ^ "Lexique".
  19. ^ "Listas de frecuencia de palabras en español". Vocabularywiki.pbworks.com .
  20. ^ Palabras más utilizadas en diferentes idiomas, ezglot

Referencias

Conceptos teóricos

Bases de datos basadas en textos escritos

Movimiento SUBTEXTO