Lista de palabras

Una lista de palabras (o léxico ) es una lista del léxico de una lengua (generalmente ordenado por frecuencia de aparición, ya sea por niveles o como una lista clasificada) dentro de un corpus de texto determinado , que sirve para la adquisición de vocabulario . Un léxico ordenado por frecuencia "proporciona una base racional para asegurarse de que los estudiantes obtengan el mejor rendimiento por su esfuerzo de aprendizaje de vocabulario" (Nation 1997), pero está destinado principalmente a los escritores de cursos, no directamente a los estudiantes. Las listas de frecuencia también se realizan con fines lexicográficos, y sirven como una especie de lista de verificación para garantizar que no se dejen afuera palabras comunes. Algunos de los principales escollos son el contenido del corpus, el registro del corpus y la definición de " palabra ". Si bien el conteo de palabras tiene mil años de antigüedad, y aún se realizan análisis gigantescos a mano a mediados del siglo XX, el procesamiento electrónico del lenguaje natural de grandes corpus como los subtítulos de películas (megaestudio SUBTLEX) ha acelerado el campo de investigación.

En lingüística computacional , una lista de frecuencias es una lista ordenada de palabras (tipos de palabras) junto con su frecuencia , donde frecuencia aquí generalmente significa el número de ocurrencias en un corpus dado , del cual se puede derivar el rango como la posición en la lista.

Metodología

Factores

Nation (Nation 1997) destacó la increíble ayuda que brindan las capacidades informáticas, que hacen que el análisis de corpus sea mucho más fácil. Citó varias cuestiones clave que influyen en la construcción de listas de frecuencias:

representatividad del corpus
frecuencia y rango de palabras
Tratamiento de familias de palabras
Tratamiento de modismos y expresiones fijas
gama de información
varios otros criterios

Corpus

Corpus escrito tradicional

La mayoría de los estudios disponibles actualmente se basan en corpus de textos escritos , más fácilmente disponibles y fáciles de procesar.

Movimiento SUBTLEX

Sin embargo, New et al. 2007 propusieron aprovechar la gran cantidad de subtítulos disponibles en línea para analizar una gran cantidad de discursos. Brysbaert y New 2009 realizaron una larga evaluación crítica de este enfoque tradicional de análisis textual y apoyaron una tendencia hacia el análisis del habla y el análisis de los subtítulos de películas disponibles en línea. A esto le siguieron recientemente varios estudios de seguimiento ^[1] que proporcionaron un valioso análisis de recuento de frecuencias para varios idiomas. De hecho, el movimiento SUBTLEX completó en cinco años estudios completos para francés (New et al. 2007), inglés americano (Brysbaert y New 2009; Brysbaert, New y Keuleers 2012), holandés (Keuleers y New 2010), chino (Cai y Brysbaert 2010), español (Cuetos et al. 2011), griego (Dimitropoulou et al. 2010), vietnamita (Pham, Bolger y Baayen 2011), portugués de Brasil (Tang 2012) y portugués de Portugal (Soares et al. 2015), albanés (Avdyli y Cuetos 2013), polaco (Mandera et al. 2014) y catalán (2019 ^[2] ). SUBTLEX-IT (2015) proporciona solo datos brutos. ^[3]

Unidad léxica

En cualquier caso, se debe definir la unidad básica de "palabra". En el caso de los alfabetos latinos, las palabras suelen ser uno o varios caracteres separados por espacios o signos de puntuación, pero pueden surgir excepciones, como el "can't" en inglés, el "aujourd'hui" en francés o los modismos. También puede ser preferible agrupar las palabras de una familia de palabras bajo la representación de su palabra base . Así, posible, imposible, posibilidad son palabras de la misma familia de palabras, representadas por la palabra base *possib* . A efectos estadísticos, todas estas palabras se suman bajo la forma de palabra base *possib*, lo que permite la clasificación de la ocurrencia de un concepto y una forma. Además, otros idiomas pueden presentar dificultades específicas. Tal es el caso del chino, que no utiliza espacios entre palabras, y donde una cadena específica de varios caracteres puede interpretarse como una frase de palabras de un solo carácter o como una palabra de varios caracteres.

Estadística

Parece que la ley de Zipf se cumple para las listas de frecuencias extraídas de textos más largos de cualquier lengua natural. Las listas de frecuencias son una herramienta útil para la creación de un diccionario electrónico, lo cual es un requisito previo para una amplia gama de aplicaciones en lingüística computacional .

Los lingüistas alemanes definen la Häufigkeitsklasse (clase de frecuencia) de un elemento de la lista utilizando el logaritmo en base 2 de la relación entre su frecuencia y la frecuencia del elemento más frecuente. El elemento más común pertenece a la clase de frecuencia 0 (cero) y cualquier elemento que sea aproximadamente la mitad de frecuente pertenece a la clase 1. En la lista de ejemplo anterior, la palabra mal escrita outragious tiene una relación de 76/3789654 y pertenece a la clase 16. ${\estilo de visualización N}$

N=\left\lfloor 0.5-\log _{2}\left({\frac {\text{Frequency of this item}}{\text{Frequency of most common item}}}\right)\right\rfloor

¿Dónde está la función de piso ? $\lfloor \ldots \rfloor$

Las listas de frecuencias, junto con las redes semánticas , se utilizan para identificar los términos especializados menos comunes que se reemplazarán por sus hiperónimos en un proceso de compresión semántica .

Pedagogía

Estas listas no están destinadas a ser entregadas directamente a los estudiantes, sino más bien a servir como guía para los profesores y los autores de libros de texto (Nation 1997). El resumen de enseñanza de lenguas modernas de Paul Nation alienta primero a "pasar del vocabulario de alta frecuencia y el vocabulario de propósitos especiales [temático] al vocabulario de baja frecuencia, y luego enseñar a los estudiantes estrategias para sostener la expansión autónoma del vocabulario" (Nation 2006).

Efectos de la frecuencia de las palabras

Se sabe que la frecuencia de las palabras tiene diversos efectos (Brysbaert et al., 2011; Rudell, 1993). La memorización se ve afectada positivamente por una mayor frecuencia de palabras, probablemente porque el alumno está sujeto a más exposiciones (Laufer, 1997). El acceso léxico se ve influenciado positivamente por una alta frecuencia de palabras, un fenómeno llamado efecto de frecuencia de palabras (Segui et al.). El efecto de la frecuencia de palabras está relacionado con el efecto de la edad de adquisición , la edad a la que se aprendió la palabra.

Idiomas

A continuación se muestra una revisión de los recursos disponibles.

Inglés

El conteo de palabras es un campo antiguo, ^[4] con discusiones conocidas que se remontan a la época helenística . En 1944, Edward Thorndike , Irvin Lorge y colegas ^[5] contaron a mano 18.000.000 de palabras consecutivas para proporcionar la primera lista de frecuencia del idioma inglés a gran escala, antes de que las computadoras modernas hicieran que tales proyectos fueran mucho más fáciles (Nation 1997). Todas las obras del siglo XX sufren por su antigüedad. En particular, las palabras relacionadas con la tecnología, como "blog", que, en 2014, estaba en el puesto 7665 en frecuencia ^[6] en el Corpus of Contemporary American English, ^[7] fue atestiguada por primera vez en 1999, ^[8]^[9]^[10] y no aparece en ninguna de estas tres listas.

El libro de palabras del maestro de 30.000 palabras (Thorndike y Lorge, 1944)

El Teacher Word Book contiene 30.000 lemas o unas 13.000 familias de palabras (Goulden, Nation y Read, 1990). Se analizó a mano un corpus de 18 millones de palabras escritas. El tamaño de su corpus fuente aumentó su utilidad, pero su antigüedad y los cambios lingüísticos redujeron su aplicabilidad (Nation 1997).

La lista de servicios generales (Oeste, 1953)

La Lista de Servicios Generales contiene 2.000 palabras clave divididas en dos conjuntos de 1.000 palabras. En la década de 1940 se analizó un corpus de 5 millones de palabras escritas. Se proporciona la tasa de ocurrencia (%) de diferentes significados y partes del discurso de la palabra clave. Se aplicaron cuidadosamente al corpus varios criterios, además de la frecuencia y el rango. Por lo tanto, a pesar de su antigüedad, algunos errores y el hecho de que su corpus esté compuesto completamente de texto escrito, sigue siendo una excelente base de datos de frecuencia de palabras, frecuencia de significados y reducción de ruido (Nation 1997). Esta lista fue actualizada en 2013 por el Dr. Charles Browne, el Dr. Brent Culligan y Joseph Phillips como la Nueva Lista de Servicios Generales .

El libro de frecuencia de palabras de la herencia americana (Carroll, Davies y Richman, 1971)

Un corpus de 5 millones de palabras en uso, extraído de textos escritos utilizados en escuelas de Estados Unidos (varios grados, diversas áreas temáticas). Su valor radica en que se centra en los materiales de enseñanza escolar y en que etiqueta las palabras según la frecuencia de cada una de ellas, en cada uno de los grados escolares y en cada una de las áreas temáticas (Nation 1997).

La LOB de Brown (Francis y Kucera, 1982) y corpus relacionados

En la actualidad, estas fuentes contienen un millón de palabras de un corpus escrito que representa diferentes dialectos del inglés. Estas fuentes se utilizan para producir listas de frecuencias (Nation 1997).

Francés

Conjuntos de datos tradicionales

New & Pallier han realizado una revisión. En los años 1950 y 1960 se realizó un intento con el Français fondamental. Incluye la lista FF1 con 1.500 palabras de alta frecuencia, completada por una lista posterior FF2 con 1.700 palabras de frecuencia media y las reglas sintácticas más utilizadas. ^[11] Se afirma que 70 palabras gramaticales constituyen el 50% de la oración comunicativa, ^[12]^[13] mientras que 3.680 palabras constituyen alrededor del 95~98% de la cobertura. ^[14] Hay disponible una lista de 3.000 palabras frecuentes. ^[15]

El Ministerio de Educación francés también ofrece una lista clasificada de las 1.500 familias de palabras más frecuentes , proporcionada por el lexicólogo Étienne Brunet. ^[16] Jean Baudot realizó un estudio siguiendo el modelo del estudio americano Brown, titulado "Fréquences d'utilisation des mots en français écrit contemporain". ^[17]

Más recientemente, el proyecto Lexique3 proporciona 142.000 palabras en francés, con ortografía , fonética , silabación, categoría gramatical , género , número de ocurrencia en el corpus fuente, rango de frecuencia, lexemas asociados , etc., disponibles bajo una licencia abierta CC-by-sa-4.0 . ^[18]

Subtlex

Este Lexique3 es un estudio continuo del que se originó el movimiento Subtlex citado anteriormente. New et al. 2007 realizó un recuento completamente nuevo basado en los subtítulos de películas en línea.

Español

Se han realizado varios estudios sobre la frecuencia de palabras en español (Cuetos et al. 2011). ^[19]

Chino

Los corpus chinos se han estudiado desde hace mucho tiempo desde la perspectiva de las listas de frecuencias. La forma histórica de aprender vocabulario chino se basa en la frecuencia de caracteres (Allanic 2003). El sinólogo estadounidense John DeFrancis mencionó su importancia para el aprendizaje y la enseñanza del chino como lengua extranjera en Why Johnny Can't Read Chinese (DeFrancis 1966). Como conjunto de herramientas de frecuencia, Da (Da 1998) y el Ministerio de Educación de Taiwán (TME 1997) proporcionaron grandes bases de datos con rangos de frecuencia para caracteres y palabras. La lista HSK de 8.848 palabras de alta y media frecuencia en la República Popular China , y la lista TOP de la República de China (Taiwán) de aproximadamente 8.600 palabras chinas tradicionales comunes son otras dos listas que muestran palabras y caracteres chinos comunes. Siguiendo el movimiento SUBTLEX, Cai & Brysbaert 2010 realizaron recientemente un rico estudio de las frecuencias de palabras y caracteres chinos.

Otro

Wikcionario:Listas de frecuencia contiene listas de frecuencia en más idiomas. ^[20]

Palabras más utilizadas en diferentes idiomas según Wikipedia o corpus combinados. ^[21]

Véase también

Frecuencia de las letras
Palabras más comunes en inglés
Cola larga
Google Ngram Viewer : muestra cambios en la frecuencia de palabras/frases (y frecuencia relativa) a lo largo del tiempo

Notas

^ "Crr » Frecuencias de palabras de subtítulos".
^ Boada, Roger; Guasch, Marc; Haro, Juan; Demestre, Josep; Ferré, Pilar (1 de febrero de 2020). "SUBTLEX-CAT: Frecuencias de palabras de subtítulos y diversidad contextual del catalán". Métodos de investigación del comportamiento . 52 (1): 360–375. doi : 10.3758/s13428-019-01233-1 . ISSN 1554-3528. PMID 30895456. S2CID 84843788.
^ Amenta, Simona; Mandera, Pawel; Keuleers, Emmanuel; Brysbaert, Marc; Crepaldi, Davide (7 de enero de 2022). "SUBTLEX-IT".
^ Bontrager, Terry (1 de abril de 1991). "El desarrollo de listas de frecuencia de palabras antes de la lista Thorndike-Lorge de 1944". Psicología de la lectura . 12 (2): 91–116. doi :10.1080/0270271910120201. ISSN 0270-2711.
^ "APA PsycNet". psycnet.apa.org . Consultado el 15 de mayo de 2023 .
^ "Palabras y frases: frecuencia, géneros, colocaciones, concordancias, sinónimos y WordNet".
^ "Corpus de inglés americano contemporáneo (COCA)".
^ "Son los enlaces, estúpido". The Economist. 20 de abril de 2006. Consultado el 5 de junio de 2008 .
^ Merholz, Peter (1999). "Peterme.com". Archivo de Internet . Archivado desde el original el 13 de octubre de 1999. Consultado el 5 de junio de 2008 .
^ Kottke, Jason (26 de agosto de 2003). "kottke.org" . Consultado el 5 de junio de 2008 .
^ "Le français fundamental". Archivado desde el original el 4 de julio de 2010.
^ Ouzoulias, André (2004), Comprendre et Aider les enfants en dificultad escolar: Le Vocabulaire fondamental, 70 mots essentiels (PDF) , Retz- Citando a VAC Henmon (enlace inactivo, sin copia de Internet Archive, 10 de agosto de 2023)
^ Lista de "70 palabras esenciales" reseñadas por VAC Henmon
^ "Generalidades".
^ "PDF 3000 palabras en francés".
^ "Maitrise de la langue à l'école: Vocabulaire". Ministerio de Educación Nacional.
^ Baudot, J. (1992), Fréquences d'utilisation des mots en français écrit contemporain , Presses de L'Université, ISBN 978-2-7606-1563-2
^ "Léxico".
^ "Listas de frecuencia de palabras en español". Vocabularywiki.pbworks.com .
^ Wikcionario:Listas de frecuencias, 21 de julio de 2024
^ Palabras más utilizadas en diferentes idiomas, ezglot

Referencias

Busque Wikcionario:Listas de frecuencias en Wikcionario, el diccionario libre.

Conceptos teóricos

Nation, P. (1997), "Tamaño del vocabulario, cobertura textual y listas de palabras", en Schmitt; McCarthy (eds.), Vocabulary: Description, Acquisition and Pedagogy , Cambridge: Cambridge University Press, págs. 6-19, ISBN 978-0-521-58551-4
Laufer, B. (1997), "¿Qué hay en una palabra que la hace difícil o fácil? Algunos factores intraléxicos que afectan el aprendizaje de palabras", Vocabulary: Description, Acquisition and Pedagogy , Cambridge: Cambridge University Press, pp. 140–155, ISBN 9780521585514
Nation, P. (2006), "Educación lingüística: vocabulario", Enciclopedia de lengua y lingüística , Oxford: 494–499, doi :10.1016/B0-08-044854-2/00678-7, ISBN 9780080448541.
Brysbaert, Marc; Buchmeier, Matthias; Conrad, Markus; Jacobs, Arthur M.; Bölte, Jens; Böhl, Andrea (2011). "El efecto de la frecuencia de las palabras: una revisión de los desarrollos recientes y las implicaciones para la elección de estimaciones de frecuencia en alemán". Psicología experimental . 58 (5): 412–424. doi :10.1027/1618-3169/a000123. PMID 21768069.base de datos
Rudell, AP (1993), "Frecuencia de uso de palabras y dificultad percibida de las palabras: Calificaciones de las palabras de Kucera y Francis", Most , vol. 25, págs. 455–463
Segui, J.; Mehler, Jacques; Frauenfelder, Uli; Morton, John (1982), "El efecto de la frecuencia de las palabras y el acceso léxico", Neuropsychologia , 20 (6): 615–627, doi :10.1016/0028-3932(82)90061-6, PMID 7162585, S2CID 39694258
Meier, Helmut (1967), Deutsche Sprachstatistik , Hildesheim: Olms(lista de frecuencia de palabras alemanas)
DeFrancis, John (1966), Por qué Johnny no sabe leer chino
Allanic, Bernard (2003), El corpus de personajes y su aspecto pedagógico en la China antigua y contemporánea (fr: Les corpus de caractères et leur dimension pédagogique dans la Chine ancienne et contemporaine) (These de doctorat), París: INALCO

Bases de datos basadas en textos escritos

Da, Jun (1998), Jun Da: Chinese text computing , consultado el 21 de agosto de 2010.
Ministerio de Educación de Taiwán (1997), 八十六年常用語詞調查報告書, consultado el 21 de agosto de 2010.
Nuevo, Boris; Pallier, Christophe, Manuel de Lexique 3 (en francés) (3.01 ed.).
Gimenes, Manuel; New, Boris (2016), "Worldlex: Frecuencias de palabras en Twitter y blogs para 66 idiomas", Behavior Research Methods , 48 (3): 963–972, doi : 10.3758/s13428-015-0621-0 , ISSN 1554-3528, PMID 26170053.

Movimiento SUBTLEX

Nuevo, B.; Brysbaert, M.; Veronis, J.; Pallier, C. (2007). "SUBTLEX-FR: El uso de subtítulos cinematográficos para estimar frecuencias de palabras" (PDF) . Applied Psycholinguistics . 28 (4): 661. doi :10.1017/s014271640707035x. hdl : 1854/LU-599589 . S2CID 145366468. Archivado desde el original (PDF) el 2016-10-24.
Brysbaert, Marc; New, Boris (2009), "Más allá de Kucera y Francis: una evaluación crítica de las normas actuales de frecuencia de palabras y la introducción de una nueva y mejorada medida de frecuencia de palabras para el inglés americano" (PDF) , Behavior Research Methods , 41 (4): 977–990, doi : 10.3758/brm.41.4.977 , PMID 19897807, S2CID 4792474
Keuleers, E, M, B.; New, B. (2010), "SUBTLEX--NL: Una nueva medida de frecuencia de palabras en holandés basada en subtítulos de películas", Behavior Research Methods , 42 (3): 643–650, doi : 10.3758/brm.42.3.643 , PMID 20805586{{citation}}: CS1 maint: multiple names: authors list (link)
Cai, Q.; Brysbaert, M. (2010), "SUBTLEX-CH: Frecuencias de palabras y caracteres chinos basadas en subtítulos de películas", PLOS ONE , 5 (6): 8, Bibcode :2010PLoSO...510729C, doi : 10.1371/journal.pone.0010729 , PMC 2880003 , PMID 20532192
Cuetos, F.; Glez-nosti, María; Barbón, Analía; Brysbaert, Marc (2011), "SUBTLEX-ESP: Frecuencias de palabras en español basadas en subtítulos de películas" (PDF) , Psicológica , 32 : 133–143
Dimitropoulou, M.; Duñabeitia, Jon Andoni; Avilés, Alberto; Corral, José; Carreiras, Manuel (2010), "SUBTLEX-GR: Frecuencias de palabras basadas en subtítulos como mejor estimación del comportamiento de lectura: el caso del griego", Fronteras en Psicología , 1 (diciembre): 12, doi : 10.3389/fpsyg.2010.00218 , PMC 3153823 , PMID 21833273
Pham, H.; Bolger, P.; Baayen, RH (2011), "SUBTLEX-VIE: una medida de frecuencias de palabras y caracteres vietnamitas en subtítulos de películas", ACOL
Brysbaert, M.; New, Boris; Keuleers, E. (2012), "SUBTLEX-US: Cómo añadir información sobre las partes del discurso a las frecuencias de palabras de SUBTLEXus" (PDF) , Behavior Research Methods : 1–22(bases de datos)
Mandera, P.; Keuleers, E.; Wodniecka, Z.; Brysbaert, M. (2014). "Subtlex-pl: estimaciones de frecuencia de palabras basadas en subtítulos para polaco" (PDF) . Behav Res Methods . 47 (2): 471–483. doi :10.3758/s13428-014-0489-4. PMID 24942246. S2CID 2334688.
Tang, K. (2012), "Un corpus de 61 millones de palabras de subtítulos de películas en portugués brasileño como recurso para la investigación lingüística", UCL Work Pap Linguist (24): 208–214
Avdyli, Rrezarta; Cuetos, Fernando (junio de 2013), "SUBTLEX- AL: Frecuencias de palabras albanesas basadas en subtítulos de películas", ILIRIA International Review , 3 (1): 285–292, doi : 10.21113/iir.v3i1.112 (inactivo el 28 de agosto de 2024), ISSN 2365-8592{{citation}}: CS1 maint: DOI inactive as of August 2024 (link)
Soares, Ana Paula; Machado, João; Costa, Ana; Iriarte, Álvaro; Simões, Alberto; de Almeida, José João; Comesaña, Montserrat; Perea, Manuel (abril de 2015), "Sobre las ventajas de las medidas de frecuencia de palabras y diversidad contextual extraídas de subtítulos: El caso del portugués", The Quarterly Journal of Experimental Psychology , 68 (4): 680–696, doi :10.1080/17470218.2014 .964271, PMID 25263599, S2CID 5376519

Este artículo incluye una lista de listas relacionadas con el idioma .
Si un enlace interno lo llevó aquí por error, puede cambiar el enlace para que apunte directamente al artículo deseado.