Los estudios que calculan y clasifican las palabras más comunes en inglés examinan textos escritos en ese idioma. Tal vez el análisis más completo de este tipo sea el que se realizó en relación con el Oxford English Corpus (OEC), un enorme corpus de textos escritos en inglés.
En total, los textos del Oxford English Corpus contienen más de 2 mil millones de palabras. [1] El OEC incluye una amplia variedad de muestras de escritura, como obras literarias, novelas, revistas académicas, periódicos, revistas, debates parlamentarios de Hansard , blogs , registros de chat y correos electrónicos. [2]
Otro corpus inglés que se ha utilizado para estudiar la frecuencia de las palabras es el Brown Corpus , que fue compilado por investigadores de la Universidad Brown en la década de 1960. Los investigadores publicaron su análisis del Brown Corpus en 1967. Sus hallazgos fueron similares, pero no idénticos, a los hallazgos del análisis de OEC.
Según The Reading Teacher's Book of Lists , las primeras 25 palabras del OEC constituyen aproximadamente un tercio de todo el material impreso en inglés, y las primeras 100 palabras constituyen aproximadamente la mitad de todo el inglés escrito. [3] Según un estudio citado por Robert McCrum en The Story of English , las primeras cien palabras más comunes en inglés son de origen inglés antiguo , [4] excepto "people", en última instancia del latín "populus", y "because", en parte del latín "causa".
Algunas listas de palabras comunes distinguen entre formas de palabras , mientras que otras clasifican todas las formas de una palabra como un solo lexema (la forma de la palabra tal como aparecería en un diccionario). Por ejemplo, el lexema be (como en to be ) comprende todas sus conjugaciones ( is , was , am , are , were , etc.) y las contracciones de esas conjugaciones. [5] Estos 100 lemas principales que se enumeran a continuación representan el 50% de todas las palabras del Oxford English Corpus. [1]
A continuación se ofrece una lista de las 100 palabras que aparecen con mayor frecuencia en el inglés escrito, basada en un análisis del Oxford English Corpus (una colección de textos en inglés que comprende más de 2 mil millones de palabras). [1] Se proporciona una categoría gramatical para la mayoría de las palabras, pero las categorías gramaticales varían entre los análisis y no se enumeran todas las posibilidades. Por ejemplo, "I" puede ser un pronombre o un número romano; "to" puede ser una preposición o un marcador de infinitivo; "time" puede ser un sustantivo o un verbo. Además, una sola ortografía puede representar más de una palabra raíz . Por ejemplo, "singer" puede ser una forma de "sing" o "singe". Diferentes corpus pueden tratar esta diferencia de manera diferente.
La cantidad de sentidos distintos que se enumeran en Wikcionario se muestra en la columna de polisemia . Por ejemplo, "out" puede referirse a una huida, a una retirada del juego en el béisbol o a cualquiera de otros 36 conceptos. En promedio, cada palabra de la lista tiene 15,38 sentidos. El recuento de sentidos no incluye el uso de términos en verbos frasales como "put out" (como en "inconvenienced") y otras expresiones de varias palabras como la interjección "¡get out!", donde la palabra "out" no tiene un significado individual. [6] Como ejemplo, "out" aparece en al menos 560 verbos frasales [7] y aparece en casi 1700 expresiones de varias palabras. [8]
La tabla también incluye frecuencias de otros corpus. Además de las diferencias de uso, la lematización puede variar de un corpus a otro (por ejemplo, al separar el uso preposicional de "to" del uso como partícula). Además, la lista del Corpus of Contemporary American English (COCA) incluye la dispersión y la frecuencia para calcular el rango.
La siguiente es una lista muy similar, también de la OEC, subdividida por parte del discurso . [1] La lista denominada "Otros" incluye pronombres , posesivos , artículos , verbos modales , adverbios y conjunciones .