El visor de Ngram de Google Books es un motor de búsqueda en línea que grafica las frecuencias de cualquier conjunto de cadenas de búsqueda utilizando un recuento anual de n -gramas encontrados en fuentes impresas publicadas entre 1500 y 2022 [1] [2] [3] [4] en los corpus de texto de Google en inglés, chino (simplificado), francés, alemán, hebreo, italiano, ruso o español. [1] [2] [5] También hay algunos corpus especializados en inglés, como inglés americano, inglés británico y ficción inglesa. [6]
El programa puede buscar una palabra o una frase, incluyendo errores ortográficos o galimatías. [5] Los n -gramas se comparan con el texto dentro del corpus seleccionado y, si se encuentran en 40 o más libros, se muestran como un gráfico. [6] El visor de n-gramas de Google Books admite búsquedas de partes del discurso y comodines . [6] Se utiliza de forma rutinaria en la investigación. [7] [8]
En los procesos de desarrollo, Google se asoció con dos investigadores de Harvard , Jean-Baptiste Michel y Erez Lieberman Aiden , y silenciosamente lanzó el programa el 16 de diciembre de 2010. [2] [9] Antes del lanzamiento, era difícil cuantificar la tasa de cambio lingüístico debido a la ausencia de una base de datos que fuera diseñada para este propósito, dijo Steven Pinker , [10] un conocido lingüista que fue uno de los coautores del artículo de Science publicado el mismo día. [1] El Google Books Ngram Viewer fue desarrollado con la esperanza de abrir una nueva ventana a la investigación cuantitativa en el campo de las humanidades, y la base de datos contenía 500 mil millones de palabras de 5,2 millones de libros disponibles públicamente desde el principio. [2] [3] [9]
El público al que estaba destinado era académico, pero el visor de Ngram de Google Books hizo posible que cualquier persona con una computadora pudiera ver un gráfico que representa el cambio diacrónico del uso de palabras y frases con facilidad. Lieberman dijo en respuesta al New York Times que los desarrolladores tenían como objetivo proporcionar incluso a los niños la capacidad de explorar las tendencias culturales a lo largo de la historia. [9] En el artículo de Science , Lieberman y sus colaboradores llamaron al método de análisis de datos de gran volumen en textos digitalizados " culturomics ". [1] [9]
Los términos de búsqueda introducidos por el usuario se delimitan con comas, donde cada término separado por comas se busca en la base de datos como un n -grama (por ejemplo, "guardería" es un 2-grama o bigrama). [6] El Visor de N-gramas luego devuelve un gráfico de líneas trazado . Tenga en cuenta que debido a las limitaciones en el tamaño de la base de datos de N-gramas, solo se indexan las coincidencias encontradas en al menos 40 libros. [6]
Los conjuntos de datos del Ngram Viewer han sido criticados por su dependencia de un reconocimiento óptico de caracteres (OCR) impreciso y por incluir una gran cantidad de textos incorrectamente fechados y categorizados. [11] Debido a estos errores, y debido a que no están controlados por sesgos [12] (como la creciente cantidad de literatura científica, que hace que otros términos parezcan perder popularidad), se debe tener cuidado al utilizar los corpus para estudiar el lenguaje o probar teorías. [13] Además, los conjuntos de datos pueden no reflejar cambios lingüísticos o culturales generales y solo pueden insinuar tal efecto porque no involucran metadatos como fecha de publicación, [ dudoso – discutir ] autor, extensión o género, para evitar posibles infracciones de derechos de autor . [14]
Los errores sistémicos como la confusión de s y f en textos anteriores al siglo XIX (debido al uso de ſ , la s larga , que es similar en apariencia a f ) pueden causar sesgo sistémico. [13] Aunque el equipo de Google Books afirma que los resultados son confiables desde 1800 en adelante, un OCR deficiente y datos insuficientes significan que las frecuencias dadas para idiomas como el chino solo pueden ser precisas a partir de 1970 en adelante, con partes anteriores del corpus que no muestran resultados en absoluto para términos comunes, y los datos de algunos años contienen más del 50% de ruido. [15] [16] [ se necesita una mejor fuente ]
Se han propuesto directrices para realizar investigaciones con datos de Google Ngram que intentan abordar algunas de las cuestiones analizadas anteriormente. [17]
Documento técnico que presenta la edición 2012 del corpus Ngram de Google Books