Google Ngram Viewer o Google Books Ngram Viewer es un motor de búsqueda en línea que traza las frecuencias de cualquier conjunto de cadenas de búsqueda utilizando un recuento anual de n -gramas encontrados en fuentes impresas publicadas entre 1500 y 2019 [1] [2] [3] [4] en los corpus de texto de Google en inglés, chino (simplificado), francés, alemán, hebreo, italiano, ruso o español. [2] [5] También hay algunos corpus especializados en inglés, como inglés americano, inglés británico y ficción inglesa. [6]
El programa puede buscar una palabra o frase, incluidos errores ortográficos o galimatías. [5] Los n -gramas se comparan con el texto dentro del corpus seleccionado, usando opcionalmente una ortografía que distingue entre mayúsculas y minúsculas (que compara el uso exacto de letras mayúsculas), [7] y, si se encuentran en 40 o más libros, luego se muestran como un gráfico. [8] Google Ngram Viewer admite búsquedas de partes del discurso y comodines . [6] Se utiliza habitualmente en la investigación. [9] [10]
Historia
El programa fue desarrollado por Jon Orwant y Will Brockman y lanzado a mediados de diciembre de 2010. [2] [3] Se inspiró en un prototipo llamado Bookworm creado por Jean-Baptiste Michel y Erez Aiden del Observatorio Cultural de Harvard , Yuan Shen del MIT y Steven Pinker . [11]
Ngram Viewer se basó inicialmente en la edición de 2009 de Google Books Ngram Corpus. A julio de 2020 [actualizar], el programa admite corpus de 2009, 2012 y 2019.
Funcionamiento y restricciones
Las comas delimitan los términos de búsqueda ingresados por el usuario, indicando cada palabra o frase separada que se debe buscar. [8] Ngram Viewer devuelve un gráfico de líneas trazadas .
Como ajuste por el hecho de que se hayan publicado más libros durante algunos años, los datos se normalizan , como nivel relativo, por el número de libros publicados en cada año. [8]
Debido a las limitaciones en el tamaño de la base de datos de Ngram, en la base de datos solo se indexan las coincidencias encontradas en al menos 40 libros. [8]
Limitaciones
El conjunto de datos ha sido criticado por su dependencia de OCR inexacto , una sobreabundancia de literatura científica y por incluir una gran cantidad de textos categorizados y fechados incorrectamente. [12] [13] Debido a estos errores, y debido a que no se controla el sesgo [14] (como la creciente cantidad de literatura científica, que hace que otros términos parezcan perder popularidad), es arriesgado utilizar este corpus para estudiar el lenguaje o probar teorías. [15] Dado que el conjunto de datos no incluye metadatos , es posible que no refleje un cambio lingüístico o cultural general [16] y solo puede insinuar tal efecto.
Se han propuesto pautas para realizar investigaciones con datos de Google Ngram que abordan muchas de las cuestiones analizadas anteriormente. [17]
Problemas de OCR
El reconocimiento óptico de caracteres, u OCR, no siempre es confiable y es posible que algunos caracteres no se escaneen correctamente. En particular, los errores sistémicos como la confusión de s y f en textos anteriores al siglo XIX (debido al uso de ſ , la s larga , que era similar en apariencia a f ) pueden causar sesgos sistémicos. Aunque Google Ngram Viewer afirma que los resultados son confiables desde 1800 en adelante, el OCR deficiente y los datos insuficientes significan que las frecuencias dadas para idiomas como el chino solo pueden ser precisas a partir de 1970, y partes anteriores del corpus no muestran ningún resultado para términos comunes. , y datos de algunos años que contienen más del 50% de ruido. [18] [19]
^ "Análisis cuantitativo de la cultura utilizando millones de libros digitalizados" JB Michel et al, Science 2011, DOI: 10.1126/science.1199644 [1]
^ abc "La base de datos Google Ngram rastrea la popularidad de 500 mil millones de palabras" Huffington Post , 17 de diciembre de 2010, página web: HP8150.
^ ab "Ngram Viewer de Google: una máquina del tiempo para juegos de palabras", Cnet.com, 17 de diciembre de 2010, página web: CN93 Archivado el 23 de enero de 2014 en Wayback Machine .
^ @searchliaison (13 de julio de 2020). "El visor Ngram de Google Books se ha actualizado con datos nuevos hasta 2019" ( Tweet ) . Consultado el 11 de agosto de 2020 – vía Twitter .
^ ab "Google Books Ngram Viewer - Bibliotecas de la Universidad de Buffalo", Lib.Buffalo.edu, 22 de agosto de 2011, página web: Buf497 Archivado el 2 de julio de 2013 en Wayback Machine.
^ ab "Página de información del visor Ngram de Google Books".
^ "Google Ngram Viewer - Google Books", Books.Google.com, mayo de 2012, página web: G-Ngrams.
^ abcd "Google Ngram Viewer - Google Books" (Información), Books.Google.com, 16 de diciembre de 2010, página web: G-Ngrams-info: notas bigramas y uso de comillas para palabras con apóstrofes.
^ Greenfield, Patricia M. (septiembre de 2013). "La psicología cambiante de la cultura desde 1800 hasta 2000". Ciencia psicológica . 24 (9): 1722-1731. doi : 10.1177/0956797613479387. ISSN 0956-7976. PMID 23925305. S2CID 6123553.
^ Younes, Nadja; Reips, Ulf-Dietrich (octubre de 2018). "La psicología cambiante de la cultura en los países de habla alemana: un estudio de Google Ngram: LA PSICOLOGÍA CAMBIANTE DE LA CULTURA". Revista Internacional de Psicología . 53 : 53–62. doi :10.1002/ijop.12428. PMID 28474338. S2CID 7440938.
^ La RSA (4 de febrero de 2010). "Steven Pinker - The Stuff of Thought: El lenguaje como ventana a la naturaleza humana" - a través de YouTube.
↑ Google Ngrams: OCR y metadatos Archivado el 27 de abril de 2016 en Wayback Machine . ResourceShelf, 19 de diciembre de 2010
^ Nunberg, Geoff (16 de diciembre de 2010). "Investigación en humanidades con el corpus de Google Books". Archivado desde el original el 10 de marzo de 2016.
^ Pechenick, Eitan Adam; Danforth, Christopher M.; Dodds, Peter Sheridan; Barrat, Alain (7 de octubre de 2015). "Caracterización del corpus de Google Books: fuertes límites a las inferencias de la evolución sociocultural y lingüística". MÁS UNO . 10 (10): e0137041. arXiv : 1501.00960 . Código Bib : 2015PLoSO..1037041P. doi : 10.1371/journal.pone.0137041 . PMC 4596490 . PMID 26445406.
^ Zhang, Sara. "Los peligros de utilizar Google Ngram para estudiar idiomas". CABLEADO . Consultado el 24 de mayo de 2017 .
^ Koplenig, Alejandro (2 de septiembre de 2015). "El impacto de la falta de metadatos para medir el cambio cultural y lingüístico utilizando los conjuntos de datos de Google Ngram: reconstrucción de la composición del corpus alemán en tiempos de la Segunda Guerra Mundial". Beca Digital en Humanidades (publicada el 1 de abril de 2017). 32 (1): 169–188. doi : 10.1093/llc/fqv037. ISSN 2055-7671.
^ Younes, Nadja; Reips, Ulf-Dietrich (22 de marzo de 2019). "Pauta para mejorar la confiabilidad de los estudios de Google Ngram: evidencia de términos religiosos". MÁS UNO . 14 (3): e0213554. Código Bib : 2019PLoSO..1413554Y. doi : 10.1371/journal.pone.0213554 . ISSN 1932-6203. PMC 6430395 . PMID 30901329.
^ Google n-gramas y chino premoderno. digitalsinology.org.
^ Cuando los n-gramas van mal. digitalsinology.org.
Bibliografía
Lin, Yuri; et al. (Julio de 2012). "Anotaciones sintácticas para Google Books Ngram Corpus" (PDF) . Actas de la 50.ª reunión anual . Documentos de demostración. Jeju, República de Corea: Asociación de Lingüística Computacional. 2 : 169-174. 2390499. Informe técnico que presenta la edición de 2012 de Google Books Ngram Corpus