stringtranslate.com

Visor de Google Ngram

Ejemplo de una consulta Ngram

Google Ngram Viewer o Google Books Ngram Viewer es un motor de búsqueda en línea que traza las frecuencias de cualquier conjunto de cadenas de búsqueda utilizando un recuento anual de n -gramas encontrados en fuentes impresas publicadas entre 1500 y 2019 [1] [2] [3] [4] en los corpus de texto de Google en inglés, chino (simplificado), francés, alemán, hebreo, italiano, ruso o español. [2] [5] También hay algunos corpus especializados en inglés, como inglés americano, inglés británico y ficción inglesa. [6]

El programa puede buscar una palabra o frase, incluidos errores ortográficos o galimatías. [5] Los n -gramas se comparan con el texto dentro del corpus seleccionado, usando opcionalmente una ortografía que distingue entre mayúsculas y minúsculas (que compara el uso exacto de letras mayúsculas), [7] y, si se encuentran en 40 o más libros, luego se muestran como un gráfico. [8] Google Ngram Viewer admite búsquedas de partes del discurso y comodines . [6] Se utiliza habitualmente en la investigación. [9] [10]

Historia

El programa fue desarrollado por Jon Orwant y Will Brockman y lanzado a mediados de diciembre de 2010. [2] [3] Se inspiró en un prototipo llamado Bookworm creado por Jean-Baptiste Michel y Erez Aiden del Observatorio Cultural de Harvard , Yuan Shen del MIT y Steven Pinker . [11]

Ngram Viewer se basó inicialmente en la edición de 2009 de Google Books Ngram Corpus. A julio de 2020 , el programa admite corpus de 2009, 2012 y 2019.

Funcionamiento y restricciones

Las comas delimitan los términos de búsqueda ingresados ​​por el usuario, indicando cada palabra o frase separada que se debe buscar. [8] Ngram Viewer devuelve un gráfico de líneas trazadas .

Como ajuste por el hecho de que se hayan publicado más libros durante algunos años, los datos se normalizan , como nivel relativo, por el número de libros publicados en cada año. [8]

Debido a las limitaciones en el tamaño de la base de datos de Ngram, en la base de datos solo se indexan las coincidencias encontradas en al menos 40 libros. [8]

Limitaciones

El conjunto de datos ha sido criticado por su dependencia de OCR inexacto , una sobreabundancia de literatura científica y por incluir una gran cantidad de textos categorizados y fechados incorrectamente. [12] [13] Debido a estos errores, y debido a que no se controla el sesgo [14] (como la creciente cantidad de literatura científica, que hace que otros términos parezcan perder popularidad), es arriesgado utilizar este corpus para estudiar el lenguaje o probar teorías. [15] Dado que el conjunto de datos no incluye metadatos , es posible que no refleje un cambio lingüístico o cultural general [16] y solo puede insinuar tal efecto.

Se han propuesto pautas para realizar investigaciones con datos de Google Ngram que abordan muchas de las cuestiones analizadas anteriormente. [17]

Problemas de OCR

El reconocimiento óptico de caracteres, u OCR, no siempre es confiable y es posible que algunos caracteres no se escaneen correctamente. En particular, los errores sistémicos como la confusión de s y f en textos anteriores al siglo XIX (debido al uso de ſ , la s larga , que era similar en apariencia a f ) pueden causar sesgos sistémicos. Aunque Google Ngram Viewer afirma que los resultados son confiables desde 1800 en adelante, el OCR deficiente y los datos insuficientes significan que las frecuencias dadas para idiomas como el chino solo pueden ser precisas a partir de 1970, y partes anteriores del corpus no muestran ningún resultado para términos comunes. , y datos de algunos años que contienen más del 50% de ruido. [18] [19]

Ver también

Referencias

  1. ^ "Análisis cuantitativo de la cultura utilizando millones de libros digitalizados" JB Michel et al, Science 2011, DOI: 10.1126/science.1199644 [1]
  2. ^ abc "La base de datos Google Ngram rastrea la popularidad de 500 mil millones de palabras" Huffington Post , 17 de diciembre de 2010, página web: HP8150.
  3. ^ ab "Ngram Viewer de Google: una máquina del tiempo para juegos de palabras", Cnet.com, 17 de diciembre de 2010, página web: CN93 Archivado el 23 de enero de 2014 en Wayback Machine .
  4. ^ @searchliaison (13 de julio de 2020). "El visor Ngram de Google Books se ha actualizado con datos nuevos hasta 2019" ( Tweet ) . Consultado el 11 de agosto de 2020 – vía Twitter .
  5. ^ ab "Google Books Ngram Viewer - Bibliotecas de la Universidad de Buffalo", Lib.Buffalo.edu, 22 de agosto de 2011, página web: Buf497 Archivado el 2 de julio de 2013 en Wayback Machine.
  6. ^ ab "Página de información del visor Ngram de Google Books".
  7. ^ "Google Ngram Viewer - Google Books", Books.Google.com, mayo de 2012, página web: G-Ngrams.
  8. ^ abcd "Google Ngram Viewer - Google Books" (Información), Books.Google.com, 16 de diciembre de 2010, página web: G-Ngrams-info: notas bigramas y uso de comillas para palabras con apóstrofes.
  9. ^ Greenfield, Patricia M. (septiembre de 2013). "La psicología cambiante de la cultura desde 1800 hasta 2000". Ciencia psicológica . 24 (9): 1722-1731. doi : 10.1177/0956797613479387. ISSN  0956-7976. PMID  23925305. S2CID  6123553.
  10. ^ Younes, Nadja; Reips, Ulf-Dietrich (octubre de 2018). "La psicología cambiante de la cultura en los países de habla alemana: un estudio de Google Ngram: LA PSICOLOGÍA CAMBIANTE DE LA CULTURA". Revista Internacional de Psicología . 53 : 53–62. doi :10.1002/ijop.12428. PMID  28474338. S2CID  7440938.
  11. ^ La RSA (4 de febrero de 2010). "Steven Pinker - The Stuff of Thought: El lenguaje como ventana a la naturaleza humana" - a través de YouTube.
  12. Google Ngrams: OCR y metadatos Archivado el 27 de abril de 2016 en Wayback Machine . ResourceShelf, 19 de diciembre de 2010
  13. ^ Nunberg, Geoff (16 de diciembre de 2010). "Investigación en humanidades con el corpus de Google Books". Archivado desde el original el 10 de marzo de 2016.
  14. ^ Pechenick, Eitan Adam; Danforth, Christopher M.; Dodds, Peter Sheridan; Barrat, Alain (7 de octubre de 2015). "Caracterización del corpus de Google Books: fuertes límites a las inferencias de la evolución sociocultural y lingüística". MÁS UNO . 10 (10): e0137041. arXiv : 1501.00960 . Código Bib : 2015PLoSO..1037041P. doi : 10.1371/journal.pone.0137041 . PMC 4596490 . PMID  26445406. 
  15. ^ Zhang, Sara. "Los peligros de utilizar Google Ngram para estudiar idiomas". CABLEADO . Consultado el 24 de mayo de 2017 .
  16. ^ Koplenig, Alejandro (2 de septiembre de 2015). "El impacto de la falta de metadatos para medir el cambio cultural y lingüístico utilizando los conjuntos de datos de Google Ngram: reconstrucción de la composición del corpus alemán en tiempos de la Segunda Guerra Mundial". Beca Digital en Humanidades (publicada el 1 de abril de 2017). 32 (1): 169–188. doi : 10.1093/llc/fqv037. ISSN  2055-7671.
  17. ^ Younes, Nadja; Reips, Ulf-Dietrich (22 de marzo de 2019). "Pauta para mejorar la confiabilidad de los estudios de Google Ngram: evidencia de términos religiosos". MÁS UNO . 14 (3): e0213554. Código Bib : 2019PLoSO..1413554Y. doi : 10.1371/journal.pone.0213554 . ISSN  1932-6203. PMC 6430395 . PMID  30901329. 
  18. ^ Google n-gramas y chino premoderno. digitalsinology.org.
  19. ^ Cuando los n-gramas van mal. digitalsinology.org.

Bibliografía

enlaces externos