Michel y Aiden ayudaron a crear el proyecto Google Ngram Viewer de Google Labs , que utiliza n-gramas para analizar la biblioteca digital Google Books en busca de patrones culturales en el uso del lenguaje a lo largo del tiempo.
Debido a que el conjunto de datos de Google Ngram no es una muestra imparcial [5] y no incluye metadatos, [6] existen varios peligros al usarlo para estudiar el lenguaje o la popularidad de los términos. [7] La literatura médica representa una parte grande, pero cambiante, del corpus, [8] que no tiene en cuenta la frecuencia con la que se imprime o se lee la literatura.
Estudios
En un estudio llamado Culturomics 2.0 , Kalev H. Leetaru examinó archivos de noticias, incluidos medios impresos y de difusión (transcripciones de televisión y radio), en busca de palabras que transmitieran tono o "estado de ánimo", así como datos geográficos. [10] [11] La investigación predijo retroactivamente la Primavera Árabe de 2011 y estimó con éxito la ubicación final de Osama bin Laden con un margen de error de 124 millas (200 km). [10] [11]
En un artículo de 2012 de Alexander M. Petersen y coautores [12], encontraron un "cambio dramático en la tasa de nacimientos y muertes de las palabras": [13] Las muertes han aumentado y los nacimientos han disminuido. Los autores también identificaron un "punto de inflexión" universal en el ciclo de vida de las palabras nuevas: entre 30 y 50 años después de su origen, ingresan al léxico de largo plazo o caen en desuso. [13]
En una serie de estudios realizados por I. Flaounas y coautores, se han adoptado enfoques culturómicos para analizar el contenido de los periódicos. Estos estudios mostraron tendencias macroscópicas en diferentes medios de comunicación y países. En 2012, un estudio de 2,5 millones de artículos sugirió que el sesgo de género en la cobertura de noticias depende del tema y de cómo la legibilidad de los artículos de los periódicos se relaciona con el tema. [14] Un estudio independiente realizado por los mismos investigadores, que abarcó 1,3 millones de artículos de 27 países, [15] mostró patrones macroscópicos en la elección de historias para cubrir. En particular, los países tomaron decisiones similares cuando estaban relacionados por vínculos económicos, geográficos y culturales. Los vínculos culturales se revelaron por la similitud en la votación para el concurso de canciones de Eurovisión . Este estudio se realizó a gran escala, utilizando traducción automática estadística , categorización de texto y técnicas de extracción de información .
La posibilidad de detectar cambios de humor en una vasta población mediante el análisis del contenido de Twitter quedó demostrada en un estudio realizado por T. Lansdall-Welfare y coautores. [16] El estudio consideró 84 millones de tuits generados por más de 9,8 millones de usuarios del Reino Unido durante un período de 31 meses, mostrando cómo ha cambiado el sentimiento público en el Reino Unido con el anuncio de recortes de gastos.
En un estudio de 2013 realizado por S. Sudhahar y coautores, el análisis automático de corpus textuales ha permitido la extracción de actores y sus redes relacionales a gran escala, convirtiendo los datos textuales en datos de red. Las redes resultantes, que pueden contener miles de nodos, se analizan luego utilizando herramientas de la teoría de redes para identificar los actores clave, las comunidades o partes clave y las propiedades generales como la solidez o la estabilidad estructural de la red en general o la centralidad de ciertos nodos. [17]
En un estudio de 2014 realizado por T. Lansdall-Welfare y coautores, se recopilaron 5 millones de artículos de noticias durante 5 años [18] y luego se analizaron para sugerir un cambio significativo en el sentimiento en relación con la cobertura de la energía nuclear, que se correspondía con el desastre de Fukushima . El estudio también extrajo conceptos que se asociaron con la energía nuclear antes y después del desastre, lo que explica el cambio de sentimiento con un cambio en el marco narrativo.
En 2015, un estudio reveló el sesgo del conjunto de datos de libros de Google, que "adolece de una serie de limitaciones que lo convierten en una oscura máscara de popularidad cultural" [5] , y pone en duda la importancia de muchos de los resultados anteriores.
Los enfoques culturómicos también pueden contribuir a la ciencia de la conservación a través de una mejor comprensión de las relaciones entre los seres humanos y la naturaleza, con la primera investigación publicada por McCallum y Bury en 2013. [19] Este estudio reveló una caída precipitada en el interés público en cuestiones ambientales. En 2016, una publicación de Richard Ladle y colegas [20] destacó cinco áreas clave donde la culturómica puede usarse para avanzar en la práctica y la ciencia de la conservación, incluyendo el reconocimiento de los grupos orientados a la conservación y la demostración del interés público en la naturaleza, la identificación de emblemas de conservación, el suministro de nuevas métricas y herramientas para el monitoreo ambiental casi en tiempo real y para apoyar la toma de decisiones de conservación, la evaluación del impacto cultural de las intervenciones de conservación y el encuadre de las cuestiones de conservación y la promoción de la comprensión pública.
En 2017, un estudio correlacionó el dolor articular con la actividad de búsqueda en Google y la temperatura. [21] Si bien el estudio observó una mayor actividad de búsqueda de dolor de cadera y rodilla (pero no artritis ) durante temperaturas más altas, no controla (y no puede controlar) otros factores relevantes como la actividad. Los medios de comunicación lo malinterpretaron como "un mito desmentido: la lluvia no aumenta el dolor articular", [22] [23] mientras que los autores especulan que la correlación observada se debe a "cambios en los niveles de actividad física". [24]
Crítica
Los lingüistas y lexicógrafos han expresado su escepticismo con respecto a los métodos y resultados de algunos de estos estudios, incluido uno de Petersen et al. [25] Otros han demostrado sesgo en el conjunto de datos de Ngram. Sus resultados "ponen en tela de juicio la gran mayoría de las afirmaciones existentes extraídas del corpus de Google Books": [5] "En lugar de hablar sobre el cambio lingüístico o cultural general, parece preferible restringir explícitamente los resultados al cambio lingüístico o cultural 'tal como se representa en los datos de Ngram de Google'" [6] porque no está claro qué causó el cambio observado en la muestra. Ficetola criticó el uso de Google Trends, sugiriendo que el interés en realidad estaba aumentando. [26] Pero, en su refutación, McCallum y Bury [27] proporcionaron que en lo que respecta a la política pública, los datos proporcionales eran importantes y los números absolutos irrelevantes, explicando que la política está impulsada por la opinión de la mayor parte de la población, no por el número absoluto, y que las decisiones se toman de acuerdo con la influencia de la mayoría, no simplemente por el número de votos.
^ Cohen, Patricia (16 de diciembre de 2010). "En 500 mil millones de palabras, una nueva ventana a la cultura". New York Times .
^ Hayes, Brian (mayo-junio de 2011). "Bit Lit". American Scientist . 99 (3): 190. doi :10.1511/2011.90.190. Archivado desde el original el 18 de octubre de 2016 . Consultado el 9 de septiembre de 2011 .
^ Letcher, David W. (6 de abril de 2011). "Cultoromics: A New Way to See Temporal Changes in the Prevalence of Words and Phrases" (PDF) . Actas de la 6.ª Conferencia Internacional del Instituto Americano de Educación Superior . 4 (1): 228. Archivado desde el original (PDF) el 3 de marzo de 2016. Consultado el 9 de septiembre de 2011 .
^ Michel, Jean-Baptiste; Liberman Aiden, Erez (16 de diciembre de 2010). "Análisis cuantitativo de la cultura utilizando millones de libros digitalizados". Science . 331 (6014): 176–82. doi :10.1126/science.1199644. PMC 3279742 . PMID 21163965.
^ abc Pechenick, Eitan Adam; Danforth, Christopher M.; Dodds, Peter Sheridan (7 de octubre de 2015). "Caracterización del corpus de Google Books: fuertes límites a las inferencias de la evolución sociocultural y lingüística". PLOS ONE . 10 (10): e0137041. arXiv : 1501.00960 . Bibcode :2015PLoSO..1037041P. doi : 10.1371/journal.pone.0137041 . ISSN 1932-6203. PMC 4596490 . PMID 26445406.
^ ab Koplenig, Alexander (abril de 2017). "El impacto de la falta de metadatos para la medición del cambio cultural y lingüístico utilizando los conjuntos de datos de Google Ngram: reconstrucción de la composición del corpus alemán en tiempos de la Segunda Guerra Mundial". Digital Scholarship in the Humanities . 32 (1): 169–188. doi :10.1093/llc/fqv037. ISSN 2055-7671.
^ Zhang, Sarah. "Los peligros de usar Google Ngram para estudiar el lenguaje". WIRED . Consultado el 24 de mayo de 2017 .
^ Comparación de términos de ejemplo
^ Sudhahar, Saatviga; Veltri, Giuseppe A.; Cristianini, Nello (2015). "Análisis automatizado de las elecciones presidenciales de Estados Unidos utilizando Big Data y análisis de redes". Big Data & Society . 2 . doi : 10.1177/2053951715572916 . hdl : 2381/31767 . S2CID 62188746.
^ ab Leetaru, Kalev H. (5 de septiembre de 2011). "Culturomics 2.0: predicción del comportamiento humano a gran escala utilizando el tono de los medios de comunicación globales en el tiempo y el espacio". Primer lunes . 16 (9). doi : 10.5210/fm.v16i9.3663 .
^ ab Quick, Darren (7 de septiembre de 2011). "La investigación culturómica utiliza un cuarto de siglo de cobertura mediática para pronosticar el comportamiento humano". Gizmag.com . Consultado el 9 de septiembre de 2011 .
^ Petersen, Alexander M. (15 de marzo de 2012). "Leyes estadísticas que rigen las fluctuaciones en el uso de palabras desde el nacimiento hasta la muerte de las mismas". Scientific Reports . 2 : 313. arXiv : 1107.3707 . Bibcode :2012NatSR...2E.313P. doi :10.1038/srep00313. PMC 3304511 . PMID 22423321.
^ ab "La nueva ciencia del nacimiento y la muerte de las palabras", CHRISTOPHER SHEA, Wall Street Journal , 16 de marzo de 2012
^ Flaounas, Ilias; Alí, Omar; Lansdall-Bienestar, Thomas; De Bie, Tijl; Mosdell, Nick; Lewis, Justin; Cristianini, Nello (2013). "Métodos de investigación en la era del periodismo digital". Periodismo Digital . 1 : 102-116. doi : 10.1080/21670811.2012.714928 . S2CID 61080552.
^ Flaounas, Ilias; Turchi, Marco; Ali, Omar; Fyson, Nick; De Bie, Tijl; Mosdell, Nick; Lewis, Justin; Cristianini, Nello (2010). "La estructura de la mediasfera de la UE". PLOS ONE . 5 (12): e14243. Bibcode :2010PLoSO...514243F. doi : 10.1371/journal.pone.0014243 . PMC 2999531 . PMID 21170383.
^ Lansdall-Welfare, Thomas; Lampos, Vasileios; Cristianini, Nello (2012). "Efectos de la recesión en el estado de ánimo del público en el Reino Unido". Actas de la 21.ª conferencia internacional sobre la World Wide Web - WWW '12 Companion . pág. 1221. doi :10.1145/2187980.2188264. ISBN9781450312301.S2CID1825992 .
^ Sudhahar, Saatviga; De Fazio, Gianluca; Franzosi, Roberto; Cristianini, Nello (2015). "Análisis en red de contenidos narrativos en grandes corpus". Ingeniería del Lenguaje Natural . 21 : 81-112. doi :10.1017/S1351324913000247. hdl : 1983/dfb87140-42e2-486a-91d5-55f9007042df . S2CID 3385681.
^ Lansdall-Welfare, Thomas; Sudhahar, Saatviga; Veltri, Giuseppe A.; Cristianini, Nello (2014). "Sobre la cobertura de la ciencia en los medios: un estudio de big data sobre el impacto del desastre de Fukushima". Conferencia internacional IEEE de 2014 sobre big data (Big Data) . págs. 60–66. doi :10.1109/BigData.2014.7004454. hdl :2381/31439. ISBN .978-1-4799-5666-1.S2CID7686818 .
^ McCallum, Malcolm L; Bury, Gwendolynn W (2016). "Culturómica de la conservación". Biodiversidad y conservación . 22 (6–7): 1355–1367. Bibcode :2016FrEE...14..269L. doi :10.1002/fee.1260. S2CID 199392763.
^ Cucharón, Richard J.; Correia, Ricardo A.; Hazlo, Yuno; Joo, Gea-Jae; Malhado, Ana CM; Proulx, Rafael; Roberge, Jean-Michel; Jepson, Paul (2016). "Culturómica de la conservación". Fronteras en Ecología y Medio Ambiente . 14 (5): 269–275. Código Bib : 2016FrEE...14..269L. doi : 10.1002/tarifa.1260. S2CID 199392763.
^ Telfer, Scott; Obradovich, Nick (9 de agosto de 2017). "El clima local está asociado con las tasas de búsquedas en línea de síntomas de dolor musculoesquelético". PLOS ONE . 12 (8): e0181266. Bibcode :2017PLoSO..1281266T. doi : 10.1371/journal.pone.0181266 . ISSN 1932-6203. PMC 5549896 . PMID 28792953.
^ "¿Los dolores articulares están asociados con la lluvia? Google sugiere lo contrario". NBC News . Consultado el 10 de agosto de 2017 .
^ "Este mito sobre el dolor articular es una completa tontería". Salud masculina . 2017-08-10 . Consultado el 2017-08-10 .
^ "¿La lluvia aumenta el dolor articular? Google sugiere lo contrario: los niveles de actividad de las personas (que aumentan a medida que suben las temperaturas, hasta cierto punto) tienen más probabilidades que el propio clima de causar dolor que motive las búsquedas en línea, según afirman los investigadores". ScienceDaily . Consultado el 10 de agosto de 2017 .
^ "Cuando los físicos hacen lingüística", BEN ZIMMER, Boston Globe , 10 de febrero de 2013
^ Ficetola, GF (2014). "¿Está realmente disminuyendo el interés por el medio ambiente? La complejidad de analizar tendencias utilizando datos de búsquedas en Internet". Biodiversidad y conservación . 23 (12): 2983–2988. doi :10.1007/s10531-013-0552-y. S2CID 17003129.
^ McCallum, Malcolm L. (2014). "El interés público en el medio ambiente está cayendo: una respuesta a Ficetola (2013)". Biodiversidad y conservación . 23 (2): 1057–1062. Bibcode :2014BiCon..23.1057M. doi :10.1007/s10531-014-0640-7. S2CID 7056654.
Lectura adicional
Michel, Jean-Baptiste; Liberman Aiden, Erez ; Aiden, AP; Veres, A.; Gray, MK; Pickett, JP; Hoiberg, D.; Clancy, D.; Norvig, P.; Orwan, John; Nowak, Martin ; Pinker, Steven (16 de diciembre de 2010). "Análisis cuantitativo de la cultura utilizando millones de libros digitalizados". Science . 331 (6014): 176–82. doi :10.1126/science.1199644. PMC 3279742 . PMID 21163965.
Leetaru, Kalev H. (5 de septiembre de 2011). "Culturomics 2.0: predicción del comportamiento humano a gran escala utilizando el tono de los medios de comunicación globales en el tiempo y el espacio". First Monday . 16 (9). doi : 10.5210/fm.v16i9.3663 .
Bohannon, John (14 de enero de 2011). "Google Books, Wikipedia y el futuro de la culturómica". Science . 331 (6014): 135. Bibcode :2011Sci...331..135B. doi : 10.1126/science.331.6014.135 . PMID 21233356.
Schwartz, Tim (1 de abril de 2011). "Culturomics: las publicaciones periódicas miden el pulso de la cultura". Science . 332 (6025): 35–36. Bibcode :2011Sci...332...35S. doi :10.1126/science.332.6025.35-c. PMID 21454770.
Morse-Gagné, Elise E. (1 de abril de 2011). "Culturomics: las trampas estadísticas enturbian los datos". Science . 332 (6025): 35, respuesta del autor 36–7. Bibcode :2011Sci...332...35M. doi :10.1126/science.332.6025.35-b. PMID 21454771.
Shea, Christopher (16 de marzo de 2012). «La nueva ciencia del nacimiento y la muerte de las palabras». Wall Street Journal . Consultado el 15 de enero de 2013 .
Acerbi, Alberto; Lampos, Vasileios; Garnett, Philip; Bentley, Alexander (20 de marzo de 2013). "La expresión de las emociones en los libros del siglo XX". PLoS ONE . 8 (3): e59030. Bibcode :2013PLoSO...859030A. doi : 10.1371/journal.pone.0059030 . PMC 3604170 . PMID 23527080.
Bentley, Alexander; Acerbi, Alberto; Ormerod, Paul; Lampos, Vasileios (8 de enero de 2014). "Los libros representan el promedio de la década anterior de miseria económica". PLoS ONE . 9 (1): e83147. Bibcode :2014PLoSO...983147B. doi : 10.1371/journal.pone.0083147 . PMC 3885402 . PMID 24416159.
Lansdall-Welfare, Thomas; Sudhahar, Saatviga; Thompson, James; Lewis, Justin; Cristianini, Nello (2017). "Análisis de contenido de 150 años de publicaciones periódicas británicas". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 114 (4): E457–E465. Bibcode :2017PNAS..114E.457L. doi : 10.1073/pnas.1606380114 . PMC 5278459 . PMID 28069962.
Enlaces externos
Culturomics.org, sitio web del Observatorio Cultural de Harvard dirigido por Erez Lieberman Aiden y Jean-Baptiste Michel