stringtranslate.com

Culturómica

La culturómica es una forma de lexicología computacional que estudia el comportamiento humano y las tendencias culturales a través del análisis cuantitativo de textos digitalizados. [1] [2] Los investigadores extraen datos de grandes archivos digitales para investigar fenómenos culturales reflejados en el lenguaje y el uso de las palabras. [3] El término es un neologismo estadounidense descrito por primera vez en un artículo de Science de 2010 llamado Análisis cuantitativo de la cultura utilizando millones de libros digitalizados , en coautoría de los investigadores de Harvard Jean-Baptiste Michel y Erez Lieberman Aiden . [4]

Michel y Aiden ayudaron a crear el proyecto Google Ngram Viewer de Google Labs , que utiliza n-gramas para analizar la biblioteca digital de Google Books en busca de patrones culturales en el uso del lenguaje a lo largo del tiempo.

Debido a que el conjunto de datos de Google Ngram no es una muestra imparcial [5] y no incluye metadatos, [6] existen varios inconvenientes al usarlo para estudiar el lenguaje o la popularidad de términos. [7] La ​​literatura médica representa una parte grande, pero cambiante, del corpus, [8] que no tiene en cuenta la frecuencia con la que se imprime o lee la literatura.

Estudios

Red narrativa de las Elecciones Estadounidenses 2012 [9]

En un estudio llamado Culturomics 2.0 , Kalev H. Leetaru examinó archivos de noticias, incluidos medios impresos y de radiodifusión (transcripciones de radio y televisión), en busca de palabras que impartieran tono o "estado de ánimo", así como datos geográficos. [10] [11] La investigación predijo retroactivamente la Primavera Árabe de 2011 y estimó con éxito la ubicación final de Osama bin Laden dentro de 124 millas (200 km). [10] [11]

En un artículo de 2012 de Alexander M. Petersen y coautores, [12] encontraron un "cambio dramático en la tasa de natalidad y mortalidad de las palabras": [13] Las muertes han aumentado y los nacimientos se han desacelerado. Los autores también identificaron un "punto de inflexión" universal en el ciclo de vida de las nuevas palabras entre 30 y 50 años después de su origen: entran en el léxico a largo plazo o caen en desuso. [13]

Se han adoptado enfoques culturales en el análisis del contenido de los periódicos en varios estudios realizados por I. Flaounas y sus coautores. Estos estudios mostraron tendencias macroscópicas en diferentes medios de comunicación y países. En 2012, un estudio de 2,5 millones de artículos sugirió que el sesgo de género en la cobertura de noticias depende del tema y de cómo se relaciona la legibilidad de los artículos periodísticos con el tema. [14] Un estudio separado realizado por los mismos investigadores, que abarcó 1,3 millones de artículos de 27 países, [15] mostró patrones macroscópicos en la elección de las historias a cubrir. En particular, los países tomaron decisiones similares cuando estaban relacionados por vínculos económicos, geográficos y culturales. Los vínculos culturales quedaron revelados por la similitud en la votación para el concurso de canciones de Eurovisión . Este estudio se realizó a gran escala, mediante el uso de traducción automática estadística , categorización de texto y técnicas de extracción de información .

La posibilidad de detectar cambios de humor en una gran población mediante el análisis del contenido de Twitter quedó demostrada en un estudio realizado por T. Lansdall-Welfare y sus coautores. [16] El estudio consideró 84 millones de tweets generados por más de 9,8 millones de usuarios del Reino Unido durante un período de 31 meses, lo que muestra cómo el sentimiento público en el Reino Unido ha cambiado con el anuncio de recortes de gasto.

En un estudio de 2013 realizado por S Sudhahar y sus coautores, el análisis automático de corpus textuales ha permitido la extracción de actores y sus redes relacionales a gran escala, convirtiendo datos textuales en datos de red. Las redes resultantes, que pueden contener miles de nodos, se analizan utilizando herramientas de la teoría de redes para identificar los actores clave, las comunidades o partes clave y propiedades generales como la robustez o la estabilidad estructural de la red general, o la centralidad de ciertas áreas. nodos. [17]

En un estudio de 2014 realizado por T Lansdall-Welfare y sus coautores, se recopilaron 5 millones de artículos de noticias durante 5 años [18] y luego se analizaron para sugerir un cambio significativo en el sentimiento relativo a la cobertura de la energía nuclear, correspondiente al desastre de Fukushima . El estudio también extrajo conceptos asociados con la energía nuclear antes y después del desastre, explicando el cambio de sentimiento con un cambio en el marco narrativo.

En 2015, un estudio reveló el sesgo del conjunto de datos de libros de Google, que "padece una serie de limitaciones que lo convierten en una oscura máscara de popularidad cultural" [5] y cuestiona la importancia de muchos de los resultados anteriores.

Los enfoques culturómicos también pueden contribuir a las ciencias de la conservación a través de una mejor comprensión de las relaciones entre los seres humanos y la naturaleza, según la primera investigación publicada por McCallum y Bury en 2013. [19] Este estudio reveló una caída precipitada del interés público en las cuestiones ambientales. En 2016, una publicación de Richard Ladle y sus colegas [20] destacó cinco áreas clave donde la culturómica puede usarse para avanzar en la práctica y la ciencia de la conservación, incluido el reconocimiento de grupos de interés orientados a la conservación y la demostración del interés público en la naturaleza, la identificación de emblemas de conservación, la provisión de nuevos métricas y herramientas para el monitoreo ambiental casi en tiempo real y para apoyar la toma de decisiones de conservación, evaluando el impacto cultural de las intervenciones de conservación, enmarcando los problemas de conservación y promoviendo la comprensión pública.

En 2017, un estudio correlacionó el dolor en las articulaciones con la actividad de búsqueda en Google y la temperatura. [21] Si bien el estudio observó una mayor actividad de búsqueda de dolor de cadera y rodilla (pero no artritis ) durante temperaturas más altas, no controla (ni puede) controlar otros factores relevantes, como la actividad. Los medios de comunicación malinterpretaron esto como "mito derribado: la lluvia no aumenta el dolor en las articulaciones", [22] [23] mientras que los autores especulan que la correlación observada se debe a "cambios en los niveles de actividad física". [24]

Crítica

Lingüistas y lexicógrafos han expresado escepticismo con respecto a los métodos y resultados de algunos de estos estudios, incluido uno de Petersen et al. [25] Otros han demostrado sesgo en el conjunto de datos de Ngram. Sus resultados "ponen en duda la gran mayoría de las afirmaciones existentes extraídas del corpus de Google Books": [5] "En lugar de hablar de cambios lingüísticos o culturales generales, parece preferible restringir explícitamente los resultados al cambio lingüístico o cultural". tal como se representa en los datos de Google Ngram'" [6] porque no está claro qué causó el cambio observado en la muestra. Ficetola criticó el uso de Google Trends y sugirió que el interés en realidad estaba aumentando. [26] Pero, en su refutación, McCallum y Bury [27] establecieron que, en lo que respecta a las políticas públicas, los datos proporcionales eran importantes y las cifras absolutas irrelevantes, explicando que las políticas están impulsadas por la opinión de la mayor parte de la población, no por la opinión de la mayoría de la población. número absoluto con decisiones tomadas según la influencia de la mayoría, no simplemente el número de votos.

Ver también

Referencias

  1. ^ Cohen, Patricia (16 de diciembre de 2010). "En 500 mil millones de palabras, una nueva ventana a la cultura". New York Times .
  2. ^ Hayes, Brian (mayo-junio de 2011). "Un poco iluminado". Científico americano . 99 (3): 190. doi :10.1511/2011.90.190. Archivado desde el original el 18 de octubre de 2016 . Consultado el 9 de septiembre de 2011 .
  3. ^ Letcher, David W. (6 de abril de 2011). "Cultorómica: una nueva forma de ver los cambios temporales en la prevalencia de palabras y frases" (PDF) . Actas de la sexta conferencia internacional del Instituto Americano de Educación Superior . 4 (1): 228. Archivado desde el original (PDF) el 3 de marzo de 2016 . Consultado el 9 de septiembre de 2011 .
  4. ^ Michel, Jean-Baptiste; Liberman Aiden, Erez (16 de diciembre de 2010). "Análisis cuantitativo de la cultura utilizando millones de libros digitalizados". Ciencia . 331 (6014): 176–82. doi : 10.1126/ciencia.1199644. PMC 3279742 . PMID  21163965. 
  5. ^ abc Pechenick, Eitan Adam; Danforth, Christopher M.; Dodds, Peter Sheridan (7 de octubre de 2015). "Caracterización del corpus de Google Books: fuertes límites a las inferencias de la evolución sociocultural y lingüística". MÁS UNO . 10 (10): e0137041. arXiv : 1501.00960 . Código Bib : 2015PLoSO..1037041P. doi : 10.1371/journal.pone.0137041 . ISSN  1932-6203. PMC 4596490 . PMID  26445406. 
  6. ^ ab Koplenig, Alexander (abril de 2017). "El impacto de la falta de metadatos para medir el cambio cultural y lingüístico utilizando los conjuntos de datos de Google Ngram: reconstrucción de la composición del corpus alemán en tiempos de la Segunda Guerra Mundial". Beca Digital en Humanidades . 32 (1): 169–188. doi : 10.1093/llc/fqv037. ISSN  2055-7671.
  7. ^ Zhang, Sara. "Los peligros de utilizar Google Ngram para estudiar idiomas". CABLEADO . Consultado el 24 de mayo de 2017 .
  8. ^ Comparación de términos de ejemplo
  9. ^ Sudhahar, Saatviga; Veltri, Giuseppe A.; Cristianini, Nello (2015). "Análisis automatizado de las elecciones presidenciales de Estados Unidos mediante Big Data y análisis de redes". Big Data y sociedad . 2 . doi : 10.1177/2053951715572916 . hdl : 2381/31767 . S2CID  62188746.
  10. ^ ab Leetaru, Kalev H. (5 de septiembre de 2011). "Culturómica 2.0: previsión del comportamiento humano a gran escala utilizando el tono de los medios de comunicación globales en el tiempo y el espacio". Primer lunes . 16 (9). doi : 10.5210/fm.v16i9.3663 .
  11. ^ ab Quick, Darren (7 de septiembre de 2011). "La investigación en culturómica utiliza un cuarto de siglo de cobertura mediática para pronosticar el comportamiento humano". Gizmag.com . Consultado el 9 de septiembre de 2011 .
  12. ^ Petersen, Alexander M. (15 de marzo de 2012). "Leyes estadísticas que rigen las fluctuaciones en el uso de las palabras desde el nacimiento hasta la muerte de las palabras". Informes científicos . 2 : 313. arXiv : 1107.3707 . Código Bib : 2012NatSR...2E.313P. doi :10.1038/srep00313. PMC 3304511 . PMID  22423321. 
  13. ^ ab "La nueva ciencia del nacimiento y la muerte de las palabras", CHRISTOPHER SHEA, Wall Street Journal , 16 de marzo de 2012
  14. ^ Flaounas, Ilias; Alí, Omar; Lansdall-Bienestar, Thomas; De Bie, Tijl; Mosdell, Nick; Lewis, Justino; Cristianini, Nello (2013). "Métodos de investigación en la era del periodismo digital". Periodismo Digital . 1 : 102-116. doi : 10.1080/21670811.2012.714928 . S2CID  61080552.
  15. ^ Flaounas, Ilias; Turchi, Marco; Alí, Omar; Fyson, Nick; De Bie, Tijl; Mosdell, Nick; Lewis, Justin; Cristianini, Nello (2010). "La estructura de la mediasfera de la UE". MÁS UNO . 5 (12): e14243. Código Bib : 2010PLoSO...514243F. doi : 10.1371/journal.pone.0014243 . PMC 2999531 . PMID  21170383. 
  16. ^ Lansdall-Bienestar, Thomas; Lampos, Vasileios; Cristianini, Nello (2012). "Efectos de la recesión sobre el estado de ánimo del público en el Reino Unido". Actas de la 21ª conferencia internacional sobre World Wide Web - WWW '12 Companion . pag. 1221. doi : 10.1145/2187980.2188264. ISBN 9781450312301. S2CID  1825992.
  17. ^ Sudhahar, Saatviga; De Fazio, Gianluca; Franzosi, Roberto; Cristianini, Nello (2015). "Análisis en red de contenidos narrativos en grandes corpus". Ingeniería del Lenguaje Natural . 21 : 81-112. doi :10.1017/S1351324913000247. hdl : 1983/dfb87140-42e2-486a-91d5-55f9007042df . S2CID  3385681.
  18. ^ Lansdall-Bienestar, Thomas; Sudhahar, Saatviga; Veltri, Giuseppe A.; Cristianini, Nello (2014). "Sobre la cobertura de la ciencia en los medios: un estudio de big data sobre el impacto del desastre de Fukushima". 2014 Conferencia Internacional IEEE sobre Big Data (Big Data) . págs. 60–66. doi :10.1109/BigData.2014.7004454. hdl :2381/31439. ISBN 978-1-4799-5666-1. S2CID  7686818.
  19. ^ McCallum, Malcolm L; Enterrar, Gwendolynn W (2016). "Culturómica de la conservación". Biodiversidad y Conservación . 22 (6–7): 1355–1367. Código Bib : 2016FrEE...14..269L. doi : 10.1002/tarifa.1260. S2CID  199392763.
  20. ^ Cucharón, Richard J.; Correia, Ricardo A.; Hazlo, Yuno; Joo, Gea-Jae; Malhado, Ana CM; Proulx, Rafael; Roberge, Jean-Michel; Jepson, Paul (2016). "Culturómica de la conservación". Fronteras en Ecología y Medio Ambiente . 14 (5): 269–275. Código Bib : 2016FrEE...14..269L. doi : 10.1002/tarifa.1260. S2CID  199392763.
  21. ^ Telfer, Scott; Obradovich, Nick (9 de agosto de 2017). "El clima local está asociado con las tasas de búsquedas en línea de síntomas de dolor musculoesquelético". MÁS UNO . 12 (8): e0181266. Código Bib : 2017PLoSO..1281266T. doi : 10.1371/journal.pone.0181266 . ISSN  1932-6203. PMC 5549896 . PMID  28792953. 
  22. ^ "¿El dolor en las articulaciones está asociado con la lluvia? Google sugiere lo contrario". Noticias NBC . Consultado el 10 de agosto de 2017 .
  23. ^ "Este mito sobre el dolor articular es una mierda total". Salud de los hombres . 2017-08-10 . Consultado el 10 de agosto de 2017 .
  24. ^ "¿La lluvia aumenta el dolor en las articulaciones? Google sugiere lo contrario: los niveles de actividad de las personas, que aumentan a medida que aumentan las temperaturas, hasta cierto punto, tienen más probabilidades que el clima mismo de causar un dolor que motive las búsquedas en línea, dicen los investigadores". Ciencia diaria . Consultado el 10 de agosto de 2017 .
  25. ^ "Cuando los físicos hacen lingüística", BEN ZIMMER, Boston Globe , 10 de febrero de 2013
  26. ^ Ficetola, GF (2014). "¿Está realmente disminuyendo el interés por el medio ambiente? La complejidad de analizar tendencias utilizando datos de búsqueda en Internet". Biodiversidad y Conservación . 23 (12): 2983–2988. doi :10.1007/s10531-013-0552-y. S2CID  17003129.
  27. ^ McCallum, Malcolm L. (2014). "El interés público por el medio ambiente está cayendo: una respuesta a Ficetola (2013)". Biodiversidad y Conservación . 23 (2): 1057–1062. Código Bib : 2014BiCon..23.1057M. doi :10.1007/s10531-014-0640-7. S2CID  7056654.

Otras lecturas

enlaces externos