El periodismo de datos o periodismo basado en datos ( DDJ ) es el periodismo basado en el filtrado y análisis de grandes conjuntos de datos con el fin de crear o mejorar una noticia.
El periodismo de datos refleja el papel cada vez más importante de los datos numéricos en la producción y distribución de información en la era digital . Implica una combinación del periodismo con otros campos como la visualización de datos , la informática y la estadística , "un conjunto superpuesto de competencias extraídas de campos dispares". [1]
El periodismo de datos se ha utilizado ampliamente para unir varios conceptos y vincularlos al periodismo. Algunos los ven como niveles o etapas que conducen desde los usos más simples a los más complejos de las nuevas tecnologías en el proceso periodístico. [2]
Muchas historias basadas en datos comienzan con recursos recientemente disponibles, como software de código abierto , publicaciones de acceso abierto y datos abiertos , mientras que otras son productos de solicitudes de registros públicos o materiales filtrados. Este enfoque del periodismo se basa en prácticas más antiguas, en particular en los informes asistidos por computadora (CAR), una etiqueta utilizada principalmente en los EE. UU. durante décadas. Otras etiquetas para enfoques parcialmente similares son "periodismo de precisión", basado en un libro de Philipp Meyer, [3] publicado en 1972, donde abogó por el uso de técnicas de las ciencias sociales en la investigación de historias. El periodismo basado en datos tiene un enfoque más amplio. En esencia, el proceso se basa en la creciente disponibilidad de datos abiertos que están disponibles gratuitamente en línea y se analizan con herramientas de código abierto . [4] El periodismo basado en datos se esfuerza por alcanzar nuevos niveles de servicio para el público, ayudando al público en general o a grupos o individuos específicos a comprender patrones y tomar decisiones basadas en los hallazgos. Como tal, el periodismo basado en datos podría ayudar a colocar a los periodistas en un papel relevante para la sociedad de una manera nueva.
El objetivo principal es contar historias basadas en los datos. Los hallazgos de los datos se pueden transformar en cualquier forma de escritura periodística . Las visualizaciones se pueden utilizar para crear una comprensión clara de una situación compleja. Además, los elementos de la narración se pueden utilizar para ilustrar lo que realmente significan los hallazgos, desde la perspectiva de alguien afectado por un acontecimiento. Esta conexión entre los datos y la historia se puede ver como un "nuevo arco" que intenta salvar la brecha entre los acontecimientos que son relevantes, pero poco comprendidos, y una historia que sea verificable, confiable, relevante y fácil de recordar.
Veglis y Bratsas definieron el periodismo de datos como "el proceso de extraer información útil de los datos, escribir artículos basados en la información e incorporar visualizaciones (interactuando en algunos casos) en los artículos que ayudan a los lectores a comprender el significado de la historia o les permiten identificar datos que se relacionan con ellos" [5].
Antonopoulos y Karyotakis definen la práctica del periodismo de datos como "una forma de mejorar la redacción de noticias y la presentación de informes mediante el uso y el análisis de estadísticas con el fin de proporcionar una visión más profunda de una noticia y destacar datos relevantes. Una tendencia en la era digital del periodismo ha sido la difusión de información al público a través de contenido interactivo en línea mediante herramientas de visualización de datos como tablas, gráficos, mapas, infografías, micrositios y mundos visuales. El examen en profundidad de estos conjuntos de datos puede conducir a resultados y observaciones más concretos sobre temas de interés actuales. Además, el periodismo de datos puede revelar cuestiones ocultas que aparentemente no eran una prioridad en la cobertura de las noticias". [6]
Según el arquitecto y periodista multimedia Mirko Lorenz, el periodismo basado en datos es principalmente un flujo de trabajo que consta de los siguientes elementos: profundizar en los datos mediante su extracción, limpieza y estructuración, filtrar mediante la extracción de información específica, visualizar y crear una historia . [7] Este proceso se puede ampliar para proporcionar resultados que satisfagan los intereses individuales y el público en general.
El formador y escritor de periodismo de datos Paul Bradshaw describe el proceso del periodismo basado en datos de una manera similar: los datos deben encontrarse , lo que puede requerir habilidades especializadas como MySQL o Python , luego interrogarse , para lo cual es necesario comprender la jerga y las estadísticas, y finalmente visualizarse y combinarse con la ayuda de herramientas de código abierto . [8]
Una definición más orientada a los resultados proviene del periodista de datos y estratega web Henk van Ess (2012). [9] "El periodismo orientado a los datos permite a los periodistas contar historias no contadas, encontrar nuevos ángulos o completar historias a través de un flujo de trabajo de búsqueda, procesamiento y presentación de cantidades significativas de datos (en cualquier formato) con o sin herramientas abiertas". Van Ess afirma que parte del flujo de trabajo orientado a los datos conduce a productos que "no están en órbita con las leyes de la buena narración de historias" porque el resultado se centra en mostrar el problema, no en explicarlo. "Una buena producción orientada a los datos tiene diferentes capas. Te permite encontrar información personalizada que solo es importante para ti, profundizando en lo relevante, pero también te permite hacer zoom para obtener una visión general".
En 2013, Van Ess presentó una definición más breve en [10] que no incluye la visualización per se: "El periodismo de datos puede basarse en cualquier dato que deba procesarse primero con herramientas antes de que sea posible elaborar una historia relevante. No incluye la visualización per se".
Sin embargo, uno de los problemas para definir el periodismo de datos es que muchas definiciones no son lo suficientemente claras y se centran en describir los métodos computacionales de optimización, análisis y visualización de la información. [11]
El término "periodismo de datos" fue acuñado por el comentarista político Ben Wattenberg a través de su trabajo que comenzó a mediados de la década de 1960, combinando narrativa y estadísticas para apoyar la teoría de que Estados Unidos había entrado en una época dorada . [12] [13]
Uno de los primeros ejemplos del uso de computadoras en el periodismo se remonta a un intento de CBS en 1952 de utilizar una computadora central para predecir el resultado de las elecciones presidenciales, pero no fue hasta 1967 que el uso de computadoras para el análisis de datos comenzó a adoptarse más ampliamente. [14]
Philip Meyer, que trabajaba para el Detroit Free Press en esa época, utilizó una computadora central para mejorar la cobertura de los disturbios que se extendían por toda la ciudad. Con un nuevo precedente para el análisis de datos en el periodismo, Meyer colaboró con Donald Barlett y James Steele para analizar los patrones de las sentencias condenatorias en Filadelfia durante la década de 1970. Posteriormente, Meyer escribió un libro titulado Periodismo de precisión en el que defendía el uso de estas técnicas para combinar el análisis de datos con el periodismo.
Hacia finales de los años 1980, comenzaron a ocurrir eventos significativos que ayudaron a organizar formalmente el campo del periodismo asistido por computadora. El periodista de investigación Bill Dedman de The Atlanta Journal-Constitution ganó un premio Pulitzer en 1989 por The Color of Money, su serie de artículos de 1988 que usaban técnicas CAR para analizar la discriminación racial por parte de los bancos y otros prestamistas hipotecarios en los barrios negros de ingresos medios. [15] El Instituto Nacional de Periodismo Asistido por Computadora (NICAR) [16] se formó en la Escuela de Periodismo de Missouri en colaboración con los Periodistas y Editores de Investigación (IRE). La primera conferencia dedicada a CAR fue organizada por NICAR junto con James Brown en la Universidad de Indiana y se llevó a cabo en 1990. Las conferencias NICAR se han celebrado anualmente desde entonces y ahora son la reunión más grande de periodistas de datos.
Aunque el periodismo de datos ha sido utilizado informalmente por profesionales de informes asistidos por computadora durante décadas, el primer uso registrado por una organización de noticias importante es The Guardian , que lanzó su Datablog en marzo de 2009. [17] Y aunque la paternidad del término es discutida, se usa ampliamente desde que se filtraron los documentos de la guerra de Afganistán de Wikileaks en julio de 2010. [18]
La cobertura de los registros de guerra por parte de The Guardian aprovechó herramientas de visualización de datos gratuitas como Google Fusion Tables , otro aspecto común del periodismo de datos. Facts are Sacred [19], del editor de Datablog de The Guardian, Simon Rogers, describe el periodismo de datos de esta manera:
"Los comentarios son libres", escribió el editor del Guardian, CP Scott , en 1921, "pero los hechos son sagrados". Noventa años después, la publicación de esos hechos sagrados se ha convertido en un nuevo tipo de periodismo en sí mismo: el periodismo de datos. Y rápidamente se está convirtiendo en parte del establishment.
El periodismo de investigación de datos combina el campo del periodismo de datos con el periodismo de investigación. Un ejemplo de periodismo de investigación de datos es la investigación de grandes cantidades de datos textuales o financieros. El periodismo de investigación de datos también puede relacionarse con el campo del análisis de big data para el procesamiento de grandes conjuntos de datos. [20]
Desde la introducción del concepto, varias empresas de medios de comunicación han creado "equipos de datos" que desarrollan visualizaciones para las salas de redacción. Los equipos más notables son, por ejemplo, los de Reuters, [21] Pro Publica [22] y La Nación (Argentina). [23] En Europa, The Guardian [24] y Berliner Morgenpost [25] tienen equipos muy productivos, al igual que las emisoras públicas.
Como lo demuestran proyectos como el escándalo de los gastos de los parlamentarios (2009) y la publicación en 2013 de las "filtraciones offshore", el periodismo basado en datos puede asumir un papel investigativo, lidiando en ocasiones con datos "no tan abiertos", es decir, secretos.
Los premios anuales de periodismo de datos [26] reconocen los informes destacados en el campo del periodismo de datos, y en los últimos años se han otorgado numerosos premios Pulitzer a la narración basada en datos, incluido el Premio Pulitzer de 2018 en Informes Internacionales [27] y el Premio Pulitzer de 2017 en Servicio Público [28].
Muchos académicos han propuesto diferentes taxonomías de proyectos de periodismo de datos. Megan Knight sugirió una taxonomía que se basa en el nivel de interpretación y análisis que se necesita para producir un proyecto de periodismo de datos. Específicamente, la taxonomía incluía: citas extraídas de números, mapas estáticos, listas y líneas de tiempo, tablas, gráficos y diagramas, mapas dinámicos, análisis textual e infografías. [29]
Simon Rogers propuso cinco tipos de proyectos de periodismo de datos: solo por los hechos, historias basadas en datos, historias que cuentan datos locales, análisis y antecedentes e investigaciones en profundidad. [30] Martha Kang analizó siete tipos de historias de datos, a saber: narrar el cambio a lo largo del tiempo, comenzar a lo grande y profundizar, comenzar a lo pequeño y alejarse, resaltar los contrastes, explorar la intersección, diseccionar los factores y perfilar los valores atípicos. [31]
Veglis y Bratsas propusieron otra taxonomía que se basa en el método de presentación de la información a la audiencia. Su taxonomía tenía una estructura jerárquica e incluía los siguientes tipos: artículos de periodismo de datos con solo números, con tablas y con visualizaciones (interactivas y no interactivas). También en el caso de las historias con visualizaciones interactivas propusieron 3 tipos distintos, a saber, transmisivos, consultivos y conversacionales. [32]
En muchas investigaciones, los datos que se pueden encontrar pueden tener omisiones o ser engañosos. Como una capa del periodismo basado en datos, es importante un examen crítico de la calidad de los datos . En otros casos, los datos pueden no ser públicos o no estar en el formato adecuado para un análisis posterior, por ejemplo, solo están disponibles en formato PDF . En este caso, el proceso del periodismo basado en datos puede dar lugar a historias sobre la calidad de los datos o a la negativa de las instituciones a proporcionarlos. Como la práctica en su conjunto se encuentra en las primeras etapas de desarrollo, los exámenes de las fuentes de datos, los conjuntos de datos, la calidad de los datos y el formato de los datos son, por tanto, una parte igualmente importante de este trabajo.
Desde la perspectiva de analizar más a fondo los hechos y los factores que impulsan los acontecimientos, se sugiere un cambio en las estrategias de los medios: desde esta perspectiva, la idea es pasar "de la atención a la confianza". La creación de atención, que ha sido un pilar de los modelos de negocio de los medios, ha perdido su relevancia porque los informes de nuevos acontecimientos suelen distribuirse más rápidamente a través de nuevas plataformas como Twitter que a través de los canales de los medios tradicionales. Por otro lado, la confianza puede entenderse como un recurso escaso. Si bien la distribución de información es mucho más fácil y rápida a través de la web, la abundancia de ofertas crea costos para verificar y comprobar el contenido de cualquier historia y crea una oportunidad. La visión de transformar las empresas de medios en centros de datos de confianza se ha descrito en un artículo publicado en febrero de 2011 en Owni.eu [33] y Nieman Lab. [34]
El proceso de transformación de datos brutos en historias es similar a un proceso de refinamiento y transformación. El objetivo principal es extraer información que los destinatarios puedan utilizar. La tarea de un periodista de datos es extraer lo que está oculto. Este enfoque se puede aplicar a casi cualquier contexto, como las finanzas, la salud, el medio ambiente u otras áreas de interés público.
En 2011, Paul Bradshaw presentó un modelo que llamó "La pirámide invertida del periodismo de datos".
Para lograrlo, el proceso debe dividirse en varios pasos. Si bien los pasos que conducen a los resultados pueden diferir, se puede hacer una distinción básica observando seis fases:
Los datos se pueden obtener directamente de bases de datos gubernamentales como data.gov , data.gov.uk y la API de datos del Banco Mundial [35], pero también mediante la presentación de solicitudes de libertad de información a agencias gubernamentales; algunas solicitudes se realizan y se agregan en sitios web como What Do They Know del Reino Unido. Si bien existe una tendencia mundial hacia la apertura de datos, existen diferencias nacionales en cuanto al grado en que esa información está disponible de forma gratuita en formatos utilizables. Si los datos están en una página web, se utilizan raspadores para generar una hoja de cálculo. Algunos ejemplos de raspadores son: WebScraper, Import.io, QuickCode , OutWit Hub y Needlebase (retirado en 2012 [36] ). En otros casos, se puede utilizar software de OCR para obtener datos de archivos PDF.
Los datos también pueden ser creados por el público a través del crowdsourcing, como lo demostró Henk van Ess en marzo de 2012 en la Conferencia de Periodismo de Datos en Hamburgo. [37]
Por lo general, los datos no se encuentran en un formato que sea fácil de visualizar. Algunos ejemplos son que hay demasiados puntos de datos o que las filas y columnas deben ordenarse de manera diferente. Otro problema es que, una vez investigados, es necesario limpiar, estructurar y transformar muchos conjuntos de datos. Varias herramientas como OpenRefine ( código abierto ), Data Wrangler y Google Spreadsheets [38] permiten cargar, extraer o formatear datos.
Para visualizar datos en forma de gráficos y diagramas, existen aplicaciones como Many Eyes o Tableau Public . Yahoo! Pipes y Open Heat Map [39] son ejemplos de herramientas que permiten la creación de mapas basados en hojas de cálculo de datos. El número de opciones y plataformas está en expansión. Algunas nuevas ofertas proporcionan opciones para buscar, mostrar e incrustar datos, un ejemplo es Timetric. [40]
Para crear visualizaciones significativas y relevantes, los periodistas utilizan cada vez más herramientas. Actualmente, existen varias descripciones de qué buscar y cómo hacerlo. Los artículos publicados más destacados son:
A partir de 2011, el uso de bibliotecas HTML 5 que utilizan la etiqueta canvas está ganando popularidad. Existen numerosas bibliotecas que permiten graficar datos en una variedad cada vez mayor de formas. Un ejemplo es RGraph . [43] A partir de 2011, existe una lista cada vez mayor de bibliotecas JavaScript que permiten visualizar datos. [44]
Existen diferentes opciones para publicar datos y visualizaciones. Un enfoque básico consiste en adjuntar los datos a historias individuales, de forma similar a la incorporación de vídeos web. Los conceptos más avanzados permiten crear dossiers individuales, por ejemplo, para mostrar una serie de visualizaciones, artículos y enlaces a los datos en una página. A menudo, estos especiales deben codificarse individualmente, ya que muchos sistemas de gestión de contenido están diseñados para mostrar publicaciones individuales en función de la fecha de publicación.
Otra fase que está cobrando importancia es la de facilitar el acceso a los datos existentes. Piense en los sitios como "mercados" (comerciales o no) en los que otros pueden encontrar fácilmente conjuntos de datos. En particular, si la información para un artículo se obtuvo a partir de datos abiertos, los periodistas deberían proporcionar un enlace a los datos que utilizaron para que otros los investiguen (lo que podría iniciar otro ciclo de interrogatorio que dé lugar a nuevos conocimientos).
Proporcionar acceso a los datos y permitir que los grupos discutan qué información se podría extraer es la idea principal detrás de Buzzdata, [45] un sitio que utiliza los conceptos de las redes sociales como compartir y seguir para crear una comunidad para investigaciones de datos.
Otras plataformas (que pueden utilizarse tanto para recopilar como para distribuir datos):
Un paso final del proceso es medir la frecuencia con la que se visualiza un conjunto de datos o una visualización.
En el contexto del periodismo basado en datos, el alcance de dicho seguimiento, como la recopilación de datos de los usuarios o cualquier otra información que pueda utilizarse con fines de marketing u otros usos que estén fuera del control del usuario, debería considerarse problemático. [ ¿Según quién? ] Una opción más nueva y no intrusiva para medir el uso es un rastreador ligero llamado PixelPing. El rastreador es el resultado de un proyecto de ProPublica y DocumentCloud . [49] Existe un servicio correspondiente para recopilar los datos. El software es de código abierto y se puede descargar a través de GitHub. [50]
Hay una lista cada vez mayor de ejemplos de cómo se puede aplicar el periodismo basado en datos. The Guardian , una de las empresas de medios pioneras en este ámbito (véase "Periodismo de datos en The Guardian: ¿qué es y cómo lo hacemos?" [51] ), ha compilado una extensa lista de historias basadas en datos, véase: "Todo nuestro periodismo de datos en una sola hoja de cálculo". [52]
Otros usos destacados del periodismo basado en datos están relacionados con la publicación por parte de la organización de denuncia WikiLeaks del Diario de la Guerra Afgana , un compendio de 91.000 informes militares secretos que cubren la guerra en Afganistán desde 2004 hasta 2010. [53] Tres periódicos internacionales, a saber, The Guardian , The New York Times y Der Spiegel , dedicaron extensas secciones [54] [55] [56] a los documentos; los informes de The Guardian incluyeron un mapa interactivo que señalaba el tipo, la ubicación y las bajas causadas por 16.000 ataques con IED , [57] The New York Times publicó una selección de informes que permite pasar el cursor sobre el texto subrayado para revelar explicaciones de términos militares, [58] mientras que Der Spiegel proporcionó visualizaciones híbridas (que contienen gráficos y mapas) sobre temas como el número de muertes relacionadas con los ataques con bombas de los insurgentes. [59] Para la publicación de los registros de la guerra de Irak , The Guardian utilizó Google Fusion Tables para crear un mapa interactivo de cada incidente en el que alguien murió, [60] una técnica que volvió a utilizar en los disturbios de Inglaterra de 2011. [61]
{{cite web}}
: |first=
tiene nombre genérico ( ayuda )