El periodismo de datos o periodismo basado en datos ( DDJ ) es un periodismo basado en el filtrado y análisis de grandes conjuntos de datos con el fin de crear o elevar una noticia.
El periodismo de datos refleja el papel cada vez mayor de los datos numéricos en la producción y distribución de información en la era digital . Implica una combinación del periodismo con otros campos como la visualización de datos , la informática y la estadística , "un conjunto superpuesto de competencias extraídas de campos dispares". [1]
El periodismo de datos ha sido muy utilizado para unir varios conceptos y vincularlos al periodismo. Algunos los ven como niveles o etapas que conducen desde los usos más simples a los más complejos de las nuevas tecnologías en el proceso periodístico. [2]
Muchas historias basadas en datos comienzan con recursos recientemente disponibles, como software de código abierto , publicaciones de acceso abierto y datos abiertos , mientras que otras son productos de solicitudes de registros públicos o materiales filtrados. Este enfoque del periodismo se basa en prácticas más antiguas, en particular el periodismo asistido por computadora (CAR), una etiqueta utilizada principalmente en Estados Unidos durante décadas. Otras etiquetas para enfoques parcialmente similares son "periodismo de precisión", basado en un libro de Philipp Meyer, [3] publicado en 1972, donde defendía el uso de técnicas de las ciencias sociales en la investigación de historias. El periodismo basado en datos tiene un enfoque más amplio. En esencia, el proceso se basa en la creciente disponibilidad de datos abiertos que están disponibles gratuitamente en línea y se analizan con herramientas de código abierto . [4] El periodismo basado en datos se esfuerza por alcanzar nuevos niveles de servicio al público, ayudando al público en general o a grupos o individuos específicos a comprender patrones y tomar decisiones basadas en los hallazgos. Como tal, el periodismo basado en datos podría ayudar a que los periodistas asuman un papel relevante para la sociedad de una nueva manera.
Contar historias basadas en los datos es el objetivo principal. Los hallazgos de los datos pueden transformarse en cualquier forma de escritura periodística . Las visualizaciones se pueden utilizar para crear una comprensión clara de una situación compleja. Además, se pueden utilizar elementos de la narración para ilustrar lo que realmente significan los hallazgos, desde la perspectiva de alguien afectado por un desarrollo. Esta conexión entre datos e historia puede verse como un "nuevo arco" que intenta salvar la brecha entre desarrollos que son relevantes, pero poco comprendidos, hacia una historia que sea verificable, confiable, relevante y fácil de recordar.
Veglis y Bratsas definieron el periodismo de datos como "el proceso de extraer información útil de los datos, escribir artículos basados en la información e incorporar visualizaciones (interactuando en algunos casos) en los artículos que ayudan a los lectores a comprender el significado de la historia o les permiten identificar datos que les conciernen" [5]
Antonopoulos y Karyotakis definen la práctica del periodismo de datos como "una forma de mejorar la redacción de informes y noticias con el uso y examen de estadísticas para proporcionar una visión más profunda de una noticia y resaltar datos relevantes. Una tendencia en la era digital del El periodismo ha consistido en difundir información al público a través de contenido interactivo en línea a través de herramientas de visualización de datos como tablas, gráficos, mapas, infografías, micrositios y mundos visuales. El examen en profundidad de dichos conjuntos de datos puede conducir a resultados y observaciones más concretos. sobre temas de actualidad y de interés, además, el periodismo de datos puede revelar temas ocultos que aparentemente no eran prioritarios en la cobertura informativa". [6]
Según el arquitecto y periodista multimedia Mirko Lorenz, el periodismo basado en datos es principalmente un flujo de trabajo que consta de los siguientes elementos: profundizar en los datos extrayéndolos, limpiándolos y estructurándolos, filtrando mediante extracción de información específica, visualizando y creando una historia . [7] Este proceso puede ampliarse para proporcionar resultados que satisfagan los intereses individuales y el público en general.
El formador y escritor de periodismo de datos Paul Bradshaw describe el proceso del periodismo basado en datos de una manera similar: se deben encontrar datos , lo que puede requerir habilidades especializadas como MySQL o Python , luego interrogarlos , para lo cual es necesario comprender la jerga y las estadísticas, y finalmente visualizado y triturado con la ayuda de herramientas de código abierto . [8]
Una definición más basada en resultados proviene del reportero de datos y estratega web Henk van Ess (2012). [9] "El periodismo basado en datos permite a los reporteros contar historias no contadas, encontrar nuevos ángulos o completar historias a través de un flujo de trabajo de búsqueda, procesamiento y presentación de cantidades significativas de datos (en cualquier forma) con o sin herramientas abiertas". Van Ess afirma que parte del flujo de trabajo basado en datos conduce a productos que "no están en órbita con las leyes de una buena narración de historias" porque el resultado enfatiza en mostrar el problema, no en explicarlo. "Una buena producción basada en datos tiene diferentes capas. Le permite encontrar cosas personalizadas que solo son importantes para usted, al profundizar en las relevantes, pero también le permite alejarse para obtener una visión general".
En 2013, Van Ess presentó una definición más corta en [10] que no implica visualización per se: "El periodismo de datos puede basarse en cualquier dato que deba procesarse primero con herramientas antes de que sea posible una historia relevante. No No incluye visualización per se."
Sin embargo, uno de los problemas para definir el periodismo de datos es que muchas definiciones no son lo suficientemente claras y se centran en describir los métodos computacionales de optimización, análisis y visualización de la información. [11]
El término "periodismo de datos" fue acuñado por el comentarista político Ben Wattenberg a través de su trabajo que comenzó a mediados de la década de 1960 combinando narrativa con estadísticas para respaldar la teoría de que Estados Unidos había entrado en una edad de oro . [12] [13]
Uno de los primeros ejemplos del uso de computadoras con periodismo se remonta a un intento de la CBS en 1952 de usar una computadora central para predecir el resultado de las elecciones presidenciales, pero no fue hasta 1967 que el uso de computadoras para el análisis de datos comenzó a ser más extendido. adoptado. [14]
Philip Meyer, que trabajaba para Detroit Free Press en ese momento, utilizó una computadora central para mejorar la información sobre los disturbios que se extendían por la ciudad. Con un nuevo precedente establecido para el análisis de datos en el periodismo, Meyer colaboró con Donald Barlett y James Steele para observar patrones en las sentencias condenatorias en Filadelfia durante la década de 1970. Meyer escribió más tarde un libro titulado Periodismo de precisión que defendía el uso de estas técnicas para combinar el análisis de datos en el periodismo.
Hacia finales de la década de 1980, comenzaron a ocurrir acontecimientos importantes que ayudaron a organizar formalmente el campo de la presentación de informes asistidos por computadora. El reportero de investigación Bill Dedman de The Atlanta Journal-Constitution ganó un premio Pulitzer en 1989 por The Color of Money, su serie de historias de 1988 que utiliza técnicas CAR para analizar la discriminación racial por parte de bancos y otros prestamistas hipotecarios en vecindarios negros de ingresos medios. [15] El Instituto Nacional de Reportajes Asistidos por Computadora (NICAR) [16] se formó en la Escuela de Periodismo de Missouri en colaboración con Investigative Reporters and Editors (IRE). La primera conferencia dedicada a CAR fue organizada por NICAR junto con James Brown en la Universidad de Indiana y se celebró en 1990. Las conferencias NICAR se han celebrado anualmente desde entonces y ahora son la reunión más grande de periodistas de datos.
Aunque el periodismo de datos ha sido utilizado informalmente por quienes practican el periodismo asistido por computadora durante décadas, el primer uso registrado por una importante organización de noticias es The Guardian , que lanzó su Datablog en marzo de 2009. [17] Y aunque la paternidad del término está en disputa , se utiliza ampliamente desde que se filtraron los documentos de la guerra afgana de Wikileaks en julio de 2010. [18]
La cobertura de The Guardian sobre los registros de guerra aprovechó herramientas gratuitas de visualización de datos como Google Fusion Tables , otro aspecto común del periodismo de datos. Los hechos son sagrados [19] del editor de Datablog de The Guardian , Simon Rogers, describe el periodismo de datos de esta manera:
"Los comentarios son gratuitos", escribió el editor de The Guardian, CP Scott , en 1921, "pero los hechos son sagrados". Noventa años después, publicar esos hechos sagrados se ha convertido en un nuevo tipo de periodismo en sí mismo: el periodismo de datos. Y rápidamente se está convirtiendo en parte del establishment.
El periodismo de datos de investigación combina el campo del periodismo de datos con el periodismo de investigación. Un ejemplo de periodismo de datos de investigación es la investigación de grandes cantidades de datos textuales o financieros. El periodismo de datos de investigación también puede relacionarse con el campo del análisis de big data para el procesamiento de grandes conjuntos de datos. [20]
Desde la introducción del concepto, varias empresas de medios han creado "equipos de datos" que desarrollan visualizaciones para las redacciones. Los más notables son los equipos, por ejemplo, de Reuters, [21] Pro Publica, [22] y La Nación (Argentina). [23] En Europa, The Guardian [24] y Berliner Morgenpost [25] tienen equipos muy productivos, así como emisoras públicas.
Como lo demuestran proyectos como el escándalo de gastos del MP (2009) y la publicación en 2013 de las "fugas extraterritoriales", el periodismo basado en datos puede asumir un papel de investigación, lidiando en ocasiones con datos "no tan abiertos", también conocidos como secretos.
Los Premios anuales de Periodismo de Datos [26] reconocen reportajes destacados en el campo del periodismo de datos, y en los últimos años se han otorgado numerosos premios Pulitzer a la narración basada en datos, incluido el Premio Pulitzer de Reportajes Internacionales 2018 [27] y el Premio Pulitzer 2017. en el servicio público [28]
Muchos académicos han propuesto diferentes taxonomías de proyectos de periodismo de datos. Megan Knight sugirió una taxonomía que se basa en el nivel de interpretaciones y análisis necesarios para producir un proyecto de periodismo de datos. Específicamente, la taxonomía incluía: citas numéricas, mapas estáticos, listas y líneas de tiempo, tablas, gráficos y tablas, mapas dinámicos, análisis textuales y gráficos de información. [29]
Simon Rogers propuso cinco tipos de proyectos de periodismo de datos: solo por los hechos, noticias basadas en datos, datos locales que cuentan historias, análisis y antecedentes, e investigaciones en profundidad. [30] Martha Kang analizó siete tipos de historias de datos, a saber: narrar el cambio a lo largo del tiempo, comenzar en grande y profundizar, comenzar en pequeño y alejarse, resaltar contrastes, explorar la intersección, diseccionar los factores y perfilar los valores atípicos. [31]
Veglis y Bratsas propusieron otra taxonomía que se basa en el método de presentación de la información a la audiencia. Su taxonomía tenía una estructura jerárquica e incluía los siguientes tipos: artículos de periodismo de datos con solo números, con tablas y con visualizaciones (interactivas y no interactivas). También en el caso de las historias con visualizaciones interactivas propusieron 3 tipos distintos: transmisionales, consultacionales y conversacionales. [32]
En muchas investigaciones los datos que se pueden encontrar pueden tener omisiones o ser engañosos. Como capa del periodismo basado en datos, es importante un examen crítico de la calidad de los datos . En otros casos, es posible que los datos no sean públicos o no estén en el formato correcto para un análisis posterior; por ejemplo, solo están disponibles en un PDF . Aquí el proceso del periodismo basado en datos puede convertirse en historias sobre la calidad de los datos o la negativa de las instituciones a proporcionarlos. Como la práctica en su conjunto se encuentra en las primeras etapas de desarrollo, los exámenes de las fuentes de datos, los conjuntos de datos, la calidad de los datos y el formato de los datos son, por lo tanto, una parte igualmente importante de este trabajo.
Desde la perspectiva de profundizar en los hechos y los impulsores de los acontecimientos, se sugiere un cambio en las estrategias de los medios: desde esta visión, la idea es pasar "de la atención a la confianza". La creación de atención, que ha sido un pilar de los modelos de negocios de los medios, ha perdido su relevancia porque los informes sobre nuevos eventos a menudo se distribuyen más rápidamente a través de nuevas plataformas como Twitter que a través de los canales de medios tradicionales. Por otro lado, la confianza puede entenderse como un recurso escaso. Si bien distribuir información es mucho más fácil y rápido a través de la web, la abundancia de ofertas genera costos para verificar y verificar el contenido de cualquier historia y crear una oportunidad. La idea de transformar las empresas de medios en centros de datos confiables se describió en un artículo publicado en febrero de 2011 en Owni.eu [33] y Nieman Lab. [34]
El proceso de transformar datos sin procesar en historias es similar a un refinamiento y una transformación. El objetivo principal es extraer información sobre la que los destinatarios puedan actuar. La tarea de un periodista de datos es extraer lo que se oculta. Este enfoque se puede aplicar a casi cualquier contexto, como las finanzas, la salud, el medio ambiente u otras áreas de interés público.
En 2011, Paul Bradshaw presentó un modelo que llamó "La pirámide invertida del periodismo de datos".
Para lograrlo, el proceso debe dividirse en varios pasos. Si bien los pasos que conducen a resultados pueden diferir, se puede hacer una distinción básica observando seis fases:
Los datos se pueden obtener directamente de bases de datos gubernamentales como data.gov , data.gov.uk y API de datos del Banco Mundial [35], pero también presentando solicitudes de libertad de información a agencias gubernamentales; algunas solicitudes se realizan y agregan en sitios web como What Do They Know del Reino Unido. Si bien existe una tendencia mundial hacia la apertura de datos, existen diferencias nacionales en cuanto al grado en que la información está disponible gratuitamente en formatos utilizables. Si los datos están en una página web, se utilizan raspadores para generar una hoja de cálculo. Ejemplos de scrapers son: WebScraper, Import.io, QuickCode , OutWit Hub y Needlebase (retirado en 2012 [36] ). En otros casos, se puede utilizar el software OCR para obtener datos de archivos PDF.
El público también puede crear datos a través del crowdsourcing, como lo demostró Henk van Ess en marzo de 2012 en la Conferencia de Periodismo de Datos en Hamburgo. [37]
Por lo general, los datos no están en un formato que sea fácil de visualizar. Algunos ejemplos son que hay demasiados puntos de datos o que las filas y columnas deben ordenarse de manera diferente. Otro problema es que, una vez investigados, es necesario limpiar, estructurar y transformar muchos conjuntos de datos. Varias herramientas como OpenRefine ( código abierto ), Data Wrangler y Google Spreadsheets [38] permiten cargar, extraer o formatear datos.
Para visualizar datos en forma de gráficos y tablas, se encuentran disponibles aplicaciones como Many Eyes o Tableau Public . Yahoo! Pipes y Open Heat Map [39] son ejemplos de herramientas que permiten la creación de mapas basados en hojas de cálculo de datos. La cantidad de opciones y plataformas se está ampliando. Algunas ofertas nuevas brindan opciones para buscar, mostrar e incrustar datos, como por ejemplo Timetric. [40]
Para crear visualizaciones significativas y relevantes, los periodistas utilizan un número cada vez mayor de herramientas. A estas alturas existen varias descripciones de qué buscar y cómo hacerlo. Los artículos publicados más destacados son:
A partir de 2011, el uso de bibliotecas HTML 5 que utilizan la etiqueta canvas está ganando popularidad. Existen numerosas bibliotecas que permiten representar gráficamente datos en una variedad cada vez mayor de formas. Un ejemplo es RGraph . [43] A partir de 2011, existe una lista cada vez mayor de bibliotecas de JavaScript que permiten visualizar datos. [44]
Existen diferentes opciones para publicar datos y visualizaciones. Un enfoque básico es adjuntar los datos a historias individuales, de forma similar a insertar vídeos web. Conceptos más avanzados permiten crear expedientes únicos, por ejemplo, mostrar varias visualizaciones, artículos y enlaces a los datos en una página. A menudo, estos especiales deben codificarse individualmente, ya que muchos sistemas de gestión de contenido están diseñados para mostrar publicaciones individuales según la fecha de publicación.
Proporcionar acceso a los datos existentes es otra fase que está ganando importancia. Piense en los sitios como "mercados" (comerciales o no), donde otros pueden encontrar fácilmente conjuntos de datos. Especialmente en el caso de las ideas para un artículo obtenidas a partir de datos abiertos, los periodistas deben proporcionar un enlace a los datos que utilizaron para que otros investiguen (potencialmente iniciando otro ciclo de interrogatorios que conduzca a nuevas ideas).
Proporcionar acceso a los datos y permitir que los grupos discutan qué información se podría extraer es la idea principal detrás de Buzzdata, [45] un sitio que utiliza conceptos de redes sociales como compartir y seguir para crear una comunidad para investigaciones de datos.
Otras plataformas (que pueden utilizarse tanto para recopilar como para distribuir datos):
Un paso final del proceso es medir la frecuencia con la que se visualiza un conjunto de datos o una visualización.
En el contexto del periodismo basado en datos, el alcance de dicho seguimiento, como la recopilación de datos de los usuarios o cualquier otra información que pueda utilizarse con fines de marketing u otros usos fuera del control del usuario, debe considerarse problemático. [¿ según quién? ] Una opción más nueva y no intrusiva para medir el uso es un rastreador liviano llamado PixelPing. El rastreador es el resultado de un proyecto de ProPublica y DocumentCloud . [49] Existe un servicio correspondiente para recopilar los datos. El software es de código abierto y se puede descargar a través de GitHub. [50]
Existe una lista cada vez mayor de ejemplos de cómo se puede aplicar el periodismo basado en datos. The Guardian , una de las empresas de medios pioneras en este espacio (ver "Periodismo de datos en The Guardian: ¿qué es y cómo lo hacemos?" [51] ), ha compilado una extensa lista de historias de datos, ver: "Todos de nuestro periodismo de datos en una sola hoja de cálculo". [52]
Otros usos destacados del periodismo basado en datos están relacionados con la publicación por parte de la organización de denunciantes WikiLeaks del Diario de Guerra de Afganistán , un compendio de 91.000 informes militares secretos que cubren la guerra en Afganistán de 2004 a 2010. [53] Tres periódicos globales, a saber The Guardian , The New York Times y Der Spiegel , dedicaron extensas secciones [54] [55] [56] a los documentos; Los informes de The Guardian incluían un mapa interactivo que señalaba el tipo, la ubicación y las víctimas causadas por 16.000 ataques con artefactos explosivos improvisados , [57] The New York Times publicó una selección de informes que permiten pasar el texto subrayado para revelar explicaciones de términos militares, [58 ] mientras que Der Spiegel proporcionó visualizaciones híbridas (que contienen gráficos y mapas) sobre temas como el número de muertes relacionadas con los ataques con bombas de los insurgentes. [59] Para la publicación de los registros de la guerra de Irak , The Guardian utilizó Google Fusion Tables para crear un mapa interactivo de cada incidente en el que alguien murió, [60] una técnica que utilizó nuevamente en los disturbios de Inglaterra de 2011. [61]
{{cite web}}
: |first=
tiene nombre genérico ( ayuda )