stringtranslate.com

Grandes datos

Crecimiento no lineal de la capacidad de almacenamiento de información digital global y disminución del almacenamiento analógico [1] [ necesita actualización ]

El término big data se refiere principalmente a conjuntos de datos que son demasiado grandes o complejos para ser tratados por un software de procesamiento de datos tradicional . Los datos con muchas entradas (filas) ofrecen un mayor poder estadístico , mientras que los datos con mayor complejidad (más atributos o columnas) pueden llevar a una mayor tasa de descubrimientos falsos . [2] Aunque a veces se utiliza de forma imprecisa, en parte debido a la falta de una definición formal, la mejor interpretación es que se trata de un gran cuerpo de información que no se puede comprender cuando se utiliza solo en pequeñas cantidades. [3]

Los desafíos del análisis de big data incluyen la captura de datos , el almacenamiento de datos , el análisis de datos , la búsqueda, el uso compartido , la transferencia , la visualización , la consulta , la actualización, la privacidad de la información y la fuente de datos. Originalmente, el big data se asociaba con tres conceptos clave: volumen , variedad y velocidad . [4] El análisis de big data presenta desafíos en el muestreo, por lo que anteriormente solo permitía observaciones y muestreos. Por lo tanto, un cuarto concepto, la veracidad, se refiere a la calidad o el grado de conocimiento de los datos. [5] Sin una inversión suficiente en experiencia para la veracidad de big data, el volumen y la variedad de datos pueden producir costos y riesgos que excedan la capacidad de una organización para crear y capturar valor a partir de big data . [6]

El uso actual del término big data tiende a referirse al uso de análisis predictivos , análisis del comportamiento del usuario u otros métodos avanzados de análisis de datos que extraen valor de los grandes datos, y rara vez a un tamaño particular de conjunto de datos. "Hay pocas dudas de que las cantidades de datos disponibles ahora son de hecho grandes, pero esa no es la característica más relevante de este nuevo ecosistema de datos". [7] El análisis de conjuntos de datos puede encontrar nuevas correlaciones para "detectar tendencias comerciales, prevenir enfermedades, combatir el crimen, etc." [8] Los científicos, ejecutivos de empresas, médicos, publicidad y gobiernos por igual encuentran regularmente dificultades con grandes conjuntos de datos en áreas que incluyen búsquedas en Internet , tecnología financiera , análisis de atención médica, sistemas de información geográfica, informática urbana e informática empresarial . Los científicos encuentran limitaciones en el trabajo de e-Ciencia , incluida la meteorología , la genómica , [9] la conectómica , simulaciones físicas complejas, biología e investigación ambiental. [10]

El tamaño y la cantidad de conjuntos de datos disponibles han crecido rápidamente a medida que los datos se recopilan mediante dispositivos como dispositivos móviles , dispositivos de Internet de las cosas baratos y numerosos que detectan información , equipos aéreos ( detección remota ), registros de software, cámaras , micrófonos, lectores de identificación por radiofrecuencia (RFID) y redes de sensores inalámbricos . [11] [12] La capacidad tecnológica per cápita del mundo para almacenar información se ha duplicado aproximadamente cada 40 meses desde la década de 1980; [13] a partir de 2012 , cada día se generan 2,5 exabytes (2,17 × 2 60 bytes) de datos. [14] Según una predicción de un informe de IDC , se predijo que el volumen global de datos crecería exponencialmente de 4,4 zettabytes a 44 zettabytes entre 2013 y 2020. Para 2025, IDC predice que habrá 163 zettabytes de datos. [15] Según IDC, se estima que el gasto mundial en soluciones de big data y análisis de negocios (BDA) alcanzará los 215.700 millones de dólares en 2021. [16] [17] Según un informe de Statista , se prevé que el mercado mundial de big data crezca hasta los 103.000 millones de dólares en 2027. [18] En 2011, McKinsey & Company informó que, si el sector sanitario estadounidense utilizara big data de forma creativa y eficaz para impulsar la eficiencia y la calidad, podría crear más de 300.000 millones de dólares en valor cada año. [19] En las economías desarrolladas de Europa, los administradores gubernamentales podrían ahorrar más de 100.000 millones de euros (149.000 millones de dólares) solo en mejoras de eficiencia operativa utilizando big data. [19] Y los usuarios de servicios habilitados por datos de ubicación personal podrían capturar 600.000 millones de dólares en excedente del consumidor. [19] Una cuestión para las grandes empresas es determinar quién debería ser el propietario de las iniciativas de big data que afectan a toda la organización. [20]

Los sistemas de gestión de bases de datos relacionales y los paquetes de software estadístico de escritorio que se utilizan para visualizar datos suelen tener dificultades para procesar y analizar grandes volúmenes de datos. El procesamiento y análisis de grandes volúmenes de datos puede requerir "un software masivamente paralelo que se ejecute en decenas, cientos o incluso miles de servidores". [21] Lo que se considera "grandes volúmenes de datos" varía en función de las capacidades de quienes los analizan y de sus herramientas. Además, la expansión de las capacidades convierte a los grandes volúmenes de datos en un objetivo en movimiento. "Para algunas organizaciones, enfrentarse a cientos de gigabytes de datos por primera vez puede desencadenar la necesidad de reconsiderar las opciones de gestión de datos. Para otras, pueden ser necesarias decenas o cientos de terabytes antes de que el tamaño de los datos se convierta en una consideración importante". [22]

Definición

El término big data se ha utilizado desde la década de 1990, y algunos atribuyen el mérito a John Mashey por popularizar el término. [23] [24] El big data generalmente incluye conjuntos de datos con tamaños que superan la capacidad de las herramientas de software comúnmente utilizadas para capturar , curar , administrar y procesar datos dentro de un tiempo transcurrido tolerable. [25] [ página necesaria ] La filosofía del big data abarca datos no estructurados, semiestructurados y estructurados; sin embargo, el enfoque principal está en los datos no estructurados. [26] El "tamaño" del big data es un objetivo en constante movimiento; a partir de 2012, oscilaba entre unas pocas docenas de terabytes y muchos zettabytes de datos. [27] El big data requiere un conjunto de técnicas y tecnologías con nuevas formas de integración para revelar información de conjuntos de datos que son diversos, complejos y de escala masiva. [28]

Algunas organizaciones añaden "volumen", "variedad", "velocidad" y otras "V" para describirlo, una revisión que ha sido cuestionada por algunas autoridades de la industria. [29] Las V de los macrodatos se denominaban a menudo "tres V", "cuatro V" y "cinco V". Representaban las cualidades de los macrodatos en volumen, variedad, velocidad, veracidad y valor. [5] La variabilidad se incluye a menudo como una cualidad adicional de los macrodatos.

Una definición de 2018 establece que "Big data es donde se necesitan herramientas de computación paralela para manejar datos", y señala: "Esto representa un cambio distinto y claramente definido en la ciencia informática utilizada, a través de teorías de programación paralela, y pérdidas de algunas de las garantías y capacidades hechas por el modelo relacional de Codd ". [30]

En un estudio comparativo de grandes conjuntos de datos, Kitchin y McArdle descubrieron que ninguna de las características comúnmente consideradas de los grandes datos aparece de manera consistente en todos los casos analizados. [31] Por esta razón, otros estudios identificaron la redefinición de la dinámica de poder en el descubrimiento de conocimiento como el rasgo definitorio. [32] En lugar de centrarse en las características intrínsecas de los grandes datos, esta perspectiva alternativa impulsa una comprensión relacional del objeto afirmando que lo que importa es la forma en que los datos se recopilan, almacenan, ponen a disposición y analizan.

Big data versus inteligencia empresarial

La creciente madurez del concepto delinea más claramente la diferencia entre "big data" e " inteligencia empresarial ": [33]

Características

Esta imagen muestra el crecimiento de las principales características del big data: volumen, velocidad y variedad.

El big data se puede describir mediante las siguientes características:

Volumen
La cantidad de datos generados y almacenados. El tamaño de los datos determina su valor y su potencial de conocimiento, y si pueden considerarse big data o no. El tamaño de los big data suele ser superior a los terabytes y petabytes. [37]
Variedad
El tipo y la naturaleza de los datos. Las tecnologías anteriores, como los RDBMS, eran capaces de manejar datos estructurados de manera eficiente y eficaz. Sin embargo, el cambio de tipo y naturaleza de estructurado a semiestructurado o no estructurado desafió las herramientas y tecnologías existentes. Las tecnologías de big data evolucionaron con la intención principal de capturar, almacenar y procesar los datos semiestructurados y no estructurados (variedad) generados con alta velocidad (velocidad) y gran tamaño (volumen). Más tarde, estas herramientas y tecnologías se exploraron y utilizaron también para manejar datos estructurados, pero preferibles para el almacenamiento. Finalmente, el procesamiento de datos estructurados se mantuvo como opcional, ya sea utilizando big data o RDBMS tradicionales. Esto ayuda a analizar los datos para el uso efectivo de los conocimientos ocultos expuestos a partir de los datos recopilados a través de las redes sociales, archivos de registro, sensores, etc. Big data se nutre de texto, imágenes, audio, video; además, completa las piezas faltantes a través de la fusión de datos .
Velocidad
La velocidad a la que se generan y procesan los datos para satisfacer las demandas y los desafíos que se presentan en el camino del crecimiento y el desarrollo. Los macrodatos suelen estar disponibles en tiempo real. En comparación con los macrodatos , los macrodatos se producen de forma más continua. Dos tipos de velocidad relacionados con los macrodatos son la frecuencia de generación y la frecuencia de manipulación, registro y publicación. [38]
Veracidad
La veracidad o fiabilidad de los datos, que se refiere a la calidad y el valor de los mismos. [39] Los macrodatos no solo deben ser de gran tamaño, sino que también deben ser fiables para lograr valor en su análisis. La calidad de los datos capturados puede variar en gran medida, lo que afecta a la precisión del análisis. [40]
Valor
El valor de la información que se puede lograr mediante el procesamiento y análisis de grandes conjuntos de datos. El valor también se puede medir mediante una evaluación de las otras cualidades de los macrodatos. [41] El valor también puede representar la rentabilidad de la información que se recupera del análisis de los macrodatos.
Variabilidad
La característica de los formatos, la estructura o las fuentes cambiantes de los macrodatos. Los macrodatos pueden incluir datos estructurados, no estructurados o combinaciones de ambos. El análisis de macrodatos puede integrar datos sin procesar de múltiples fuentes. El procesamiento de datos sin procesar también puede implicar transformaciones de datos no estructurados en datos estructurados.

Otras posibles características del big data son: [42]

Exhaustivo
Ya sea que se capture o registre todo el sistema (es decir, todo). Los macrodatos pueden incluir o no todos los datos disponibles de las fuentes.
De grano fino y léxico único
Respectivamente, la proporción de datos específicos de cada elemento por elemento recogido y si el elemento y sus características están debidamente indexados o identificados.
Relacional
Si los datos recopilados contienen campos comunes que permitirían una unión o metanálisis de diferentes conjuntos de datos.
Extensional
Si se pueden agregar o cambiar fácilmente nuevos campos en cada elemento de los datos recopilados.
Escalabilidad
Si el tamaño del sistema de almacenamiento de big data puede expandirse rápidamente.

Arquitectura

Los repositorios de big data han existido en muchas formas, a menudo creados por corporaciones con una necesidad especial. Históricamente, los proveedores comerciales ofrecieron sistemas de gestión de bases de datos paralelas para big data a partir de la década de 1990. Durante muchos años, WinterCorp publicó el informe de bases de datos más grande. [43] [ ¿ Fuente promocional? ]

En 1984, Teradata Corporation comercializó el sistema de procesamiento paralelo DBC 1012. Los sistemas Teradata fueron los primeros en almacenar y analizar 1 terabyte de datos en 1992. Las unidades de disco duro eran de 2,5 GB en 1991, por lo que la definición de big data evoluciona continuamente. Teradata instaló el primer sistema basado en RDBMS de clase petabyte en 2007. A partir de 2017 , hay unas pocas docenas de bases de datos relacionales Teradata de clase petabyte instaladas, la más grande de las cuales supera los 50 PB. Los sistemas hasta 2008 eran datos relacionales 100% estructurados. Desde entonces, Teradata ha agregado tipos de datos no estructurados, incluidos XML , JSON y Avro.

En 2000, Seisint Inc. (ahora LexisNexis Risk Solutions ) desarrolló una plataforma distribuida basada en C++ para el procesamiento y la consulta de datos conocida como la plataforma HPCC Systems . Este sistema particiona, distribuye, almacena y entrega automáticamente datos estructurados, semiestructurados y no estructurados en múltiples servidores de productos básicos. Los usuarios pueden escribir consultas y canalizaciones de procesamiento de datos en un lenguaje de programación de flujo de datos declarativo llamado ECL. Los analistas de datos que trabajan en ECL no necesitan definir esquemas de datos por adelantado y pueden centrarse en el problema particular en cuestión, remodelando los datos de la mejor manera posible a medida que desarrollan la solución. En 2004, LexisNexis adquirió Seisint Inc. [44] y su plataforma de procesamiento paralelo de alta velocidad y utilizó con éxito esta plataforma para integrar los sistemas de datos de Choicepoint Inc. cuando adquirieron esa empresa en 2008. [45] En 2011, la plataforma de sistemas HPCC se convirtió en código abierto bajo la licencia Apache v2.0.

El CERN y otros experimentos de física han recopilado grandes conjuntos de datos durante muchas décadas, generalmente analizados mediante computación de alto rendimiento en lugar de las arquitecturas de mapa-reducción a las que suele aludir el actual movimiento de "big data".

En 2004, Google publicó un artículo sobre un proceso llamado MapReduce que utiliza una arquitectura similar. El concepto de MapReduce proporciona un modelo de procesamiento paralelo y se lanzó una implementación asociada para procesar grandes cantidades de datos. Con MapReduce, las consultas se dividen y distribuyen entre nodos paralelos y se procesan en paralelo (el paso "map"). Luego, los resultados se recopilan y se entregan (el paso "reduce"). El marco tuvo mucho éxito, [46] por lo que otros quisieron replicar el algoritmo. Por lo tanto, un proyecto de código abierto Apache llamado " Hadoop " adoptó una implementación del marco MapReduce . [47] Apache Spark se desarrolló en 2012 en respuesta a las limitaciones del paradigma MapReduce, ya que agrega procesamiento en memoria y la capacidad de configurar muchas operaciones (no solo mapear seguido de reducir).

MIKE2.0 es un enfoque abierto para la gestión de la información que reconoce la necesidad de revisiones debido a las implicaciones de los macrodatos identificadas en un artículo titulado "Oferta de soluciones de macrodatos". [48] La metodología aborda el manejo de macrodatos en términos de permutaciones útiles de fuentes de datos, complejidad en las interrelaciones y dificultad para eliminar (o modificar) registros individuales. [49]

Estudios realizados en 2012 demostraron que una arquitectura de múltiples capas era una opción para abordar los problemas que presenta el big data. Una arquitectura paralela distribuida distribuye los datos entre varios servidores; estos entornos de ejecución paralelos pueden mejorar drásticamente las velocidades de procesamiento de datos. Este tipo de arquitectura inserta los datos en un DBMS paralelo, que implementa el uso de los marcos MapReduce y Hadoop. Este tipo de marco busca hacer que la potencia de procesamiento sea transparente para el usuario final mediante el uso de un servidor de aplicaciones front-end. [50]

El lago de datos permite a una organización cambiar su enfoque del control centralizado a un modelo compartido para responder a la dinámica cambiante de la gestión de la información. Esto permite una rápida segregación de los datos en el lago de datos, reduciendo así el tiempo de sobrecarga. [51] [52]

Tecnologías

Un informe del McKinsey Global Institute de 2011 caracteriza los principales componentes y el ecosistema del big data de la siguiente manera: [53]

Los big data multidimensionales también se pueden representar como cubos de datos OLAP o, matemáticamente, tensores . Los sistemas de bases de datos de matriz se han propuesto proporcionar almacenamiento y soporte de consultas de alto nivel en este tipo de datos. Las tecnologías adicionales que se están aplicando a los big data incluyen computación eficiente basada en tensores, [54] como aprendizaje de subespacios multilineales , [55] bases de datos de procesamiento masivo en paralelo ( MPP ), aplicaciones basadas en búsquedas , minería de datos , [56] sistemas de archivos distribuidos , caché distribuida (por ejemplo, búfer de ráfagas y Memcached ), bases de datos distribuidas , infraestructura basada en la nube y HPC (aplicaciones, almacenamiento y recursos informáticos), [57] e Internet. [ cita requerida ] Aunque se han desarrollado muchos enfoques y tecnologías, todavía sigue siendo difícil llevar a cabo aprendizaje automático con big data. [58]

Algunas bases de datos relacionales MPP tienen la capacidad de almacenar y administrar petabytes de datos. Esto implica la capacidad de cargar, monitorear, realizar copias de seguridad y optimizar el uso de las grandes tablas de datos en el RDBMS . [59] [¿ Fuente promocional? ]

El programa de Análisis de Datos Topológicos de DARPA busca la estructura fundamental de conjuntos masivos de datos y en 2008 la tecnología se hizo pública con el lanzamiento de una empresa llamada "Ayasdi". [60] [ se necesita una fuente de terceros ]

Los profesionales de los procesos de análisis de big data son generalmente hostiles al almacenamiento compartido más lento, [61] prefiriendo el almacenamiento de conexión directa ( DAS ) en sus diversas formas, desde unidades de estado sólido ( SSD ) hasta discos SATA de alta capacidad enterrados dentro de nodos de procesamiento paralelo. La percepción de las arquitecturas de almacenamiento compartido ( red de área de almacenamiento [SAN] y almacenamiento conectado a red [NAS]) es que son relativamente lentas, complejas y costosas. Estas cualidades no son consistentes con los sistemas de análisis de big data que prosperan gracias al rendimiento del sistema, la infraestructura básica y el bajo costo.

La entrega de información en tiempo real o casi real es una de las características que definen el análisis de big data. Por lo tanto, se evita la latencia siempre que sea posible. Los datos en la memoria o disco conectados directamente son buenos, pero los datos en la memoria o disco en el otro extremo de una conexión SAN FC no lo son. El costo de una SAN a la escala necesaria para las aplicaciones de análisis es mucho más alto que el de otras técnicas de almacenamiento.

Aplicaciones

Autobús equipado con big data de SAP estacionado frente a IDF13

El big data ha aumentado tanto la demanda de especialistas en gestión de la información que Software AG , Oracle Corporation , IBM , Microsoft , SAP , EMC , HP y Dell han gastado más de 15.000 millones de dólares en empresas de software especializadas en gestión y análisis de datos. En 2010, esta industria valía más de 100.000 millones de dólares y crecía a un ritmo de casi el 10 por ciento anual, aproximadamente el doble de rápido que el negocio del software en su conjunto. [8]

Las economías desarrolladas utilizan cada vez más tecnologías que hacen un uso intensivo de los datos. En todo el mundo hay 4.600 millones de suscripciones a teléfonos móviles y entre 1.000 y 2.000 millones de personas acceden a Internet. [8] Entre 1990 y 2005, más de 1.000 millones de personas de todo el mundo entraron en la clase media, lo que significa que más gente se volvió más alfabetizada, lo que a su vez condujo al crecimiento de la información. La capacidad efectiva del mundo para intercambiar información a través de las redes de telecomunicaciones era de 281 petabytes en 1986, 471 petabytes en 1993, 2,2 exabytes en 2000, 65 exabytes en 2007 [13] y las predicciones sitúan la cantidad de tráfico de Internet en 667 exabytes anuales para 2014. [8] Según una estimación, una tercera parte de la información almacenada a nivel mundial está en forma de texto alfanumérico y datos de imágenes fijas, [62] que es el formato más útil para la mayoría de las aplicaciones de big data. Esto también muestra el potencial de los datos aún no utilizados (es decir, en forma de contenido de vídeo y audio).

Si bien muchos proveedores ofrecen productos listos para usar para big data, los expertos promueven el desarrollo de sistemas internos personalizados si la empresa tiene capacidades técnicas suficientes. [63]

Gobierno

El uso y la adopción de big data en los procesos gubernamentales permite lograr eficiencias en términos de costos, productividad e innovación, [64] pero no está exento de fallas. El análisis de datos a menudo requiere que varias partes del gobierno (central y local) trabajen en colaboración y creen procesos nuevos e innovadores para obtener el resultado deseado. Una organización gubernamental común que hace uso de big data es la Administración de Seguridad Nacional ( NSA ), que monitorea las actividades de Internet constantemente en busca de posibles patrones de actividades sospechosas o ilegales que su sistema pueda detectar.

El registro civil y las estadísticas vitales (CRVS) recopilan todos los estados de los certificados desde el nacimiento hasta la muerte. El CRVS es una fuente de macrodatos para los gobiernos.

Desarrollo internacional

Las investigaciones sobre el uso eficaz de las tecnologías de la información y la comunicación para el desarrollo (también conocidas como "ICT4D") sugieren que la tecnología de big data puede hacer contribuciones importantes, pero también presentar desafíos únicos para el desarrollo internacional . [65] [66] Los avances en el análisis de big data ofrecen oportunidades rentables para mejorar la toma de decisiones en áreas críticas para el desarrollo, como la atención médica, el empleo, la productividad económica , el crimen, la seguridad y la gestión de desastres naturales y recursos. [67] [ página necesaria ] [68] [69] Además, los datos generados por los usuarios ofrecen nuevas oportunidades para dar voz a los no escuchados. [70] Sin embargo, los desafíos de larga data para las regiones en desarrollo, como la infraestructura tecnológica inadecuada y la escasez de recursos económicos y humanos, exacerban las preocupaciones existentes con big data, como la privacidad, la metodología imperfecta y los problemas de interoperabilidad. [67] [ página necesaria ] El desafío de "big data para el desarrollo" [67] [ página necesaria ] está evolucionando actualmente hacia la aplicación de estos datos a través del aprendizaje automático, conocido como "inteligencia artificial para el desarrollo (AI4D)". [71]

Beneficios

Una de las principales aplicaciones prácticas de los macrodatos para el desarrollo ha sido la "lucha contra la pobreza con datos". [72] En 2015, Blumenstock y sus colegas estimaron la pobreza y la riqueza previstas a partir de metadatos de teléfonos móviles [73] y en 2016 Jean y sus colegas combinaron imágenes satelitales y aprendizaje automático para predecir la pobreza. [74] Al utilizar datos de trazas digitales para estudiar el mercado laboral y la economía digital en América Latina, Hilbert y sus colegas [75] [76] sostienen que los datos de trazas digitales tienen varios beneficios, como:

Desafíos

Al mismo tiempo, trabajar con datos de trazas digitales en lugar de datos de encuestas tradicionales no elimina los desafíos tradicionales que implica trabajar en el campo del análisis cuantitativo internacional. Las prioridades cambian, pero los debates básicos siguen siendo los mismos. Entre los principales desafíos se encuentran:

Finanzas

El Big Data se está adoptando rápidamente en las finanzas para 1) acelerar el procesamiento y 2) ofrecer inferencias mejores y más informadas, tanto internamente como a los clientes de las instituciones financieras. [78] Las aplicaciones financieras del Big Data van desde las decisiones de inversión y el comercio (procesamiento de volúmenes de datos de precios disponibles, libros de órdenes limitadas, datos económicos y más, todo al mismo tiempo), la gestión de carteras (optimización sobre una gama cada vez mayor de instrumentos financieros, potencialmente seleccionados de diferentes clases de activos), la gestión de riesgos (calificación crediticia basada en información extendida) y cualquier otro aspecto en el que las entradas de datos sean grandes. [79] El Big Data también ha sido un concepto típico dentro del campo de los servicios financieros alternativos . Algunas de las áreas principales involucran plataformas de financiación colectiva e intercambios de criptomonedas. [80]

Cuidado de la salud

El análisis de big data se ha utilizado en el ámbito sanitario para proporcionar medicina personalizada y análisis prescriptivos , intervención de riesgo clínico y análisis predictivos, reducción de la variabilidad de los residuos y la atención, informes externos e internos automatizados de datos de pacientes, términos médicos estandarizados y registros de pacientes. [81] [82] [83] [84] Algunas áreas de mejora son más aspiracionales que implementadas realmente. El nivel de datos generados dentro de los sistemas sanitarios no es trivial. Con la adopción adicional de mHealth, eHealth y tecnologías portátiles, el volumen de datos seguirá aumentando. Esto incluye datos de registros sanitarios electrónicos , datos de imágenes, datos generados por pacientes, datos de sensores y otras formas de datos difíciles de procesar. Ahora existe una necesidad aún mayor de que dichos entornos presten mayor atención a la calidad de los datos y la información. [85] "Big data muy a menudo significa ' datos sucios ' y la fracción de inexactitudes de datos aumenta con el crecimiento del volumen de datos". La inspección humana a escala de big data es imposible y existe una necesidad desesperada en el servicio sanitario de herramientas inteligentes para el control de la precisión y la credibilidad y el manejo de la información omitida. [86] Si bien una gran cantidad de información en el ámbito de la atención de la salud es ahora electrónica, encaja dentro del concepto de big data, ya que la mayor parte no está estructurada y es difícil de utilizar. [87] El uso de big data en el ámbito de la atención de la salud ha planteado importantes desafíos éticos que van desde los riesgos para los derechos individuales, la privacidad y la autonomía hasta la transparencia y la confianza. [88]

Los macrodatos en la investigación sanitaria son particularmente prometedores en términos de investigación biomédica exploratoria, ya que el análisis basado en datos puede avanzar más rápidamente que la investigación basada en hipótesis. [89] Luego, las tendencias observadas en el análisis de datos se pueden probar en la investigación biológica de seguimiento tradicional basada en hipótesis y, eventualmente, en la investigación clínica.

Un subárea de aplicación relacionada, que depende en gran medida de los macrodatos, dentro del campo de la atención sanitaria es el diagnóstico asistido por ordenador en medicina. [90] [ página necesaria ] Por ejemplo, para el seguimiento de la epilepsia se acostumbra a crear de 5 a 10 GB de datos al día. [91] De manera similar, una sola imagen sin comprimir de una tomosíntesis de mama tiene un promedio de 450 MB de datos. [92] Estos son solo algunos de los muchos ejemplos en los que el diagnóstico asistido por ordenador utiliza macrodatos. Por esta razón, el macrodato ha sido reconocido como uno de los siete desafíos clave que los sistemas de diagnóstico asistido por ordenador deben superar para alcanzar el siguiente nivel de rendimiento. [93]

Educación

Un estudio del McKinsey Global Institute encontró una escasez de 1,5 millones de profesionales y administradores de datos altamente capacitados [53] y varias universidades [94] [ se necesita una mejor fuente ], incluida la Universidad de Tennessee y la UC Berkeley , han creado programas de maestría para satisfacer esta demanda. Los campamentos de entrenamiento privados también han desarrollado programas para satisfacer esa demanda, incluidos programas pagos como The Data Incubator o General Assembly . [95] En el campo específico del marketing, uno de los problemas enfatizados por Wedel y Kannan [96] es que el marketing tiene varios subdominios (por ejemplo, publicidad, promociones, desarrollo de productos, marca) que utilizan diferentes tipos de datos.

Medios de comunicación

Para entender cómo los medios de comunicación utilizan el big data, es necesario primero contextualizar el mecanismo utilizado para procesarlo. Nick Couldry y Joseph Turow han sugerido que los profesionales de los medios de comunicación y la publicidad abordan el big data como muchos puntos de información procesables sobre millones de personas. La industria parece estar alejándose del enfoque tradicional de utilizar entornos de medios específicos, como periódicos, revistas o programas de televisión, y en su lugar se conecta con los consumidores con tecnologías que llegan a las personas objetivo en momentos óptimos y lugares óptimos. El objetivo final es servir o transmitir un mensaje o contenido que esté (estadísticamente hablando) en línea con la mentalidad del consumidor. Por ejemplo, los entornos editoriales están adaptando cada vez más los mensajes (anuncios) y el contenido (artículos) para atraer a los consumidores, que han sido obtenidos exclusivamente a través de diversas actividades de minería de datos . [97]

Channel 4 , la cadena de televisión pública británica , es líder en el campo del big data y el análisis de datos . [99]

Seguro

Los proveedores de seguros de salud están recopilando datos sobre los "determinantes sociales de la salud", como el consumo de alimentos y televisión , el estado civil, la talla de ropa y los hábitos de compra, a partir de los cuales hacen predicciones sobre los costos de la salud, con el fin de detectar problemas de salud en sus clientes. Es controvertido si estas predicciones se están utilizando actualmente para la fijación de precios. [100]

Internet de las cosas (IoT)

Los macrodatos y la IoT trabajan en conjunto. Los datos extraídos de los dispositivos IoT proporcionan un mapeo de la interconectividad de los dispositivos. Estos mapeos han sido utilizados por la industria de los medios, las empresas y los gobiernos para llegar a su audiencia con mayor precisión y aumentar la eficiencia de los medios. La IoT también se adopta cada vez más como un medio para recopilar datos sensoriales, y estos datos sensoriales se han utilizado en contextos médicos [101] , de fabricación [102] y de transporte [103] .

Kevin Ashton , el experto en innovación digital a quien se le atribuye haber acuñado el término, [104] define la Internet de las cosas con esta cita: "Si tuviéramos computadoras que supieran todo lo que hay que saber sobre las cosas, utilizando datos que recopilaran sin nuestra ayuda, seríamos capaces de rastrear y contar todo, y reducir enormemente el desperdicio, las pérdidas y los costos. Sabríamos cuándo es necesario reemplazar, reparar o retirar las cosas, y si están nuevas o han pasado su mejor momento".

Tecnologías de la información

Especialmente desde 2015, el big data ha cobrado importancia dentro de las operaciones comerciales como una herramienta para ayudar a los empleados a trabajar de manera más eficiente y agilizar la recopilación y distribución de tecnología de la información (TI). El uso de big data para resolver problemas de TI y recopilación de datos dentro de una empresa se denomina análisis de operaciones de TI (ITOA). [105] Al aplicar los principios de big data a los conceptos de inteligencia artificial y computación profunda, los departamentos de TI pueden predecir posibles problemas y prevenirlos. [105] Las empresas ITOA ofrecen plataformas para la gestión de sistemas que reúnen silos de datos y generan información de todo el sistema en lugar de hacerlo a partir de grupos aislados de datos.

Ciencia de encuestas

En comparación con la recopilación de datos basada en encuestas , los macrodatos tienen un bajo costo por punto de datos, aplican técnicas de análisis a través del aprendizaje automático y la minería de datos , e incluyen fuentes de datos diversas y nuevas, por ejemplo, registros, redes sociales, aplicaciones y otras formas de datos digitales. Desde 2018, los científicos de encuestas han comenzado a examinar cómo los macrodatos y la ciencia de las encuestas pueden complementarse entre sí para permitir que los investigadores y los profesionales mejoren la producción de estadísticas y su calidad. Se han celebrado tres conferencias Big Data Meets Survey Science (BigSurv) en 2018, 2020 (virtual), 2023 y, a partir de 2023, una conferencia próxima en 2025, [106] un número especial en Social Science Computer Review , [107] un número especial en Journal of the Royal Statistical Society , [108] y un número especial en EP J Data Science , [109] y un libro llamado Big Data Meets Social Sciences [110] editado por Craig Hill y otros cinco miembros de la American Statistical Association . En 2021, los miembros fundadores de BigSurv recibieron el premio Warren J. Mitofsky Innovators Award de la Asociación Estadounidense de Investigación de Opinión Pública . [111]

Marketing

El big data es importante en el marketing debido a la constante “datificación” [112] de los consumidores cotidianos de Internet, en la que se rastrean todas las formas de datos. La datificación de los consumidores puede definirse como la cuantificación de muchos o todos los comportamientos humanos con fines de marketing. [112] El mundo cada vez más digital de rápida datificación hace que esta idea sea relevante para el marketing porque la cantidad de datos crece constantemente de manera exponencial. Se predice que aumentará de 44 a 163 zettabytes en el lapso de cinco años. [113] El tamaño del big data a menudo puede ser difícil de manejar para los especialistas en marketing. [114] Como resultado, los adoptantes del big data pueden encontrarse en desventaja. Los hallazgos algorítmicos pueden ser difíciles de lograr con conjuntos de datos tan grandes. [115] El big data en marketing es una herramienta altamente lucrativa que puede ser utilizada por grandes corporaciones, y su valor es el resultado de la posibilidad de predecir tendencias, intereses o resultados estadísticos significativos de una manera basada en el consumidor. [116]

Hay tres factores importantes en el uso de big data en marketing:

  1. El big data permite a los profesionales del marketing detectar patrones de comportamiento de los clientes, ya que todas las acciones humanas se cuantifican en números legibles que los profesionales del marketing pueden analizar y utilizar para sus investigaciones. [117] Además, el big data también puede considerarse una herramienta de recomendación de productos personalizados. En concreto, dado que el big data es eficaz para analizar los patrones de navegación y los comportamientos de compra de los clientes, esta tecnología puede ayudar a las empresas a promocionar productos personalizados específicos para clientes específicos. [118]
  2. La capacidad de respuesta al mercado en tiempo real es importante para los especialistas en marketing debido a la capacidad de adaptar los esfuerzos de marketing y corregir las tendencias actuales, lo que resulta útil para mantener la relevancia para los consumidores. Esto puede proporcionar a las empresas la información necesaria para predecir los deseos y necesidades de los consumidores con antelación. [117]
  3. La ambidextría del mercado basada en datos está siendo impulsada en gran medida por el big data. [117] Se están desarrollando nuevos modelos y algoritmos para hacer predicciones significativas sobre ciertas situaciones económicas y sociales. [119]

Estudios de caso

Gobierno

Porcelana

India

Israel

Reino Unido

Ejemplos de usos del big data en servicios públicos:

Estados Unidos

Minorista

Ciencia

Deportes

El big data se puede utilizar para mejorar el entrenamiento y la comprensión de los competidores mediante sensores deportivos. También es posible predecir los ganadores de un partido mediante el análisis de big data. [160] También se puede predecir el rendimiento futuro de los jugadores. [161] Por lo tanto, el valor y el salario de los jugadores se determinan a partir de los datos recopilados a lo largo de la temporada. [162]

En las carreras de Fórmula 1 , los coches de carreras con cientos de sensores generan terabytes de datos. Estos sensores recogen datos que van desde la presión de los neumáticos hasta la eficiencia del consumo de combustible. [163] Con base en los datos, los ingenieros y analistas de datos deciden si se deben realizar ajustes para ganar una carrera. Además, utilizando big data, los equipos de carreras intentan predecir de antemano el tiempo en el que terminarán la carrera, basándose en simulaciones con datos recopilados durante la temporada. [164]

Tecnología

COVID-19

Durante la pandemia de COVID-19 , el uso de big data se ha convertido en una forma de minimizar el impacto de la enfermedad. Entre las aplicaciones más importantes de este método se encuentran la minimización de la propagación del virus, la identificación de casos y el desarrollo de tratamientos médicos. [170]

Los gobiernos utilizaron big data para rastrear a las personas infectadas y minimizar la propagación. Entre los primeros en adoptar esta medida se encuentran China, Taiwán, Corea del Sur e Israel. [171] [172] [173]

Actividades de investigación

En marzo de 2014, en la Sociedad Estadounidense de Educación en Ingeniería, se demostró la búsqueda cifrada y la formación de clústeres en big data. Gautam Siwach participó en el proyecto Tackling the challenges of Big Data del Laboratorio de Ciencias Informáticas e Inteligencia Artificial del MIT y Amir Esmailpour del Grupo de Investigación de la UNH investigaron las características clave de los big data, como la formación de clústeres y sus interconexiones. Se centraron en la seguridad de los big data y la orientación del término hacia la presencia de diferentes tipos de datos en forma cifrada en la interfaz de la nube, proporcionando definiciones sin procesar y ejemplos en tiempo real dentro de la tecnología. Además, propusieron un enfoque para identificar la técnica de codificación para avanzar hacia una búsqueda acelerada sobre texto cifrado que conduzca a mejoras de seguridad en los big data. [174]

En marzo de 2012, la Casa Blanca anunció una "Iniciativa de Big Data" nacional que consistía en que seis departamentos y agencias federales comprometieran más de 200 millones de dólares a proyectos de investigación de big data. [175]

La iniciativa incluyó una subvención de la National Science Foundation "Expeditions in Computing" de 10 millones de dólares durante cinco años al AMPLab [176] de la Universidad de California, Berkeley. [177] El AMPLab también recibió fondos de DARPA y más de una docena de patrocinadores industriales y utiliza big data para atacar una amplia gama de problemas, desde la predicción de la congestión del tráfico [178] hasta la lucha contra el cáncer. [179]

La Iniciativa de Big Data de la Casa Blanca también incluyó un compromiso por parte del Departamento de Energía de proporcionar 25 millones de dólares en financiación durante cinco años para establecer el Instituto de Gestión, Análisis y Visualización de Datos Escalables (SDAV, por sus siglas en inglés), [180] dirigido por el Laboratorio Nacional Lawrence Berkeley del Departamento de Energía . El Instituto SDAV tiene como objetivo reunir la experiencia de seis laboratorios nacionales y siete universidades para desarrollar nuevas herramientas que ayuden a los científicos a gestionar y visualizar datos en las supercomputadoras del departamento.

En mayo de 2012, el estado estadounidense de Massachusetts anunció la Iniciativa de Big Data de Massachusetts, que proporciona financiación del gobierno estatal y de empresas privadas a una variedad de instituciones de investigación. [181] El Instituto Tecnológico de Massachusetts alberga el Centro de Ciencia y Tecnología Intel para Big Data en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT , que combina financiación gubernamental, corporativa e institucional y esfuerzos de investigación. [182]

La Comisión Europea está financiando el Foro Público-Privado sobre Big Data, de dos años de duración, a través de su Séptimo Programa Marco, para que empresas, académicos y otras partes interesadas participen en el debate sobre cuestiones relacionadas con los big data. El proyecto tiene por objeto definir una estrategia en términos de investigación e innovación que oriente las acciones de apoyo de la Comisión Europea para la implementación exitosa de la economía de los big data. Los resultados de este proyecto se utilizarán como insumo para Horizonte 2020 , su próximo programa marco . [183]

El gobierno británico anunció en marzo de 2014 la fundación del Instituto Alan Turing , llamado así en honor al pionero de la informática y descifrador de códigos, que se centrará en nuevas formas de recopilar y analizar grandes conjuntos de datos. [184]

En el Día de inspiración de la Canadian Open Data Experience (CODE) del campus Stratford de la Universidad de Waterloo , los participantes demostraron cómo el uso de la visualización de datos puede aumentar la comprensión y el atractivo de los grandes conjuntos de datos y comunicar su historia al mundo. [185]

Ciencias sociales computacionales  – Cualquiera puede usar interfaces de programación de aplicaciones (API) proporcionadas por los grandes propietarios de datos, como Google y Twitter, para realizar investigaciones en las ciencias sociales y del comportamiento. [186] A menudo, estas API se proporcionan de forma gratuita. [186] Tobias Preis et al. utilizaron datos de Google Trends para demostrar que los usuarios de Internet de países con un producto interno bruto (PIB) per cápita más alto tienen más probabilidades de buscar información sobre el futuro que información sobre el pasado. Los hallazgos sugieren que puede haber un vínculo entre los comportamientos en línea y los indicadores económicos del mundo real. [187] [188] [189] Los autores del estudio examinaron los registros de consultas de Google realizados en función de la relación entre el volumen de búsquedas para el año siguiente (2011) y el volumen de búsquedas del año anterior (2009), lo que denominan " índice de orientación al futuro ". [190] Compararon el índice de orientación al futuro con el PIB per cápita de cada país y encontraron una fuerte tendencia a que los países donde los usuarios de Google preguntan más sobre el futuro tengan un PIB más alto.

Tobias Preis y sus colegas Helen Susannah Moat y H. Eugene Stanley introdujeron un método para identificar precursores en línea de movimientos del mercado de valores, utilizando estrategias comerciales basadas en datos de volumen de búsqueda proporcionados por Google Trends. [191] Su análisis del volumen de búsqueda de Google para 98 términos de relevancia financiera variable, publicado en Scientific Reports , [192] sugiere que los aumentos en el volumen de búsqueda de términos de búsqueda financieramente relevantes tienden a preceder a grandes pérdidas en los mercados financieros. [193] [194] [195] [196] [197] [198] [199]

Los grandes conjuntos de datos presentan desafíos algorítmicos que antes no existían. Por lo tanto, algunos consideran que es necesario cambiar radicalmente los métodos de procesamiento. [200]

Muestreo de big data

Una pregunta de investigación que se plantea sobre los grandes conjuntos de datos es si es necesario examinar todos los datos para sacar ciertas conclusiones sobre las propiedades de los mismos o si una muestra es suficiente. El nombre de big data en sí mismo contiene un término relacionado con el tamaño y esta es una característica importante de los grandes datos. Pero el muestreo permite la selección de los puntos de datos correctos dentro de un conjunto de datos más grande para estimar las características de toda la población. En la fabricación, se dispone de diferentes tipos de datos sensoriales, como datos acústicos, de vibración, de presión, de corriente, de voltaje y de controlador, en intervalos de tiempo cortos. Para predecir el tiempo de inactividad, puede que no sea necesario examinar todos los datos, pero una muestra puede ser suficiente. Los grandes datos se pueden desglosar en varias categorías de puntos de datos, como datos demográficos, psicográficos, de comportamiento y transaccionales. Con grandes conjuntos de puntos de datos, los especialistas en marketing pueden crear y utilizar segmentos de consumidores más personalizados para una segmentación más estratégica.

Crítica

Las críticas al paradigma del big data vienen en dos formas: aquellas que cuestionan las implicaciones del enfoque en sí, y aquellas que cuestionan la forma en que se realiza actualmente. [201] Un enfoque a esta crítica es el campo de los estudios críticos de datos .

Críticas al paradigma del big data

"Un problema crucial es que no sabemos mucho sobre los microprocesos empíricos subyacentes que conducen al surgimiento de las características de red típicas de Big Data". [25] [ página necesaria ] En su crítica, Snijders, Matzat y Reips señalan que a menudo se hacen suposiciones muy fuertes sobre propiedades matemáticas que pueden no reflejar en absoluto lo que realmente está sucediendo a nivel de microprocesos. Mark Graham ha dirigido amplias críticas a la afirmación de Chris Anderson de que Big Data significará el fin de la teoría: [202] centrándose en particular en la noción de que Big Data siempre debe contextualizarse en sus contextos sociales, económicos y políticos. [203] Incluso cuando las empresas invierten sumas de ocho y nueve cifras para obtener información de la información que fluye de proveedores y clientes, menos del 40% de los empleados tienen procesos y habilidades suficientemente maduros para hacerlo. Para superar este déficit de información, Big Data, sin importar cuán completo o bien analizado sea, debe complementarse con un "gran juicio", según un artículo en Harvard Business Review . [204]

En la misma línea, se ha señalado que las decisiones basadas en el análisis de big data están inevitablemente "informadas por el mundo tal como era en el pasado o, en el mejor de los casos, como es actualmente". [67] [ página necesaria ] Alimentados por una gran cantidad de datos sobre experiencias pasadas, los algoritmos pueden predecir el desarrollo futuro si el futuro es similar al pasado. [205] Si la dinámica del sistema del futuro cambia (si no es un proceso estacionario ), el pasado puede decir poco sobre el futuro. Para hacer predicciones en entornos cambiantes, sería necesario tener una comprensión profunda de la dinámica de los sistemas, lo que requiere teoría. [205] Como respuesta a esta crítica, Alemany Oliver y Vayre sugieren utilizar "el razonamiento abductivo como un primer paso en el proceso de investigación para dar contexto a los rastros digitales de los consumidores y hacer que surjan nuevas teorías". [206] Además, se ha sugerido combinar enfoques de big data con simulaciones por computadora, como modelos basados ​​en agentes [67] [ página necesaria ] y sistemas complejos . Los modelos basados ​​en agentes son cada vez mejores en la predicción del resultado de las complejidades sociales de escenarios futuros incluso desconocidos a través de simulaciones por computadora que se basan en una colección de algoritmos mutuamente interdependientes. [207] [208] Finalmente, el uso de métodos multivariados que investigan la estructura latente de los datos, como el análisis factorial y el análisis de conglomerados , han demostrado ser útiles como enfoques analíticos que van mucho más allá de los enfoques bivariados (por ejemplo, tablas de contingencia ) que normalmente se emplean con conjuntos de datos más pequeños.

En salud y biología, los enfoques científicos convencionales se basan en la experimentación. Para estos enfoques, el factor limitante son los datos relevantes que pueden confirmar o refutar la hipótesis inicial. [209] Un nuevo postulado se acepta ahora en biociencias: la información proporcionada por los datos en grandes volúmenes ( ómicas ) sin hipótesis previas es complementaria y a veces necesaria a los enfoques convencionales basados ​​en la experimentación. [210] [211] En los enfoques masivos es la formulación de una hipótesis relevante para explicar los datos lo que es el factor limitante. [212] La lógica de búsqueda se invierte y se deben considerar los límites de la inducción ("Glory of Science and Philosophy scandal", CD Broad , 1926). [ cita requerida ]

Los defensores de la privacidad están preocupados por la amenaza a la privacidad que representa el aumento del almacenamiento y la integración de información personal identificable ; los paneles de expertos han publicado varias recomendaciones de políticas para adaptar la práctica a las expectativas de privacidad. [213] El mal uso de los macrodatos en varios casos por parte de los medios de comunicación, las empresas e incluso el gobierno ha permitido la abolición de la confianza en casi todas las instituciones fundamentales que sostienen a la sociedad. [214]

Barocas y Nissenbaum sostienen que una forma de proteger a los usuarios individuales es estar informados sobre los tipos de información que se recopilan, con quién se comparte, bajo qué restricciones y con qué fines. [215]

Críticas al modelo “V”

El modelo en "V" de big data es preocupante porque se centra en la escalabilidad computacional y carece de una pérdida en la perceptibilidad y la comprensión de la información. Esto condujo al marco de big data cognitivo, que caracteriza las aplicaciones de big data según: [216]

Críticas a la novedad

Durante más de un siglo, las máquinas de computación han analizado grandes conjuntos de datos, incluidos los análisis del censo de Estados Unidos realizados por las máquinas de tarjetas perforadas de IBM , que calculaban estadísticas que incluían medias y varianzas de poblaciones en todo el continente. En décadas más recientes, experimentos científicos como el CERN han producido datos en escalas similares a los actuales "big data" comerciales. Sin embargo, los experimentos científicos han tendido a analizar sus datos utilizando clústeres y redes de computación de alto rendimiento (supercomputación) personalizados y especializados , en lugar de nubes de computadoras comerciales baratas como en la ola comercial actual, lo que implica una diferencia tanto en la cultura como en la pila de tecnología.

Críticas a la ejecución de big data

Ulf-Dietrich Reips y Uwe Matzat escribieron en 2014 que el big data se había convertido en una "moda" en la investigación científica. [186] La investigadora Danah Boyd ha expresado su preocupación por el uso del big data en la ciencia, descuidando principios como la elección de una muestra representativa al preocuparse demasiado por el manejo de enormes cantidades de datos. [217] Este enfoque puede conducir a resultados que tienen un sesgo de una forma u otra. [218] La integración entre recursos de datos heterogéneos (algunos de los cuales podrían considerarse big data y otros no) presenta formidables desafíos logísticos y analíticos, pero muchos investigadores sostienen que es probable que tales integraciones representen las nuevas fronteras más prometedoras en la ciencia. [219] En el provocativo artículo "Preguntas críticas para el big data", [220] los autores titulan al big data como una parte de la mitología : "los grandes conjuntos de datos ofrecen una forma superior de inteligencia y conocimiento [...], con el aura de verdad, objetividad y precisión". Los usuarios de big data a menudo se "pierden en el gran volumen de números", y "trabajar con big data sigue siendo subjetivo, y lo que cuantifica no necesariamente tiene un reclamo más cercano a la verdad objetiva". [220] Los desarrollos recientes en el dominio de BI, como los informes proactivos, apuntan especialmente a mejoras en la usabilidad de big data, a través del filtrado automático de datos y correlaciones no útiles . [221] Las grandes estructuras están llenas de correlaciones espurias [222] ya sea por coincidencias no causales ( ley de números verdaderamente grandes ), la naturaleza únicamente de la gran aleatoriedad [223] ( teoría de Ramsey ) o la existencia de factores no incluidos , por lo que la esperanza de los primeros experimentadores de hacer que grandes bases de datos de números "hablen por sí mismas" y revolucionen el método científico, está cuestionada. [224] Catherine Tucker ha señalado el "bombo" en torno a los big data, escribiendo "Por sí solo, es poco probable que los big data sean valiosos". El artículo explica: "Los numerosos contextos en los que los datos son baratos en relación con el coste de retener el talento para procesarlos sugieren que las habilidades de procesamiento son más importantes que los datos en sí mismos a la hora de crear valor para una empresa". [225]

El análisis de big data suele ser superficial en comparación con el análisis de conjuntos de datos más pequeños. [226] En muchos proyectos de big data, no se realiza un análisis de big data, pero el desafío es la parte de extracción, transformación y carga del preprocesamiento de datos. [226]

Big data es una palabra de moda y un "término vago", [227] [228] pero al mismo tiempo una "obsesión" [228] entre empresarios, consultores, científicos y medios de comunicación. Los programas de big data como Google Flu Trends no han logrado ofrecer buenas predicciones en los últimos años, exagerando los brotes de gripe por un factor de dos. De manera similar, las predicciones de los premios Oscar y las elecciones basadas únicamente en Twitter fueron más acertadas que correctas. Big data a menudo plantea los mismos desafíos que small data; agregar más datos no resuelve los problemas de sesgo, pero puede enfatizar otros problemas. En particular, las fuentes de datos como Twitter no son representativas de la población general, y los resultados extraídos de esas fuentes pueden llevar a conclusiones erróneas. Google Translate , que se basa en el análisis estadístico de texto de big data, hace un buen trabajo al traducir páginas web. Sin embargo, los resultados de dominios especializados pueden estar sesgados drásticamente. Por otra parte, el big data también puede introducir nuevos problemas, como el problema de las comparaciones múltiples : probar simultáneamente un gran conjunto de hipótesis puede producir muchos resultados falsos que parecen significativos por error. Ioannidis sostuvo que "la mayoría de los hallazgos de investigación publicados son falsos" [229] debido esencialmente al mismo efecto: cuando muchos equipos científicos e investigadores realizan muchos experimentos (es decir, procesan una gran cantidad de datos científicos; aunque no con tecnología de big data), la probabilidad de que un resultado "significativo" sea falso crece rápidamente, más aún cuando solo se publican resultados positivos. Además, los resultados del análisis de big data son tan buenos como el modelo en el que se basan. En un ejemplo, el big data participó en el intento de predecir los resultados de las elecciones presidenciales estadounidenses de 2016 [230] con distintos grados de éxito.

Críticas a la vigilancia y al control del uso de macrodatos

El uso de big data en la vigilancia policial y de seguridad pública ha sido utilizado por instituciones como las fuerzas del orden y las corporaciones . [231] Debido a la naturaleza menos visible de la vigilancia basada en datos en comparación con los métodos tradicionales de vigilancia policial, es menos probable que surjan objeciones a la vigilancia con big data. Según Big Data Surveillance: The Case of Policing de Sarah Brayne , [232] la vigilancia con big data puede reproducir las desigualdades sociales existentes de tres maneras:

Si no se corrigen o regulan estos problemas potenciales, los efectos de la vigilancia basada en los macrodatos pueden seguir configurando las jerarquías sociales. El uso consciente de la vigilancia basada en los macrodatos podría evitar que los sesgos a nivel individual se conviertan en sesgos institucionales, señala Brayne.

Véase también

Referencias

  1. ^ Hilbert, Martin; López, Priscila (2011). «La capacidad tecnológica mundial para almacenar, comunicar y computar información». Science . 332 (6025): 60–65. Bibcode :2011Sci...332...60H. doi : 10.1126/science.1200970 . PMID  21310967. S2CID  206531385. Archivado desde el original el 14 de abril de 2016 . Consultado el 13 de abril de 2016 .
  2. ^ Breur, Tom (julio de 2016). «Análisis de poder estadístico y la «crisis» contemporánea en las ciencias sociales». Journal of Marketing Analytics . 4 (2–3). Londres, Inglaterra: Palgrave Macmillan : 61–65. doi : 10.1057/s41270-016-0001-3 . ISSN  2050-3318.
  3. ^ Mahdavi-Damghani, Babak (2019). Modelos basados ​​en datos y finanzas matemáticas: ¿aposición u oposición? (Tesis de doctorado). Oxford, Inglaterra: Universidad de Oxford . p. 21. SSRN  3521933.
  4. ^ McAfee, Andrew; Brynjolfsson, Erik (1 de octubre de 2012). "Big data: la revolución de la gestión". Harvard Business Review . 90 (10): 60–66, 68, 128. ISSN  0017-8012. PMID  23074865.
  5. ^ ab "Las 5 V del big data". Watson Health Perspectives . 17 de septiembre de 2016. Archivado desde el original el 18 de enero de 2021 . Consultado el 20 de enero de 2021 .
  6. ^ Cappa, Francesco; Oriani, Raffaele; Peruffo, Enzo; McCarthy, Ian (2021). "Big Data para crear y capturar valor en el entorno digitalizado: análisis de los efectos del volumen, la variedad y la veracidad en el rendimiento de la empresa". Revista de gestión de la innovación de productos . 38 (1): 49–67. doi :10.1111/jpim.12545. ISSN  0737-6782. S2CID  225209179.
  7. ^ boyd, dana; Crawford, Kate (21 de septiembre de 2011). "Seis provocaciones para el Big Data". Social Science Research Network: A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society . doi :10.2139/ssrn.1926431. S2CID  148610111. Archivado desde el original el 28 de febrero de 2020 . Consultado el 12 de julio de 2019 .
  8. ^ abcdefg «Datos, datos por todas partes». The Economist . 25 de febrero de 2010. Archivado desde el original el 27 de mayo de 2018. Consultado el 9 de diciembre de 2012 .
  9. ^ "Se requiere inteligencia comunitaria". Nature . 455 (7209): 1. Septiembre 2008. Bibcode :2008Natur.455....1.. doi : 10.1038/455001a . PMID  18769385.
  10. ^ Reichman OJ, Jones MB, Schildhauer MP (febrero de 2011). «Desafíos y oportunidades de los datos abiertos en ecología». Science . 331 (6018): 703–5. Bibcode :2011Sci...331..703R. doi :10.1126/science.1197962. PMID  21311007. S2CID  22686503. Archivado desde el original el 19 de octubre de 2020 . Consultado el 12 de julio de 2019 .
  11. ^ Hellerstein, Joe (9 de noviembre de 2008). "Programación paralela en la era del Big Data". Blog de Gigaom . Archivado desde el original el 7 de octubre de 2012. Consultado el 21 de abril de 2010 .
  12. ^ Segaran, Toby; Hammerbacher, Jeff (2009). Datos hermosos: las historias detrás de soluciones de datos elegantes. O'Reilly Media. pág. 257. ISBN 978-0-596-15711-1Archivado desde el original el 12 de mayo de 2016 . Consultado el 31 de diciembre de 2015 .
  13. ^ ab Hilbert M, López P (abril de 2011). «La capacidad tecnológica del mundo para almacenar, comunicar y computar información» (PDF) . Science . 332 (6025): 60–5. Bibcode :2011Sci...332...60H. doi :10.1126/science.1200970. PMID  21310967. S2CID  206531385. Archivado (PDF) desde el original el 19 de agosto de 2019. Consultado el 11 de mayo de 2019 .
  14. ^ "IBM ¿Qué es el big data? – Llevando el big data a la empresa". ibm.com. Archivado desde el original el 24 de agosto de 2013. Consultado el 26 de agosto de 2013 .
  15. ^ Reinsel, David; Gantz, John; Rydning, John (13 de abril de 2017). "Data Age 2025: The Evolution of Data to Life-Critical" (PDF) . seagate.com . Framingham, MA, EE. UU.: International Data Corporation . Archivado (PDF) del original el 8 de diciembre de 2017 . Consultado el 2 de noviembre de 2017 .
  16. ^ "El gasto mundial en soluciones de big data y análisis alcanzará los 215.700 millones de dólares en 2021, según una nueva guía de gasto de IDC". Archivado desde el original el 23 de julio de 2022 . Consultado el 31 de julio de 2022 .
  17. ^ "Ingresos por big data y análisis de negocios 2022".
  18. ^ "Tamaño del mercado de la industria global de big data 2011-2027".
  19. ^ abc Big data: la próxima frontera para la innovación, la competencia y la productividad McKinsey Global Institute Mayo de 2011
  20. ^ Oracle y FSN, "Mastering Big Data: CFO Strategies to Transform Insight into Opportunity" Archivado el 4 de agosto de 2013 en Wayback Machine , diciembre de 2012
  21. ^ Jacobs, A. (6 de julio de 2009). "Las patologías del Big Data". ACMQueue . Archivado desde el original el 8 de diciembre de 2015. Consultado el 21 de abril de 2010 .
  22. ^ Magoulas, Roger; Lorica, Ben (febrero de 2009). "Introducción a Big Data". Versión 2.0 (11). Sebastopol, CA: O'Reilly Media. Archivado desde el original el 2 de noviembre de 2021. Consultado el 26 de febrero de 2021 .
  23. ^ John R. Mashey (25 de abril de 1998). "Big Data… and the Next Wave of InfraStress" (PDF) . Diapositivas de una charla invitada . Usenix. Archivado (PDF) del original el 12 de octubre de 2016. Consultado el 28 de septiembre de 2016 .
  24. ^ Steve Lohr (1 de febrero de 2013). «Los orígenes del «Big Data»: una historia detectivesca etimológica». The New York Times . Archivado desde el original el 6 de marzo de 2016. Consultado el 28 de septiembre de 2016 .
  25. ^ ab Snijders, Matzat y Reips 2012.
  26. ^ Dedić, N.; Stanier, C. (2017). "Hacia la diferenciación de la inteligencia empresarial, el big data, el análisis de datos y el descubrimiento de conocimientos". Innovaciones en la gestión e ingeniería de sistemas de información empresarial . Apuntes de clase sobre procesamiento de información empresarial. Vol. 285. Berlín; Heidelberg: Springer International Publishing. págs. 114–22. doi :10.1007/978-3-319-58801-8_10. ISBN 978-3-319-58800-1. ISSN  1865-1356. OCLC  909580101. Archivado desde el original el 27 de noviembre de 2020 . Consultado el 7 de septiembre de 2019 .
  27. ^ Everts, Sarah (2016). «Sobrecarga de información». Destilaciones . Vol. 2, núm. 2. págs. 26–33. Archivado desde el original el 3 de abril de 2019. Consultado el 22 de marzo de 2018 .
  28. ^ Abraham; Targio Hashem, Abaker; Yaqoob, Ibrar; Badrul Anuar, ni; Mokhtar, Salimah; Gani, Abdullah; Ullah Khan, Samee (2015). "Big Data" sobre computación en la nube: revisión y temas de investigación abierta". Sistemas de información . 47 : 98–115. doi : 10.1016/j.is.2014.07.006. S2CID  205488005.
  29. ^ Grimes, Seth. "Big Data: Evitar la confusión sobre 'Wanna V'". InformationWeek . Archivado desde el original el 23 de diciembre de 2015. Consultado el 5 de enero de 2016 .
  30. ^ Fox, Charles (25 de marzo de 2018). Data Science for Transport. Springer Textbooks in Earth Sciences, Geography and Environment. Springer. ISBN 9783319729527Archivado desde el original el 1 de abril de 2018 . Consultado el 31 de marzo de 2018 .
  31. ^ Kitchin, Rob; McArdle, Gavin (2016). "¿Qué hace que Big Data sea Big Data? Explorando las características ontológicas de 26 conjuntos de datos". Big Data & Society . 3 : 1–10. doi : 10.1177/2053951716631130 . S2CID  55539845.
  32. ^ Balazka, Dominik; Rodighiero, Dario (2020). "Big Data and the Little Big Bang: An Epistemological (R)evolution". Frontiers in Big Data. 3: 31. doi:10.3389/fdata.2020.00031. hdl:1721.1/128865. PMC 7931920. PMID 33693404.
  33. ^ "avec focalisation sur Big Data & Analytique" (PDF). Bigdataparis.com. Archived from the original (PDF) on 25 February 2021. Retrieved 8 October 2017.
  34. ^ a b Billings S.A. "Nonlinear System Identification: NARMAX Methods in the Time, Frequency, and Spatio-Temporal Domains". Wiley, 2013
  35. ^ "le Blog ANDSI » DSI Big Data". Andsi.fr. Archived from the original on 10 October 2017. Retrieved 8 October 2017.
  36. ^ Les Echos (3 April 2013). "Les Echos – Big Data car Low-Density Data ? La faible densité en information comme facteur discriminant – Archives". Lesechos.fr. Archived from the original on 30 April 2014. Retrieved 8 October 2017.
  37. ^ Sagiroglu, Seref (2013). "Big data: A review". 2013 International Conference on Collaboration Technologies and Systems (CTS). pp. 42–47. doi:10.1109/CTS.2013.6567202. ISBN 978-1-4673-6404-1. S2CID 5724608.
  38. ^ Kitchin, Rob; McArdle, Gavin (17 February 2016). "What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets". Big Data & Society. 3 (1): 205395171663113. doi:10.1177/2053951716631130.
  39. ^ Onay, Ceylan; Öztürk, Elif (2018). "A review of credit scoring research in the age of Big Data". Journal of Financial Regulation and Compliance. 26 (3): 382–405. doi:10.1108/JFRC-06-2017-0054. S2CID 158895306.
  40. ^ Big Data's Fourth V
  41. ^ "Measuring the Business Value of Big Data | IBM Big Data & Analytics Hub". www.ibmbigdatahub.com. Archived from the original on 28 January 2021. Retrieved 20 January 2021.
  42. ^ Kitchin, Rob; McArdle, Gavin (5 January 2016). "What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets". Big Data & Society. 3 (1): 205395171663113. doi:10.1177/2053951716631130. ISSN 2053-9517.
  43. ^ "Survey: Biggest Databases Approach 30 Terabytes". Eweek.com. 8 November 2003. Retrieved 8 October 2017.
  44. ^ "LexisNexis To Buy Seisint For $775 Million". The Washington Post. Archived from the original on 24 July 2008. Retrieved 15 July 2004.
  45. ^ "The Washington Post". The Washington Post. Archived from the original on 19 October 2016. Retrieved 24 August 2017.
  46. ^ Bertolucci, Jeff "Hadoop: From Experiment To Leading Big Data Platform" Archived 23 November 2020 at the Wayback Machine, "Information Week", 2013. Retrieved on 14 November 2013.
  47. ^ Webster, John. "MapReduce: Simplified Data Processing on Large Clusters" Archived 14 December 2009 at the Wayback Machine, "Search Storage", 2004. Retrieved on 25 March 2013.
  48. ^ "Big Data Solution Offering". MIKE2.0. Archived from the original on 16 March 2013. Retrieved 8 December 2013.
  49. ^ "Big Data Definition". MIKE2.0. Archived from the original on 25 September 2018. Retrieved 9 March 2013.
  50. ^ Boja, C; Pocovnicu, A; Bătăgan, L. (2012). "Distributed Parallel Architecture for Big Data". Informatica Economica. 16 (2): 116–127.
  51. ^ "Solving Key Business Challenges With a Big Data Lake" (PDF). Hcltech.com. August 2014. Archived (PDF) from the original on 3 July 2017. Retrieved 8 October 2017.
  52. ^ "Method for testing the fault tolerance of MapReduce frameworks" (PDF). Computer Networks. 2015. Archived (PDF) from the original on 22 July 2016. Retrieved 13 April 2016.
  53. ^ a b Manyika, James; Chui, Michael; Bughin, Jaques; Brown, Brad; Dobbs, Richard; Roxburgh, Charles; Byers, Angela Hung (May 2011). "Big Data: The next frontier for innovation, competition, and productivity" (PDF). McKinsey Global Institute. Archived (PDF) from the original on 25 July 2021. Retrieved 22 May 2021.
  54. ^ "Future Directions in Tensor-Based Computation and Modeling" (PDF). May 2009. Archived (PDF) from the original on 17 April 2018. Retrieved 4 January 2013.
  55. ^ Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). "A Survey of Multilinear Subspace Learning for Tensor Data" (PDF). Pattern Recognition. 44 (7): 1540–1551. Bibcode:2011PatRe..44.1540L. doi:10.1016/j.patcog.2011.01.004. Archived (PDF) from the original on 10 July 2019. Retrieved 21 January 2013.
  56. ^ Pllana, Sabri; Janciak, Ivan; Brezany, Peter; Wöhrer, Alexander (2016). "A Survey of the State of the Art in Data Mining and Integration Query Languages". 2011 14th International Conference on Network-Based Information Systems. IEEE Computer Society. pp. 341–348. arXiv:1603.01113. Bibcode:2016arXiv160301113P. doi:10.1109/NBiS.2011.58. ISBN 978-1-4577-0789-6. S2CID 9285984.
  57. ^ Wang, Yandong; Goldstone, Robin; Yu, Weikuan; Wang, Teng (October 2014). "Characterization and Optimization of Memory-Resident MapReduce on HPC Systems". 2014 IEEE 28th International Parallel and Distributed Processing Symposium. IEEE. pp. 799–808. doi:10.1109/IPDPS.2014.87. ISBN 978-1-4799-3800-1. S2CID 11157612.
  58. ^ L'Heureux, A.; Grolinger, K.; Elyamany, H. F.; Capretz, M. A. M. (2017). "Machine Learning With Big Data: Challenges and Approaches". IEEE Access. 5: 7776–7797. Bibcode:2017IEEEA...5.7776L. doi:10.1109/ACCESS.2017.2696365. ISSN 2169-3536.
  59. ^ Monash, Curt (30 April 2009). "eBay's two enormous data warehouses". Archived from the original on 31 March 2019. Retrieved 11 November 2010.
    Monash, Curt (6 October 2010). "eBay followup – Greenplum out, Teradata > 10 petabytes, Hadoop has some value, and more". Archived from the original on 31 March 2019. Retrieved 11 November 2010.
  60. ^ "Resources on how Topological Data Analysis is used to analyze big data". Ayasdi. Archived from the original on 3 March 2013. Retrieved 5 March 2013.
  61. ^ CNET News (1 April 2011). "Storage area networks need not apply". Archived from the original on 18 October 2013. Retrieved 17 April 2013.
  62. ^ Hilbert, Martin (2014). "What is the Content of the World's Technologically Mediated Information and Communication Capacity: How Much Text, Image, Audio, and Video?". The Information Society. 30 (2): 127–143. doi:10.1080/01972243.2013.873748. S2CID 45759014. Archived from the original on 24 June 2020. Retrieved 12 July 2019.
  63. ^ Rajpurohit, Anmol (11 July 2014). "Interview: Amy Gershkoff, Director of Customer Analytics & Insights, eBay on How to Design Custom In-House BI Tools". KDnuggets. Archived from the original on 14 July 2014. Retrieved 14 July 2014. Generally, I find that off-the-shelf business intelligence tools do not meet the needs of clients who want to derive custom insights from their data. Therefore, for medium-to-large organizations with access to strong technical talent, I usually recommend building custom, in-house solutions.
  64. ^ "The Government and big data: Use, problems and potential". Computerworld. 21 March 2012. Archived from the original on 15 September 2016. Retrieved 12 September 2016.
  65. ^ "White Paper: Big Data for Development: Opportunities & Challenges". Global Pulse. United Nations. 2012. Archived from the original on 1 June 2020. Retrieved 13 April 2016.
  66. ^ "Big Data, Big Impact: New Possibilities for International Development". World Economic Forum & Vital Wave Consulting. Archived from the original on 1 June 2020. Retrieved 24 August 2012.
  67. ^ a b c d e Hilbert 2016.
  68. ^ "Elena Kvochko, Four Ways To talk About Big Data (Information Communication Technologies for Development Series)". worldbank.org. 4 December 2012. Archived from the original on 15 December 2012. Retrieved 30 May 2012.
  69. ^ "Daniele Medri: Big Data & Business: An on-going revolution". Statistics Views. 21 October 2013. Archived from the original on 17 June 2015. Retrieved 21 June 2015.
  70. ^ Tobias Knobloch and Julia Manske (11 January 2016). "Responsible use of data". D+C, Development and Cooperation. Archived from the original on 13 January 2017. Retrieved 11 January 2017.
  71. ^ Mann, S., & Hilbert, M. (2020). AI4D: Artificial Intelligence for Development. International Journal of Communication, 14(0), 21. https://www.martinhilbert.net/ai4d-artificial-intelligence-for-development/ Archived 22 April 2021 at the Wayback Machine
  72. ^ Blumenstock, J. E. (2016). Fighting poverty with data. Science, 353(6301), 753–754. https://doi.org/10.1126/science.aah5217 Archived 1 June 2022 at the Wayback Machine
  73. ^ Blumenstock, J., Cadamuro, G., & On, R. (2015). Predicting poverty and wealth from mobile phone metadata. Science, 350(6264), 1073–1076. https://doi.org/10.1126/science.aac4420 Archived 1 June 2022 at the Wayback Machine
  74. ^ Jean, N., Burke, M., Xie, M., Davis, W. M., Lobell, D. B., & Ermon, S. (2016). Combining satellite imagery and machine learning to predict poverty. Science, 353(6301), 790–794. https://doi.org/10.1126/science.aaf7894 Archived 1 June 2022 at the Wayback Machine
  75. ^ a b Hilbert, M., & Lu, K. (2020). The online job market trace in Latin America and the Caribbean (UN ECLAC LC/TS.2020/83; p. 79). United Nations Economic Commission for Latin America and the Caribbean. https://www.cepal.org/en/publications/45892-online-job-market-trace-latin-america-and-caribbean Archived 22 September 2020 at the Wayback Machine
  76. ^ UN ECLAC, (United Nations Economic Commission for Latin America and the Caribbean). (2020). Tracking the digital footprint in Latin America and the Caribbean: Lessons learned from using big data to assess the digital economy (Productive Development, Gender Affairs LC/TS.2020/12; Documentos de Proyecto). United Nations ECLAC. https://repositorio.cepal.org/handle/11362/45484 Archived 18 September 2020 at the Wayback Machine
  77. ^ Banerjee, Amitav; Chaudhury, Suprakash (2010). "Statistics without tears: Populations and samples". Industrial Psychiatry Journal. 19 (1): 60–65. doi:10.4103/0972-6748.77642. ISSN 0972-6748. PMC 3105563. PMID 21694795.
  78. ^ Aldridge, Irene (2016). Real-Time Risk : What Investors Should Know about FinTech, High-Frequency Trading, and Flash Crashes. Steven Krawciw. Somerset: John Wiley & Sons, Incorporated. ISBN 978-1-119-31906-1. OCLC 972292212.
  79. ^ Aldridge, Irene (2021). Big data science in finance. Marco Avellaneda. Hoboken, New Jersey: Wiley. ISBN 978-1-119-60297-2. OCLC 1184122216.
  80. ^ Hasan, Md. Morshadul; Popp, József; Oláh, Judit (12 March 2020). "Current landscape and influence of big data on finance". Journal of Big Data. 7 (1): 21. doi:10.1186/s40537-020-00291-z. ISSN 2196-1115.
  81. ^ Huser V, Cimino JJ (July 2016). "Impending Challenges for the Use of Big Data". International Journal of Radiation Oncology, Biology, Physics. 95 (3): 890–894. doi:10.1016/j.ijrobp.2015.10.060. PMC 4860172. PMID 26797535.
  82. ^ Sejdic, Ervin; Falk, Tiago H. (4 July 2018). Signal Processing and Machine Learning for Biomedical Big Data. Sejdić, Ervin, Falk, Tiago H. [Place of publication not identified]. ISBN 9781351061216. OCLC 1044733829.{{cite book}}: CS1 maint: location missing publisher (link)
  83. ^ Raghupathi W, Raghupathi V (December 2014). "Big data analytics in healthcare: promise and potential". Health Information Science and Systems. 2 (1): 3. doi:10.1186/2047-2501-2-3. PMC 4341817. PMID 25825667.
  84. ^ Viceconti M, Hunter P, Hose R (July 2015). "Big data, big knowledge: big data for personalized healthcare" (PDF). IEEE Journal of Biomedical and Health Informatics. 19 (4): 1209–15. doi:10.1109/JBHI.2015.2406883. PMID 26218867. S2CID 14710821. Archived (PDF) from the original on 23 July 2018. Retrieved 21 September 2019.
  85. ^ O'Donoghue, John; Herbert, John (1 October 2012). "Data Management Within mHealth Environments: Patient Sensors, Mobile Devices, and Databases". Journal of Data and Information Quality. 4 (1): 5:1–5:20. doi:10.1145/2378016.2378021. S2CID 2318649.
  86. ^ Mirkes EM, Coats TJ, Levesley J, Gorban AN (August 2016). "Handling missing data in large healthcare dataset: A case study of unknown trauma outcomes". Computers in Biology and Medicine. 75: 203–16. arXiv:1604.00627. Bibcode:2016arXiv160400627M. doi:10.1016/j.compbiomed.2016.06.004. PMID 27318570. S2CID 5874067.
  87. ^ Murdoch TB, Detsky AS (April 2013). "The inevitable application of big data to health care". JAMA. 309 (13): 1351–2. doi:10.1001/jama.2013.393. PMID 23549579. S2CID 20462354.
  88. ^ Vayena E, Salathé M, Madoff LC, Brownstein JS (February 2015). "Ethical challenges of big data in public health". PLOS Computational Biology. 11 (2): e1003904. Bibcode:2015PLSCB..11E3904V. doi:10.1371/journal.pcbi.1003904. PMC 4321985. PMID 25664461.
  89. ^ Copeland, CS (July–August 2017). "Data Driving Discovery" (PDF). Healthcare Journal of New Orleans: 22–27. Archived (PDF) from the original on 5 December 2019. Retrieved 5 December 2019.
  90. ^ Yanase & Triantaphyllou 2019.
  91. ^ Dong X, Bahroos N, Sadhu E, Jackson T, Chukhman M, Johnson R, Boyd A, Hynes D (2013). "Leverage Hadoop framework for large scale clinical informatics applications". AMIA Joint Summits on Translational Science Proceedings. AMIA Joint Summits on Translational Science. 2013: 53. PMID 24303235.
  92. ^ Clunie, D. (2013). "Breast tomosynthesis challenges digital imaging infrastructure". Science and Medicine Group. Archived from the original on 24 February 2021. Retrieved 28 November 2023.
  93. ^ Yanase J, Triantaphyllou E (2019b). "The Seven Key Challenges for the Future of Computer-Aided Diagnosis in Medicine". International Journal of Medical Informatics. 129: 413–22. doi:10.1016/j.ijmedinf.2019.06.017. PMID 31445285. S2CID 198287435.
  94. ^ "Degrees in Big Data: Fad or Fast Track to Career Success". Forbes. Archived from the original on 3 March 2016. Retrieved 21 February 2016.
  95. ^ "NY gets new boot camp for data scientists: It's free but harder to get into than Harvard". Venture Beat. Archived from the original on 15 February 2016. Retrieved 21 February 2016.
  96. ^ Wedel, Michel; Kannan, PK (2016). "Marketing Analytics for Data-Rich Environments". Journal of Marketing. 80 (6): 97–121. doi:10.1509/jm.15.0413. S2CID 168410284.
  97. ^ Couldry, Nick; Turow, Joseph (2014). "Advertising, Big Data, and the Clearance of the Public Realm: Marketers' New Approaches to the Content Subsidy". International Journal of Communication. 8: 1710–1726.
  98. ^ "Why Digital Advertising Agencies Suck at Acquisition and are in Dire Need of an AI Assisted Upgrade". Ishti.org. 15 April 2018. Archived from the original on 12 February 2019. Retrieved 15 April 2018.
  99. ^ "Big data and analytics: C4 and Genius Digital". Ibc.org. Archived from the original on 8 October 2017. Retrieved 8 October 2017.
  100. ^ Marshall Allen (17 July 2018). "Health Insurers Are Vacuuming Up Details About You – And It Could Raise Your Rates". www.propublica.org. Archived from the original on 21 July 2018. Retrieved 21 July 2018.
  101. ^ "QuiO Named Innovation Champion of the Accenture HealthTech Innovation Challenge". Businesswire.com. 10 January 2017. Archived from the original on 22 March 2017. Retrieved 8 October 2017.
  102. ^ "A Software Platform for Operational Technology Innovation" (PDF). Predix.com. Archived from the original (PDF) on 22 March 2017. Retrieved 8 October 2017.
  103. ^ Z. Jenipher Wang (March 2017). "Big Data Driven Smart Transportation: the Underlying Story of IoT Transformed Mobility". Archived from the original on 4 July 2018. Retrieved 4 July 2018.
  104. ^ "That Internet Of Things Thing". 22 June 2009. Archived from the original on 2 May 2013. Retrieved 29 December 2017.
  105. ^ a b Solnik, Ray. "The Time Has Come: Analytics Delivers for IT Operations". Data Center Journal. Archived from the original on 4 August 2016. Retrieved 21 June 2016.
  106. ^ "BigSurv: Big Data se une a la ciencia de las encuestas" . Consultado el 15 de octubre de 2023 .
  107. ^ Eck, Adán; Cazar, Ana Lucía Córdova; Callegaro, Mario; Biemer, Paul (2021). ""Big Data se encuentra con la ciencia de las encuestas"". Revisión de informática de ciencias sociales . 39 (4): 484–488. doi : 10.1177/0894439319883393 .
  108. ^ "Número especial: Big data se encuentra con la ciencia de las encuestas". Revista de la Royal Statistical Society, Serie A . 185 (S2): S165–S166.
  109. ^ "Integración de datos de encuestas y no encuestas para medir el comportamiento y la opinión pública". www.springeropen.com . Consultado el 19 de octubre de 2023 .
  110. ^ Hill, Craig A.; Biemer, Paul P.; Buskirk, Trent D.; Japec, Lilli; Kirchner, Antje; Kolenikov, Stas; Lyberg, Lars E., eds. (13 de octubre de 2020). Big Data Meets Survey Science: A Collection of Innovative Methods (1.ª ed.). Wiley. doi :10.1002/9781118976357. ISBN 978-1-118-97632-6. Número de identificación del sujeto  240797608.
  111. ^ "Ganadores anteriores del premio Warren J. Mitofsky Innovators Award - AAPOR". 7 de junio de 2023. Consultado el 19 de octubre de 2023 .
  112. ^ ab Strong, Colin (2015). Humanizar el big data: el marketing en el encuentro de los datos, las ciencias sociales y el conocimiento del consumidor . Londres: Kogan Page. ISBN 978-0-7494-7211-5.
  113. ^ Berisha, B., Mëziu, E. y Shabani, I. (2022). Análisis de big data en computación en la nube: una descripción general. Journal of Cloud Computing , 11 (1), 1-10. doi :10.1186/s13677-022-00301-w
  114. ^ Bosch, Volker (1 de noviembre de 2016). "Big Data en la investigación de mercados: por qué más datos no significa automáticamente mejor información". NIM Marketing Intelligence Review . 8 (2): 56–63. doi :10.1515/gfkmir-2016-0017.
  115. ^ McFarland, Daniel A; McFarland, H Richard (1 de diciembre de 2015). "Big Data y el peligro de ser precisamente inexacto". Big Data & Society . 2 (2): 205395171560249. doi :10.1177/2053951715602495. ISSN  2053-9517.
  116. ^ Sivarajah, Uthayasankar; Kamal, Muhammad Mustafa; Irani, Zahir; Weerakkody, Vishanth (1 de enero de 2017). "Análisis crítico de los desafíos y métodos analíticos del Big Data". Revista de investigación empresarial . 70 : 263–286. doi :10.1016/j.jbusres.2016.08.001. ISSN  0148-2963.
  117. ^ abc De Luca, Luigi M.; Herhausen, Dennis; Troilo, Gabriele; Rossi, Andrea (1 de julio de 2021). "¿Cómo y cuándo dan resultado las inversiones en big data? El papel de las posibilidades de marketing y la innovación en servicios". Revista de la Academia de Ciencias del Marketing . 49 (4): 790–810.
  118. ^ Ghasemaghaei, Maryam; Calic, Goran (enero de 2020). "Evaluación del impacto del big data en el desempeño de la innovación de las empresas: el big data no siempre es mejor". Journal of Business Research . 108 : 147–162. doi :10.1016/j.jbusres.2019.09.062. ISSN  0148-2963.
  119. ^ Grybauskas, Andrius; Pilinkienė, Vaida; Stundžienė, Alina (3 de agosto de 2021). "Análisis predictivo utilizando Big Data para el mercado inmobiliario durante la pandemia de COVID-19". Revista de Big Data . 8 (1): 105. doi :10.1186/s40537-021-00476-0. ISSN  2196-1115. PMC 8329615. PMID 34367876.
  120. ^ Josh Rogin (2 de agosto de 2018). "La limpieza étnica vuelve a la normalidad en China". N.º 1. Washington Post. Archivado del original el 31 de marzo de 2019. Consultado el 4 de agosto de 2018. A eso hay que añadir el estado de seguridad y vigilancia sin precedentes en Xinjiang, que incluye un control integral basado en documentos de identidad, puestos de control, reconocimiento facial y la recolección de ADN de millones de personas. Las autoridades introducen todos estos datos en una máquina de inteligencia artificial que evalúa la lealtad de las personas al Partido Comunista para controlar todos los aspectos de sus vidas.
  121. ^ "China: Big Data impulsa represión en región minoritaria: programa de vigilancia predictiva señala a individuos para investigaciones y detenciones". hrw.org . Human Rights Watch. 26 de febrero de 2018. Archivado desde el original el 21 de diciembre de 2019 . Consultado el 4 de agosto de 2018 .
  122. ^ "Disciplina y castigo: el nacimiento del sistema de crédito social de China". The Nation . 23 de enero de 2019. Archivado desde el original el 13 de septiembre de 2019 . Consultado el 8 de agosto de 2019 .
  123. ^ "El sistema de monitoreo de conducta de China prohíbe a algunas personas viajar y comprar propiedades". CBS News . 24 de abril de 2018. Archivado desde el original el 13 de agosto de 2019 . Consultado el 8 de agosto de 2019 .
  124. ^ "La complicada verdad sobre el sistema de crédito social de China". WIRED . 21 de enero de 2019. Archivado desde el original el 8 de agosto de 2019 . Consultado el 8 de agosto de 2019 .
  125. ^ "Noticias: Live Mint". ¿Las empresas indias están entendiendo lo suficiente el Big Data? . Live Mint. 23 de junio de 2014. Archivado desde el original el 29 de noviembre de 2014. Consultado el 22 de noviembre de 2014 .
  126. ^ "Una startup israelí utiliza big data y hardware mínimo para tratar la diabetes". The Times of Israel . Archivado desde el original el 1 de marzo de 2018. Consultado el 28 de febrero de 2018 .
  127. ^ Singh, Gurparkash; Schulthess, Duane; Hughes, Nigel; Vannieuwenhuyse, Bart; Kalra, Dipak (2018). "Big data del mundo real para la investigación clínica y el desarrollo de fármacos". Drug Discovery Today . 23 (3): 652–660. doi : 10.1016/j.drudis.2017.12.002 . PMID  29294362.
  128. ^ "Avances recientes de la computación en la nube móvil y la Internet de las cosas para aplicaciones de Big Data: una encuesta". Revista internacional de gestión de redes. 11 de marzo de 2016. Archivado desde el original el 1 de junio de 2022. Consultado el 14 de septiembre de 2016 .
  129. ^ Kalil, Tom (29 de marzo de 2012). "Big Data is a Big Deal". whitehouse.gov . Archivado desde el original el 10 de enero de 2017. Consultado el 26 de septiembre de 2012 a través de National Archives .
  130. ^ Oficina Ejecutiva del Presidente (marzo de 2012). "Big Data en el Gobierno Federal" (PDF) . Oficina de Política Científica y Tecnológica . Archivado (PDF) del original el 21 de enero de 2017. Consultado el 26 de septiembre de 2012 a través de Archivos Nacionales .
  131. ^ Lampitt, Andrew (14 de febrero de 2013). «La verdadera historia de cómo el análisis de big data ayudó a Obama a ganar». InfoWorld . Archivado desde el original el 5 de julio de 2014. Consultado el 31 de mayo de 2014 .
  132. ^ "Noviembre 2023 | TOP500". Archivado desde el original el 7 de abril de 2024. Consultado el 20 de abril de 2024 .
  133. ^ Hoover, J. Nicholas. "Las 10 supercomputadoras más poderosas del gobierno". Information Week . UBM. Archivado desde el original el 16 de octubre de 2013. Consultado el 26 de septiembre de 2012 .
  134. ^ Bamford, James (15 de marzo de 2012). "La NSA está construyendo el mayor centro de espionaje del país (cuidado con lo que dices)". Wired . Archivado desde el original el 4 de abril de 2012. Consultado el 18 de marzo de 2013 .
  135. ^ "Se celebró la ceremonia inaugural del centro de datos de Utah, valorado en 1200 millones de dólares". Agencia de Seguridad Nacional, Servicio Central de Seguridad. Archivado desde el original el 5 de septiembre de 2013. Consultado el 18 de marzo de 2013 .
  136. ^ Hill, Kashmir. "Los planos del ridículamente caro centro de datos de la NSA en Utah sugieren que contiene menos información de la que se pensaba". Forbes . Archivado desde el original el 29 de marzo de 2018. Consultado el 31 de octubre de 2013 .
  137. ^ Smith, Gerry; Hallman, Ben (12 de junio de 2013). «La polémica por el espionaje de la NSA pone de relieve la adopción del Big Data». Huffington Post . Archivado desde el original el 19 de julio de 2017 . Consultado el 7 de mayo de 2018 .
  138. ^ Wingfield, Nick (12 de marzo de 2013). "Predicción de los desplazamientos diarios con mayor precisión para los posibles compradores de viviendas". The New York Times . Archivado desde el original el 29 de mayo de 2013. Consultado el 21 de julio de 2013 .
  139. ^ "FICO® Falcon® Fraud Manager". Fico.com. Archivado desde el original el 11 de noviembre de 2012. Consultado el 21 de julio de 2013 .
  140. ^ Brynjolfsson, Erik; Hu, Yu Jeffrey; Rahman, Mohammad S. (21 de mayo de 2013). "Competir en la era del comercio minorista omnicanal". MIT Sloan Management Review .
  141. ^ Alexandru, Dan. "Prof" (PDF) . cds.cern.ch . CERN. Archivado (PDF) del original el 15 de julio de 2017 . Consultado el 24 de marzo de 2015 .
  142. ^ "Folleto del LHC, versión en inglés. Presentación del mayor y más potente acelerador de partículas del mundo, el Gran Colisionador de Hadrones (LHC), que se puso en marcha en 2008. Se explican su papel, características, tecnologías, etc. para el público en general". Folleto del LHC, versión en inglés . CERN. Archivado desde el original el 19 de marzo de 2019. Consultado el 20 de enero de 2013 .
  143. ^ "Guía del LHC, versión en inglés. Una recopilación de datos y cifras sobre el Gran Colisionador de Hadrones (LHC) en forma de preguntas y respuestas". CERN-Brochure-2008-001-Eng. Guía del LHC, versión en inglés . CERN. Archivado desde el original el 7 de abril de 2020. Consultado el 20 de enero de 2013 .
  144. ^ Brumfiel, Geoff (19 January 2011). "High-energy physics: Down the petabyte highway". Nature. 469 (7330): 282–83. Bibcode:2011Natur.469..282B. doi:10.1038/469282a. PMID 21248814. S2CID 533166.
  145. ^ "IBM Research – Zurich" (PDF). Zurich.ibm.com. Archived from the original on 1 June 2022. Retrieved 8 October 2017.
  146. ^ "Future telescope array drives development of Exabyte processing". Ars Technica. 2 April 2012. Archived from the original on 31 March 2019. Retrieved 15 April 2015.
  147. ^ "Australia's bid for the Square Kilometre Array – an insider's perspective". The Conversation. 1 February 2012. Archived from the original on 12 October 2016. Retrieved 27 September 2016.
  148. ^ "Delort P., OECD ICCP Technology Foresight Forum, 2012" (PDF). Oecd.org. Archived (PDF) from the original on 19 June 2017. Retrieved 8 October 2017.
  149. ^ "NASA – NASA Goddard Introduces the NASA Center for Climate Simulation". Nasa.gov. Archived from the original on 3 April 2016. Retrieved 13 April 2016.
  150. ^ Webster, Phil. "Supercomputing the Climate: NASA's Big Data Mission". CSC World. Computer Sciences Corporation. Archived from the original on 4 January 2013. Retrieved 18 January 2013.
  151. ^ "These six great neuroscience ideas could make the leap from lab to market". The Globe and Mail. 20 November 2014. Archived from the original on 11 October 2016. Retrieved 1 October 2016.
  152. ^ "DNAstack tackles massive, complex DNA datasets with Google Genomics". Google Cloud Platform. Archived from the original on 24 September 2016. Retrieved 1 October 2016.
  153. ^ "23andMe – Ancestry". 23andme.com. Archived from the original on 18 December 2016. Retrieved 29 December 2016.
  154. ^ a b Potenza, Alessandra (13 July 2016). "23andMe wants researchers to use its kits, in a bid to expand its collection of genetic data". The Verge. Archived from the original on 29 December 2016. Retrieved 29 December 2016.
  155. ^ "This Startup Will Sequence Your DNA, So You Can Contribute To Medical Research". Fast Company. 23 December 2016. Archived from the original on 29 December 2016. Retrieved 29 December 2016.
  156. ^ Seife, Charles. "23andMe Is Terrifying, but Not for the Reasons the FDA Thinks". Scientific American. Archived from the original on 29 December 2016. Retrieved 29 December 2016.
  157. ^ Zaleski, Andrew (22 June 2016). "This biotech start-up is betting your genes will yield the next wonder drug". CNBC. Archived from the original on 29 December 2016. Retrieved 29 December 2016.
  158. ^ Regalado, Antonio. "How 23andMe turned your DNA into a $1 billion drug discovery machine". MIT Technology Review. Archived from the original on 29 December 2016. Retrieved 29 December 2016.
  159. ^ "23andMe reports jump in requests for data in wake of Pfizer depression study | FierceBiotech". fiercebiotech.com. 22 August 2016. Archived from the original on 29 December 2016. Retrieved 29 December 2016.
  160. ^ Admire Moyo (23 October 2015). "Data scientists predict Springbok defeat". itweb.co.za. Archived from the original on 22 December 2015. Retrieved 12 December 2015.
  161. ^ Bai, Zhongbo; Bai, Xiaomei (2021). "Sports Big Data: Management, Analysis, Applications, and Challenges". Complexity. 2021: 1–11. doi:10.1155/2021/6676297.
  162. ^ Regina Pazvakavambwa (17 November 2015). "Predictive analytics, big data transform sports". itweb.co.za. Archived from the original on 22 December 2015. Retrieved 12 December 2015.
  163. ^ Dave Ryan (13 November 2015). "Sports: Where Big Data Finally Makes Sense". huffingtonpost.com. Archived from the original on 22 December 2015. Retrieved 12 December 2015.
  164. ^ Frank Bi. "How Formula One Teams Are Using Big Data To Get The Inside Edge". Forbes. Archived from the original on 20 December 2015. Retrieved 12 December 2015.
  165. ^ Tay, Liz. "Inside eBay's 90PB data warehouse". ITNews. Archived from the original on 15 February 2016. Retrieved 12 February 2016.
  166. ^ Layton, Julia (25 January 2006). "Amazon Technology". Money.howstuffworks.com. Archived from the original on 28 February 2013. Retrieved 5 March 2013.
  167. ^ "Scaling Facebook to 500 Million Users and Beyond". Facebook.com. Archived from the original on 5 July 2013. Retrieved 21 July 2013.
  168. ^ Constine, Josh (27 June 2017). "Facebook now has 2 billion monthly users… and responsibility". TechCrunch. Archived from the original on 27 December 2020. Retrieved 3 September 2018.
  169. ^ "Google Still Doing at Least 1 Trillion Searches Per Year". Search Engine Land. 16 January 2015. Archived from the original on 15 April 2015. Retrieved 15 April 2015.
  170. ^ Haleem, Abid; Javaid, Mohd; Khan, Ibrahim; Vaishya, Raju (2020). "Significant Applications of Big Data in COVID-19 Pandemic". Indian Journal of Orthopaedics. 54 (4): 526–528. doi:10.1007/s43465-020-00129-z. PMC 7204193. PMID 32382166.
  171. ^ Manancourt, Vincent (10 March 2020). "Coronavirus tests Europe's resolve on privacy". Politico. Archived from the original on 20 March 2020. Retrieved 30 October 2020.
  172. ^ Choudhury, Amit Roy (27 March 2020). "Gov in the Time of Corona". Gov Insider. Archived from the original on 20 March 2020. Retrieved 30 October 2020.
  173. ^ Cellan-Jones, Rory (11 February 2020). "China launches coronavirus 'close contact detector' app". BBC. Archived from the original on 28 February 2020. Retrieved 30 October 2020.
  174. ^ Siwach, Gautam; Esmailpour, Amir (March 2014). Encrypted Search & Cluster Formation in Big Data (PDF). ASEE 2014 Zone I Conference. University of Bridgeport, Bridgeport, Connecticut, US. Archived from the original (PDF) on 9 August 2014. Retrieved 26 July 2014.
  175. ^ "Obama Administration Unveils "Big Data" Initiative:Announces $200 Million in New R&D Investments" (PDF). Office of Science and Technology Policy. Archived (PDF) from the original on 21 January 2017 – via National Archives.
  176. ^ "AMPLab at the University of California, Berkeley". Amplab.cs.berkeley.edu. Archived from the original on 6 May 2011. Retrieved 5 March 2013.
  177. ^ "NSF Leads Federal Efforts in Big Data". National Science Foundation (NSF). 29 March 2012. Archived from the original on 31 March 2019. Retrieved 6 April 2018.
  178. ^ Timothy Hunter; Teodor Moldovan; Matei Zaharia; Justin Ma; Michael Franklin; Pieter Abbeel; Alexandre Bayen (October 2011). Scaling the Mobile Millennium System in the Cloud. Archived from the original on 31 March 2019. Retrieved 2 November 2012.
  179. ^ David Patterson (5 December 2011). "Computer Scientists May Have What It Takes to Help Cure Cancer". The New York Times. Archived from the original on 30 January 2017. Retrieved 26 February 2017.
  180. ^ "Secretary Chu Announces New Institute to Help Scientists Improve Massive Data Set Research on DOE Supercomputers". energy.gov. Archived from the original on 3 April 2019. Retrieved 2 November 2012.
  181. ^ Young, Shannon (30 May 2012). "Mass. governor, MIT announce big data initiative". Boston.com. Archived from the original on 29 July 2021. Retrieved 29 July 2021.
  182. ^ "Big Data @ CSAIL". Bigdata.csail.mit.edu. 22 February 2013. Archived from the original on 30 March 2013. Retrieved 5 March 2013.
  183. ^ "Big Data Public Private Forum". cordis.europa.eu. 1 September 2012. Archived from the original on 9 March 2021. Retrieved 16 March 2020.
  184. ^ "Alan Turing Institute to be set up to research big data". BBC News. 19 March 2014. Archived from the original on 18 August 2021. Retrieved 19 March 2014.
  185. ^ "Inspiration day at University of Waterloo, Stratford Campus". betakit.com/. Archived from the original on 26 February 2014. Retrieved 28 February 2014.
  186. ^ a b c Reips, Ulf-Dietrich; Matzat, Uwe (2014). "Mining "Big Data" using Big Data Services". International Journal of Internet Science. 1 (1): 1–8. Archived from the original on 14 August 2014. Retrieved 14 August 2014.
  187. ^ Preis T, Moat HS, Stanley HE, Bishop SR (2012). "Quantifying the advantage of looking forward". Scientific Reports. 2: 350. Bibcode:2012NatSR...2E.350P. doi:10.1038/srep00350. PMC 3320057. PMID 22482034.
  188. ^ Marks, Paul (5 April 2012). "Online searches for future linked to economic success". New Scientist. Archived from the original on 8 April 2012. Retrieved 9 April 2012.
  189. ^ Johnston, Casey (6 April 2012). "Google Trends reveals clues about the mentality of richer nations". Ars Technica. Archived from the original on 7 April 2012. Retrieved 9 April 2012.
  190. ^ Tobias Preis (24 May 2012). "Supplementary Information: The Future Orientation Index is available for download" (PDF). Archived (PDF) from the original on 17 January 2013. Retrieved 24 May 2012.
  191. ^ Philip Ball (26 April 2013). "Counting Google searches predicts market movements". Nature. doi:10.1038/nature.2013.12879. S2CID 167357427. Archived from the original on 27 September 2013. Retrieved 9 August 2013.
  192. ^ Preis T, Moat HS, Stanley HE (2013). "Quantifying trading behavior in financial markets using Google Trends". Scientific Reports. 3: 1684. Bibcode:2013NatSR...3E1684P. doi:10.1038/srep01684. PMC 3635219. PMID 23619126.
  193. ^ Nick Bilton (26 April 2013). "Google Search Terms Can Predict Stock Market, Study Finds". The New York Times. Archived from the original on 2 June 2013. Retrieved 9 August 2013.
  194. ^ Christopher Matthews (26 April 2013). "Trouble With Your Investment Portfolio? Google It!". Time. Archived from the original on 21 August 2013. Retrieved 9 August 2013.
  195. ^ Philip Ball (26 April 2013). "Counting Google searches predicts market movements". Nature. doi:10.1038/nature.2013.12879. S2CID 167357427. Archived from the original on 27 September 2013. Retrieved 9 August 2013.
  196. ^ Bernhard Warner (25 April 2013). "'Big Data' Researchers Turn to Google to Beat the Markets". Bloomberg Businessweek. Archived from the original on 23 July 2013. Retrieved 9 August 2013.
  197. ^ Hamish McRae (28 April 2013). "Hamish McRae: Need a valuable handle on investor sentiment? Google it". The Independent. London. Archived from the original on 25 July 2018. Retrieved 9 August 2013.
  198. ^ Richard Waters (25 April 2013). "Google search proves to be new word in stock market prediction". Financial Times. Archived from the original on 1 June 2022. Retrieved 9 August 2013.
  199. ^ Jason Palmer (25 April 2013). "Google searches predict market moves". BBC. Archived from the original on 5 June 2013. Retrieved 9 August 2013.
  200. ^ E. Sejdić (March 2014). "Adapt current tools for use with big data". Nature. 507 (7492): 306.
  201. ^ Chris Kimble; Giannis Milolidakis (7 October 2015). "Big Data and Business Intelligence: Debunking the Myths". Global Business and Organizational Excellence. 35 (1): 23–34. arXiv:1511.03085. doi:10.1002/JOE.21642. ISSN 1932-2054. Wikidata Q56532925.
  202. ^ Chris Anderson (23 June 2008). "The End of Theory: The Data Deluge Makes the Scientific Method Obsolete". Wired. Archived from the original on 27 March 2014. Retrieved 5 March 2017.
  203. ^ Graham M. (9 March 2012). "Big data and the end of theory?". The Guardian. London. Archived from the original on 24 July 2013. Retrieved 14 December 2016.
  204. ^ Shah, Shvetank; Horne, Andrew; Capellá, Jaime (April 2012). "Good Data Won't Guarantee Good Decisions". Harvard Business Review. Archived from the original on 11 September 2012. Retrieved 8 September 2012.
  205. ^ a b Big Data requires Big Visions for Big Change. Archived 2 December 2016 at the Wayback Machine, Hilbert, M. (2014). London: TEDx UCL, x=independently organized TED talks
  206. ^ Alemany Oliver, Mathieu; Vayre, Jean-Sebastien (2015). "Big Data and the Future of Knowledge Production in Marketing Research: Ethics, Digital Traces, and Abductive Reasoning". Journal of Marketing Analytics. 3 (1): 5–13. doi:10.1057/jma.2015.1. S2CID 111360835.
  207. ^ Jonathan Rauch (1 April 2002). "Seeing Around Corners". The Atlantic. Archived from the original on 4 April 2017. Retrieved 5 March 2017.
  208. ^ Epstein, J. M., & Axtell, R. L. (1996). Growing Artificial Societies: Social Science from the Bottom Up. A Bradford Book.
  209. ^ "Delort P., Big data in Biosciences, Big Data Paris, 2012" (PDF). Bigdata Paris. Archived from the original (PDF) on 30 July 2016. Retrieved 8 October 2017.
  210. ^ "Next-generation genomics: an integrative approach" (PDF). nature. July 2010. Archived (PDF) from the original on 13 August 2017. Retrieved 18 October 2016.
  211. ^ "Big Data in Biosciences". October 2015. Archived from the original on 1 June 2022. Retrieved 18 October 2016.
  212. ^ "Big data: are we making a big mistake?". Financial Times. 28 March 2014. Archived from the original on 30 June 2016. Retrieved 20 October 2016.
  213. ^ Ohm, Paul (23 August 2012). "Don't Build a Database of Ruin". Harvard Business Review. Archived from the original on 30 August 2012. Retrieved 29 August 2012.
  214. ^ Bond-Graham, Darwin (2018). "The Perspective on Big Data" Archived 9 November 2020 at the Wayback Machine. The Perspective.
  215. ^ Barocas, Solon; Nissenbaum, Helen; Lane, Julia; Stodden, Victoria; Bender, Stefan; Nissenbaum, Helen (June 2014). Big Data's End Run around Anonymity and Consent. Cambridge University Press. pp. 44–75. doi:10.1017/cbo9781107590205.004. ISBN 9781107067356. S2CID 152939392.
  216. ^ Lugmayr, A.; Stockleben, B; Scheib, C.; Mailaparampil, M.; Mesia, N.; Ranta, H.; Lab, E. (1 June 2016). "A Comprehensive Survey On Big-Data Research and Its Implications – What is Really 'New' in Big Data? – It's Cognitive Big Data!". Archived from the original on 1 June 2022. Retrieved 27 November 2023.
  217. ^ Danah Boyd (29 April 2010). "Privacy and Publicity in the Context of Big Data". WWW 2010 conference. Archived from the original on 22 October 2018. Retrieved 18 April 2011.
  218. ^ Katyal, Sonia K. (2019). "Artificial Intelligence, Advertising, and Disinformation". Advertising & Society Quarterly. 20 (4). doi:10.1353/asr.2019.0026. ISSN 2475-1790. S2CID 213397212. Archived from the original on 28 October 2020. Retrieved 18 November 2020.
  219. ^ Jones, MB; Schildhauer, MP; Reichman, OJ; Bowers, S (2006). "The New Bioinformatics: Integrating Ecological Data from the Gene to the Biosphere" (PDF). Annual Review of Ecology, Evolution, and Systematics. 37 (1): 519–544. doi:10.1146/annurev.ecolsys.37.091305.110031. Archived (PDF) from the original on 8 July 2019. Retrieved 19 September 2012.
  220. ^ a b Boyd, D.; Crawford, K. (2012). "Critical Questions for Big Data". Information, Communication & Society. 15 (5): 662–679. doi:10.1080/1369118X.2012.678878. hdl:10983/1320. S2CID 51843165.
  221. ^ Failure to Launch: From Big Data to Big Decisions Archived 6 December 2016 at the Wayback Machine, Forte Wares.
  222. ^ "15 Insane Things That Correlate with Each Other". Archived from the original on 27 June 2019. Retrieved 27 June 2019.
  223. ^ "Random structures & algorithms". Archived from the original on 27 June 2019. Retrieved 27 June 2019.
  224. ^ Cristian S. Calude, Giuseppe Longo, (2016), The Deluge of Spurious Correlations in Big Data, Foundations of Science
  225. ^ Anja Lambrecht and Catherine Tucker (2016) "The 4 Mistakes Most Managers Make with Analytics," Harvard Business Review, July 12. https://hbr.org/2016/07/the-4-mistakes-most-managers-make-with-analytics Archived 26 January 2022 at the Wayback Machine
  226. ^ a b Gregory Piatetsky (12 August 2014). "Interview: Michael Berthold, KNIME Founder, on Research, Creativity, Big Data, and Privacy, Part 2". KDnuggets. Archived from the original on 13 August 2014. Retrieved 13 August 2014.
  227. ^ Pelt, Mason (26 October 2015). ""Big Data" is an over used buzzword and this Twitter bot proves it". Siliconangle. Archived from the original on 30 October 2015. Retrieved 4 November 2015.
  228. ^ a b Harford, Tim (28 March 2014). "Big data: are we making a big mistake?". Financial Times. Archived from the original on 7 April 2014. Retrieved 7 April 2014.
  229. ^ Ioannidis JP (August 2005). "Why most published research findings are false". PLOS Medicine. 2 (8): e124. doi:10.1371/journal.pmed.0020124. PMC 1182327. PMID 16060722.
  230. ^ Lohr, Steve; Singer, Natasha (10 November 2016). "How Data Failed Us in Calling an Election". The New York Times. ISSN 0362-4331. Archived from the original on 25 November 2016. Retrieved 27 November 2016.
  231. ^ "How data-driven policing threatens human freedom". The Economist. 4 June 2018. ISSN 0013-0613. Archived from the original on 27 October 2019. Retrieved 27 October 2019.
  232. ^ Brayne, Sarah (29 August 2017). "Big Data Surveillance: The Case of Policing". American Sociological Review. 82 (5): 977–1008. doi:10.1177/0003122417725865. PMC 10846878. PMID 38322733. S2CID 3609838.

Bibliography

Further reading

External links