Grandes datos

Big data se refiere principalmente a conjuntos de datos que son demasiado grandes o complejos para ser tratados por el software de aplicación de procesamiento de datos tradicional . Los datos con muchas entradas (filas) ofrecen un mayor poder estadístico , mientras que los datos con mayor complejidad (más atributos o columnas) pueden generar una mayor tasa de descubrimiento falso . ^[2] Aunque a veces se usa de manera vaga, en parte debido a la falta de una definición formal, la mejor interpretación es que se trata de una gran cantidad de información que no se puede comprender cuando se usa solo en pequeñas cantidades. ^[3]

Los desafíos del análisis de big data incluyen capturar datos , almacenar datos , analizar datos , buscar, compartir , transferir , visualizar , consultar , actualizar, privacidad de la información y fuente de datos. Big data se asoció originalmente con tres conceptos clave: volumen , variedad y velocidad . ^[4] El análisis de big data presenta desafíos en el muestreo y, por lo tanto, anteriormente solo permitía observaciones y muestreos. Así, un cuarto concepto, veracidad, se refiere a la calidad o perspicacia de los datos. Sin una inversión suficiente en experiencia para la veracidad de los big data, el volumen y la variedad de datos pueden generar costos y riesgos que exceden la capacidad de una organización para crear y capturar valor a partir de big data . ^[5]

El uso actual del término big data tiende a referirse al uso de análisis predictivo , análisis del comportamiento del usuario u otros métodos avanzados de análisis de datos que extraen valor de big data y rara vez a un tamaño particular de conjunto de datos. "No hay duda de que las cantidades de datos disponibles ahora son realmente grandes, pero esa no es la característica más relevante de este nuevo ecosistema de datos". ^[6] El análisis de conjuntos de datos puede encontrar nuevas correlaciones para "detectar tendencias comerciales, prevenir enfermedades, combatir la delincuencia, etc.". ^[7] Tanto los científicos, los ejecutivos de negocios, los médicos, la publicidad como los gobiernos encuentran regularmente dificultades con grandes conjuntos de datos en áreas que incluyen búsquedas en Internet , tecnología financiera , análisis de atención médica, sistemas de información geográfica, informática urbana e informática empresarial . Los científicos encuentran limitaciones en el trabajo de e-Ciencia , incluida la meteorología , la genómica , ^[8] la conectómica , las simulaciones físicas complejas, la biología y la investigación ambiental. ^[9]

El tamaño y la cantidad de conjuntos de datos disponibles han crecido rápidamente a medida que los datos se recopilan mediante dispositivos como dispositivos móviles , numerosos y baratos dispositivos de Internet de las cosas que detectan información , antenas ( detección remota ), registros de software, cámaras , micrófonos, identificación por radiofrecuencia. Lectores (RFID) y redes de sensores inalámbricos . ^[10]^[11] La capacidad tecnológica per cápita del mundo para almacenar información se ha duplicado aproximadamente cada 40 meses desde la década de 1980; ^[12] a partir de 2012 ^[actualizar], cada día se generan 2,5 exabytes (2,17×2 ^{60 bytes) de datos.}^[13] Según una predicción de un informe de IDC , se predijo que el volumen global de datos crecería exponencialmente de 4,4 zettabytes a 44 zettabytes entre 2013 y 2020. Para 2025, IDC predice que habrá 163 zettabytes de datos. ^[14] Según IDC, se estima que el gasto mundial en soluciones de big data y análisis de negocios (BDA) alcanzará los 215 700 millones de dólares en 2021. ^[15]^[16] Según el informe de Statista , se prevé que el mercado mundial de big data crecerá hasta los 103 mil millones de dólares para 2027. ^[17] En 2011 , McKinsey & Company informó que si la atención sanitaria estadounidense utilizara big data de forma creativa y eficaz para impulsar la eficiencia y la calidad, el sector podría crear más de 300 mil millones de dólares en valor cada año. ^[18] En las economías desarrolladas de Europa, los administradores gubernamentales podrían ahorrar más de 100.000 millones de euros (149.000 millones de dólares) sólo en mejoras de la eficiencia operativa utilizando big data. ^[18] Y los usuarios de servicios habilitados por datos de ubicación personal podrían captar 600 mil millones de dólares en excedente del consumidor. ^[18] Una cuestión para las grandes empresas es determinar quién debería ser propietario de las iniciativas de big data que afectan a toda la organización. ^[19]

Los sistemas de gestión de bases de datos relacionales y los paquetes de software estadístico de escritorio utilizados para visualizar datos a menudo tienen dificultades para procesar y analizar big data. El procesamiento y análisis de big data puede requerir "software masivamente paralelo que se ejecute en decenas, cientos o incluso miles de servidores". ^[20] Lo que se considera "grandes datos" varía según las capacidades de quienes los analizan y sus herramientas. Además, la expansión de las capacidades convierte a los macrodatos en un objetivo móvil. "Para algunas organizaciones, enfrentarse a cientos de gigabytes de datos por primera vez puede provocar la necesidad de reconsiderar las opciones de gestión de datos. Para otras, pueden ser necesarias decenas o cientos de terabytes antes de que el tamaño de los datos se convierta en una consideración importante". ^[21]

Definición

El término big data se ha utilizado desde la década de 1990, y algunos le dan crédito a John Mashey por popularizar el término. ^[22]^[23] Big data generalmente incluye conjuntos de datos con tamaños que van más allá de la capacidad de las herramientas de software comúnmente utilizadas para capturar , curar , administrar y procesar datos dentro de un tiempo transcurrido tolerable. ^[24]^{[ página necesaria ]} La filosofía de Big Data abarca datos no estructurados, semiestructurados y estructurados; sin embargo, la atención se centra principalmente en los datos no estructurados. ^[25] El "tamaño" de los macrodatos es un objetivo en constante movimiento; a partir de 2012, ^[actualizar]van desde unas pocas docenas de terabytes hasta muchos zettabytes de datos. ^[26] Los macrodatos requieren un conjunto de técnicas y tecnologías con nuevas formas de integración para revelar conocimientos a partir de conjuntos de datos diversos, complejos y de escala masiva. ^[27]

Algunas organizaciones añaden "variedad", "veracidad" y varias otras "V" para describirlo, una revisión cuestionada por algunas autoridades de la industria. ^[28] Las V del big data a menudo se denominaban "tres V", "cuatro V" y "cinco V". Representaban las cualidades del big data en volumen, variedad, velocidad, veracidad y valor. ^[4] La variabilidad a menudo se incluye como una cualidad adicional del big data.

Una definición de 2018 establece que "Big data es donde se necesitan herramientas informáticas paralelas para manejar datos" y señala: "Esto representa un cambio distinto y claramente definido en la informática utilizada, a través de teorías de programación paralela, y pérdidas de algunas de las garantías y capacidades creadas por el modelo relacional de Codd ". ^[29]

En un estudio comparativo de grandes conjuntos de datos, Kitchin y McArdle descubrieron que ninguna de las características comúnmente consideradas de los grandes datos aparece de manera consistente en todos los casos analizados. ^[30] Por esta razón, otros estudios identificaron la redefinición de la dinámica de poder en el descubrimiento de conocimiento como el rasgo definitorio. ^[31] En lugar de centrarse en las características intrínsecas del big data, esta perspectiva alternativa impulsa una comprensión relacional del objeto afirmando que lo que importa es la forma en que los datos se recopilan, almacenan, ponen a disposición y analizan.

Big data versus inteligencia empresarial

La creciente madurez del concepto delinea más claramente la diferencia entre "grandes datos" e " inteligencia empresarial ": ^[32]

La inteligencia de negocios utiliza herramientas de matemáticas aplicadas y estadística descriptiva con datos con alta densidad de información para medir cosas, detectar tendencias, etc.
Big data utiliza análisis matemático, optimización, estadísticas inductivas y conceptos de identificación de sistemas no lineales ^[33] para inferir leyes (regresiones, relaciones no lineales y efectos causales) a partir de grandes conjuntos de datos con baja densidad de información ^[34] para revelar relaciones y dependencias. , o para realizar predicciones de resultados y comportamientos. ^[33]^[35]^{[ ¿ fuente promocional? ]}

Características

Big data se puede describir por las siguientes características:

Volumen: La cantidad de datos generados y almacenados. El tamaño de los datos determina el valor y el conocimiento potencial, y si se pueden considerar big data o no. El tamaño de los big data suele ser mayor que los terabytes y petabytes. ^[36]

Variedad: El tipo y naturaleza de los datos. Las tecnologías anteriores, como los RDBMS, eran capaces de manejar datos estructurados de manera eficiente y eficaz. Sin embargo, el cambio de tipo y naturaleza de estructurado a semiestructurado o no estructurado desafió las herramientas y tecnologías existentes. Las tecnologías de big data evolucionaron con la intención principal de capturar, almacenar y procesar datos semiestructurados y no estructurados (variedad) generados a alta velocidad (velocidad) y de gran tamaño (volumen). Posteriormente, estas herramientas y tecnologías se exploraron y utilizaron para manejar datos estructurados también, pero preferiblemente para almacenamiento. Finalmente, el procesamiento de datos estructurados se mantuvo como opcional, ya sea utilizando big data o RDBMS tradicionales. Esto ayuda a analizar los datos para lograr un uso eficaz de los conocimientos ocultos expuestos a partir de los datos recopilados a través de las redes sociales, archivos de registro, sensores, etc. Los macrodatos se basan en texto, imágenes, audio y vídeo; además, completa las piezas faltantes mediante la fusión de datos .

Velocidad: La velocidad a la que se generan y procesan los datos para satisfacer las demandas y desafíos que se encuentran en el camino del crecimiento y el desarrollo. Los macrodatos suelen estar disponibles en tiempo real. En comparación con los datos pequeños , los datos grandes se producen de forma más continua. Dos tipos de velocidad relacionados con big data son la frecuencia de generación y la frecuencia de manejo, registro y publicación. ^[37]

Veracidad: La veracidad o confiabilidad de los datos, que se refiere a la calidad de los datos y al valor de los mismos. ^[38] Los big data no sólo deben ser de gran tamaño, sino que también deben ser confiables para lograr valor en el análisis de los mismos. La calidad de los datos capturados puede variar mucho, lo que afecta un análisis preciso. ^[39]

Valor: El valor de la información que se puede lograr mediante el procesamiento y análisis de grandes conjuntos de datos. El valor también se puede medir mediante una evaluación de las otras cualidades del big data. ^[40] El valor también puede representar la rentabilidad de la información que se recupera del análisis de big data.

Variabilidad: La característica de los formatos, estructuras o fuentes cambiantes de big data. Big data puede incluir datos estructurados, no estructurados o combinaciones de datos estructurados y no estructurados. El análisis de big data puede integrar datos sin procesar de múltiples fuentes. El procesamiento de datos sin procesar también puede implicar transformaciones de datos no estructurados en datos estructurados.

Otras posibles características del big data son: ^[41]

Exhaustivo: Si todo el sistema (es decir, =todo) se captura o registra o no. Big data puede incluir o no todos los datos disponibles de las fuentes. ${\estilo de texto n}$

De grano fino y excepcionalmente léxico: Respectivamente, la proporción de datos específicos de cada elemento por elemento recogido y si el elemento y sus características están adecuadamente indexados o identificados.

Relacional: Si los datos recopilados contienen campos comunes que permitirían una combinación o metanálisis de diferentes conjuntos de datos.

Extensional: Si se pueden agregar o cambiar fácilmente nuevos campos en cada elemento de los datos recopilados.

Escalabilidad: Si el tamaño del sistema de almacenamiento de big data puede expandirse rápidamente.

Arquitectura

Los repositorios de big data han existido en muchas formas, a menudo creados por corporaciones con una necesidad especial. Históricamente, los proveedores comerciales ofrecieron sistemas de gestión de bases de datos paralelos para big data a partir de la década de 1990. Durante muchos años, WinterCorp publicó el informe de base de datos más grande. ^[42]^{[¿ fuente promocional? ]}

Teradata Corporation comercializó en 1984 el sistema de procesamiento paralelo DBC 1012 . Los sistemas Teradata fueron los primeros en almacenar y analizar 1 terabyte de datos en 1992. Las unidades de disco duro tenían 2,5 GB en 1991, por lo que la definición de big data evoluciona continuamente. Teradata instaló el primer sistema basado en RDBMS de clase petabyte en 2007. A partir de 2017 ^[actualizar], hay algunas docenas de bases de datos relacionales Teradata de clase petabyte instaladas, la mayor de las cuales supera los 50 PB. Los sistemas hasta 2008 eran 100% datos relacionales estructurados. Desde entonces, Teradata ha agregado tipos de datos no estructurados, incluidos XML , JSON y Avro.

En 2000, Seisint Inc. (ahora LexisNexis Risk Solutions ) desarrolló una plataforma distribuida basada en C++ para procesamiento y consulta de datos conocida como plataforma HPCC Systems . Este sistema particiona, distribuye, almacena y entrega automáticamente datos estructurados, semiestructurados y no estructurados en múltiples servidores básicos. Los usuarios pueden escribir consultas y canalizaciones de procesamiento de datos en un lenguaje de programación de flujo de datos declarativo llamado ECL. Los analistas de datos que trabajan en ECL no están obligados a definir esquemas de datos por adelantado y pueden centrarse en el problema particular en cuestión, remodelando los datos de la mejor manera posible a medida que desarrollan la solución. En 2004, LexisNexis adquirió Seisint Inc. ^[43] y su plataforma de procesamiento paralelo de alta velocidad y utilizó con éxito esta plataforma para integrar los sistemas de datos de Choicepoint Inc. cuando adquirieron esa empresa en 2008. ^[44] En 2011, los sistemas HPCC La plataforma era de código abierto bajo la licencia Apache v2.0.

El CERN y otros experimentos de física han recopilado grandes conjuntos de datos durante muchas décadas, generalmente analizados mediante computación de alto rendimiento en lugar de las arquitecturas de reducción de mapas que suele implicar el actual movimiento de "grandes datos".

En 2004, Google publicó un artículo sobre un proceso llamado MapReduce que utiliza una arquitectura similar. El concepto MapReduce proporciona un modelo de procesamiento paralelo y se lanzó una implementación asociada para procesar grandes cantidades de datos. Con MapReduce, las consultas se dividen y distribuyen entre nodos paralelos y se procesan en paralelo (el paso "mapa"). Luego, los resultados se recopilan y entregan (el paso de "reducir"). El marco tuvo mucho éxito, ^[45] por lo que otros quisieron replicar el algoritmo. Por lo tanto, un proyecto de código abierto de Apache llamado " Hadoop " adoptó una implementación del marco MapReduce . ^[46]Apache Spark se desarrolló en 2012 en respuesta a las limitaciones del paradigma MapReduce, ya que agrega procesamiento en memoria y la capacidad de configurar muchas operaciones (no solo mapear seguido de reducción).

MIKE2.0 es un enfoque abierto para la gestión de la información que reconoce la necesidad de revisiones debido a las implicaciones de big data identificadas en un artículo titulado "Oferta de soluciones de big data". ^[47] La metodología aborda el manejo de big data en términos de permutaciones útiles de fuentes de datos, complejidad en las interrelaciones y dificultad para eliminar (o modificar) registros individuales. ^[48]

Estudios realizados en 2012 demostraron que una arquitectura de múltiples capas era una opción para abordar los problemas que presenta el big data. Una arquitectura paralela distribuida distribuye datos entre múltiples servidores; Estos entornos de ejecución paralela pueden mejorar drásticamente las velocidades de procesamiento de datos. Este tipo de arquitectura inserta datos en un DBMS paralelo, que implementa el uso de los marcos MapReduce y Hadoop. Este tipo de marco busca hacer que la potencia de procesamiento sea transparente para el usuario final mediante el uso de un servidor de aplicaciones front-end. ^[49]

El lago de datos permite a una organización cambiar su enfoque del control centralizado a un modelo compartido para responder a la dinámica cambiante de la gestión de la información. Esto permite una rápida segregación de datos en el lago de datos, reduciendo así el tiempo general. ^[50]^[51]

Tecnologías

Un informe del McKinsey Global Institute de 2011 caracteriza los principales componentes y ecosistemas de big data de la siguiente manera: ^[52]

Técnicas para analizar datos, como pruebas A/B , aprendizaje automático y procesamiento del lenguaje natural.
Tecnologías de big data, como inteligencia empresarial , computación en la nube y bases de datos
Visualización, como cuadros, gráficos y otras visualizaciones de los datos.

Los big data multidimensionales también se pueden representar como cubos de datos OLAP o, matemáticamente, tensores . Los sistemas de bases de datos de matriz se han propuesto proporcionar almacenamiento y soporte de consultas de alto nivel sobre este tipo de datos. Las tecnologías adicionales que se están aplicando a big data incluyen computación eficiente basada en tensores, ^[53] como aprendizaje subespacial multilineal , ^[54] bases de datos de procesamiento masivo paralelo ( MPP ), aplicaciones basadas en búsqueda , minería de datos , ^[55] sistemas de archivos distribuidos , caché distribuido (por ejemplo, buffer de ráfaga y Memcached ), bases de datos distribuidas , infraestructura basada en la nube y HPC (aplicaciones, almacenamiento y recursos informáticos), ^[56] e Internet. ^{[ cita necesaria ]} Aunque se han desarrollado muchos enfoques y tecnologías, todavía sigue siendo difícil llevar a cabo el aprendizaje automático con big data. ^[57]

Algunas bases de datos relacionales MPP tienen la capacidad de almacenar y administrar petabytes de datos. Implícita está la capacidad de cargar, monitorear, realizar copias de seguridad y optimizar el uso de las grandes tablas de datos en el RDBMS . ^[58]^{[ ¿ fuente promocional? ]}

El programa de Análisis de Datos Topológicos de DARPA busca la estructura fundamental de conjuntos de datos masivos y en 2008 la tecnología se hizo pública con el lanzamiento de una empresa llamada "Ayasdi". ^[59]^{[ se necesita fuente de terceros ]}

Los profesionales de los procesos de análisis de big data son generalmente hostiles al almacenamiento compartido más lento, ^[60] prefiriendo el almacenamiento de conexión directa ( DAS ) en sus diversas formas, desde unidades de estado sólido ( SSD ) hasta discos SATA de alta capacidad enterrados dentro de nodos de procesamiento paralelo. La percepción de las arquitecturas de almacenamiento compartido ( red de área de almacenamiento (SAN) y almacenamiento conectado a la red (NAS)) es que son relativamente lentas, complejas y costosas. Estas cualidades no son consistentes con los sistemas de análisis de big data que prosperan gracias al rendimiento del sistema, la infraestructura básica y el bajo costo.

La entrega de información en tiempo real o casi real es una de las características definitorias del análisis de big data. Por lo tanto, se evita la latencia siempre que sea posible. Los datos en la memoria o el disco de conexión directa son buenos; los datos en la memoria o el disco en el otro extremo de una conexión FC SAN no lo son. El costo de una SAN a la escala necesaria para las aplicaciones de análisis es mucho mayor que el de otras técnicas de almacenamiento.

Aplicaciones

Los macrodatos han aumentado tanto la demanda de especialistas en gestión de la información que Software AG , Oracle Corporation , IBM , Microsoft , SAP , EMC , HP y Dell han gastado más de 15 mil millones de dólares en empresas de software especializadas en gestión y análisis de datos. En 2010, esta industria valía más de 100 mil millones de dólares y crecía casi un 10 por ciento al año, aproximadamente el doble de rápido que el negocio del software en su conjunto. ^[7]

Las economías desarrolladas utilizan cada vez más tecnologías con uso intensivo de datos. Hay 4.600 millones de suscripciones de telefonía móvil en todo el mundo y entre 1.000 y 2.000 millones de personas acceden a Internet. ^[7] Entre 1990 y 2005, más de mil millones de personas en todo el mundo ingresaron a la clase media, lo que significa que más personas se volvieron más alfabetizadas, lo que a su vez condujo a un crecimiento de la información. La capacidad efectiva del mundo para intercambiar información a través de redes de telecomunicaciones era de 281 petabytes en 1986, 471 petabytes en 1993, 2,2 exabytes en 2000, 65 exabytes en 2007 ^[12] y las predicciones sitúan la cantidad de tráfico de Internet en 667 exabytes anuales para 2014. ^{[7 ]} Según una estimación, un tercio de la información almacenada globalmente está en forma de texto alfanumérico y datos de imágenes fijas, ^[61] que es el formato más útil para la mayoría de las aplicaciones de big data. Esto también muestra el potencial de los datos aún no utilizados (es decir, en forma de contenido de vídeo y audio).

Si bien muchos proveedores ofrecen productos listos para usar para big data, los expertos promueven el desarrollo de sistemas internos personalizados si la empresa tiene suficientes capacidades técnicas. ^[62]

Gobierno

El uso y la adopción de big data dentro de los procesos gubernamentales permite eficiencias en términos de costo, productividad e innovación, ^[63] pero no está exento de fallas. El análisis de datos a menudo requiere que varias partes del gobierno (central y local) trabajen en colaboración y creen procesos nuevos e innovadores para lograr el resultado deseado. Una organización gubernamental común que hace uso de big data es la Administración de Seguridad Nacional ( NSA ), que monitorea constantemente las actividades de Internet en busca de patrones potenciales de actividades sospechosas o ilegales que su sistema pueda detectar.

El registro civil y estadísticas vitales (CRVS) recopila todos los certificados de estado desde el nacimiento hasta la muerte. CRVS es una fuente de big data para los gobiernos.

Desarrollo internacional

La investigación sobre el uso eficaz de las tecnologías de la información y la comunicación para el desarrollo (también conocidas como "TIC4D") sugiere que la tecnología de big data puede hacer contribuciones importantes pero también presentar desafíos únicos para el desarrollo internacional . ^[64]^[65] Los avances en el análisis de big data ofrecen oportunidades rentables para mejorar la toma de decisiones en áreas críticas de desarrollo como la atención médica, el empleo, la productividad económica , el crimen, la seguridad y los desastres naturales y la gestión de recursos. ^[66]^{[ página necesaria ]}^[67]^[68] Además, los datos generados por los usuarios ofrecen nuevas oportunidades para dar voz a quienes no son escuchados. ^[69] Sin embargo, los desafíos de larga data para las regiones en desarrollo, como la infraestructura tecnológica inadecuada y la escasez de recursos económicos y humanos, exacerban las preocupaciones existentes con los macrodatos, como la privacidad, la metodología imperfecta y los problemas de interoperabilidad. ^[66]^{[ página necesaria ]} El desafío del "big data para el desarrollo" ^[66]^{[ página necesaria ]} está evolucionando actualmente hacia la aplicación de estos datos a través del aprendizaje automático, conocido como "inteligencia artificial para el desarrollo (AI4D). ^[70]

Beneficios

Una importante aplicación práctica de los macrodatos para el desarrollo ha sido "luchar contra la pobreza con datos". ^[71] En 2015, Blumenstock y sus colegas estimaron la pobreza y la riqueza pronosticadas a partir de metadatos de teléfonos móviles ^[72] y en 2016, Jean y sus colegas combinaron imágenes satelitales y aprendizaje automático para predecir la pobreza. ^[73] Utilizando datos de seguimiento digital para estudiar el mercado laboral y la economía digital en América Latina, Hilbert y sus colegas ^[74]^[75] sostienen que los datos de seguimiento digital tienen varios beneficios, tales como:

Cobertura temática: incluye áreas que antes eran difíciles o imposibles de medir.
Cobertura geográfica: nuestras fuentes internacionales proporcionaron datos considerables y comparables para casi todos los países, incluidos muchos países pequeños que generalmente no están incluidos en los inventarios internacionales.
Nivel de detalle: proporcionar datos detallados con muchas variables interrelacionadas y aspectos nuevos, como conexiones de red.
Puntualidad y series temporales: los gráficos se pueden producir a los pocos días de su recopilación.

Desafíos

Al mismo tiempo, trabajar con datos de seguimiento digitales en lugar de datos de encuestas tradicionales no elimina los desafíos tradicionales que implica trabajar en el campo del análisis cuantitativo internacional. Las prioridades cambian, pero las discusiones básicas siguen siendo las mismas. Entre los principales desafíos se encuentran:

Representatividad. Si bien las estadísticas de desarrollo tradicionales se ocupan principalmente de la representatividad de muestras aleatorias de encuestas, los datos de seguimiento digitales nunca son una muestra aleatoria. ^[76]
Generalizabilidad. Si bien los datos observacionales siempre representan muy bien esta fuente, sólo representan lo que representan y nada más. Si bien es tentador generalizar a partir de observaciones específicas de una plataforma a entornos más amplios, esto suele ser muy engañoso.
Armonización. Los datos de seguimiento digitales todavía requieren una armonización internacional de los indicadores. A esto se suma el desafío de la llamada "fusión de datos", la armonización de diferentes fuentes.
Sobrecarga de datos. Los analistas y las instituciones no están acostumbrados a tratar eficazmente una gran cantidad de variables, lo que se hace de manera eficiente con paneles interactivos. Los profesionales aún carecen de un flujo de trabajo estándar que permita a los investigadores, usuarios y formuladores de políticas trabajar de manera eficiente y efectiva. ^[74]

Finanzas

Big Data se está adoptando rápidamente en Finanzas para 1) acelerar el procesamiento y 2) ofrecer inferencias mejores y más informadas, tanto internamente como para los clientes de las instituciones financieras ^[77] . Las aplicaciones financieras de Big Data van desde decisiones de inversión y negociación (procesamiento de volúmenes de datos de precios disponibles, libros de órdenes limitadas, datos económicos y más, todo al mismo tiempo), gestión de cartera (optimización de una gama cada vez mayor de instrumentos financieros, potencialmente seleccionados entre diferentes clases de activos), gestión de riesgos (crédito calificación basada en información ampliada), y cualquier otro aspecto donde las entradas de datos sean grandes. ^[78]

Cuidado de la salud

El análisis de big data se utilizó en la atención médica al proporcionar medicina personalizada y análisis prescriptivos , intervención de riesgos clínicos y análisis predictivos, reducción de desperdicios y variabilidad de la atención, informes externos e internos automatizados de datos de pacientes, términos médicos estandarizados y registros de pacientes. ^[79]^[80]^[81]^[82] Algunas áreas de mejora son más aspiracionales que implementadas. El nivel de datos generados dentro de los sistemas sanitarios no es trivial. Con la adopción adicional de mHealth, eHealth y tecnologías portátiles, el volumen de datos seguirá aumentando. Esto incluye datos de registros médicos electrónicos , datos de imágenes, datos generados por el paciente, datos de sensores y otras formas de datos difíciles de procesar. Ahora existe una necesidad aún mayor de que dichos entornos presten mayor atención a la calidad de los datos y la información. ^[83] "Big data muy a menudo significa ' datos sucios ' y la fracción de inexactitudes de los datos aumenta con el crecimiento del volumen de datos". La inspección humana a gran escala de datos es imposible y existe una necesidad desesperada en los servicios de salud de herramientas inteligentes para controlar con precisión y credibilidad y manejar la información perdida. ^[84] Si bien una gran cantidad de información en el ámbito de la atención sanitaria ahora es electrónica, encaja bajo el paraguas de big data ya que la mayor parte no está estructurada y es difícil de usar. ^[85] El uso de big data en la atención sanitaria ha planteado importantes desafíos éticos que van desde riesgos para los derechos individuales, la privacidad y la autonomía hasta la transparencia y la confianza. ^[86]

Los macrodatos en la investigación sanitaria son particularmente prometedores en términos de investigación biomédica exploratoria, ya que el análisis basado en datos puede avanzar más rápidamente que la investigación basada en hipótesis ^[87] . Luego, las tendencias observadas en el análisis de datos se pueden probar en el seguimiento tradicional basado en hipótesis. impulsar la investigación biológica y, finalmente, la investigación clínica.

Un subárea de aplicación relacionada, que depende en gran medida de big data, dentro del campo de la atención sanitaria es la del diagnóstico asistido por ordenador en medicina. ^[88]^{[ página necesaria ]} Por ejemplo, para el seguimiento de la epilepsia es habitual crear de 5 a 10 GB de datos al día. ^[89] De manera similar, una sola imagen sin comprimir de la tomosíntesis mamaria tiene un promedio de 450 MB de datos. ^[90] Estos son sólo algunos de los muchos ejemplos en los que el diagnóstico asistido por computadora utiliza big data. Por esta razón, los macrodatos han sido reconocidos como uno de los siete desafíos clave que los sistemas de diagnóstico asistido por computadora deben superar para alcanzar el siguiente nivel de rendimiento. ^[91]

Educación

Un estudio del McKinsey Global Institute encontró una escasez de 1,5 millones de profesionales y administradores de datos altamente capacitados ^[52] y varias universidades ^[92]^{[ se necesita mejor fuente ]} , incluidas la Universidad de Tennessee y UC Berkeley , han creado programas de maestría para satisfacer esta demanda. Los campos de entrenamiento privados también han desarrollado programas para satisfacer esa demanda, incluidos programas gratuitos como The Data Incubator o programas pagos como General Assembly . ^[93] En el campo específico del marketing, uno de los problemas destacados por Wedel y Kannan ^[94] es que el marketing tiene varios subdominios (por ejemplo, publicidad, promociones, desarrollo de productos, marcas) que utilizan diferentes tipos de datos.

Medios de comunicación

Para comprender cómo los medios utilizan big data, primero es necesario proporcionar algo de contexto sobre el mecanismo utilizado para el proceso mediático. Nick Couldry y Joseph Turow han sugerido que los profesionales de los medios y la publicidad abordan los big data como muchos puntos de información procesables sobre millones de personas. La industria parece estar alejándose del enfoque tradicional de utilizar entornos de medios específicos como periódicos, revistas o programas de televisión y, en cambio, aprovecha a los consumidores con tecnologías que llegan a personas específicas en momentos óptimos y en ubicaciones óptimas. El objetivo final es servir o transmitir un mensaje o contenido que esté (estadísticamente hablando) en línea con la mentalidad del consumidor. Por ejemplo, los entornos editoriales adaptan cada vez más los mensajes (anuncios) y el contenido (artículos) para atraer a los consumidores, que han sido recopilados exclusivamente a través de diversas actividades de extracción de datos . ^[95]

Orientación a los consumidores (para publicidad de los especialistas en marketing) ^[96]
Captura de datos
Periodismo de datos : editores y periodistas utilizan herramientas de big data para proporcionar información e infografías únicas e innovadoras .

Channel 4 , la cadena de televisión pública británica , es líder en el campo del big data y el análisis de datos . ^[97]

Seguro

Los proveedores de seguros de salud están recopilando datos sobre "determinantes de la salud" sociales, como el consumo de alimentos y televisión , el estado civil, la talla de la ropa y los hábitos de compra, a partir de los cuales hacen predicciones sobre los costos de salud, con el fin de detectar problemas de salud en sus clientes. Es controvertido si estas predicciones se utilizan actualmente para fijar los precios. ^[98]

Internet de las cosas (IoT)

Big data y IoT funcionan en conjunto. Los datos extraídos de los dispositivos IoT proporcionan un mapeo de la interconectividad de los dispositivos. Estos mapeos han sido utilizados por la industria de los medios, las empresas y los gobiernos para dirigirse con mayor precisión a su audiencia y aumentar la eficiencia de los medios. El IoT también se adopta cada vez más como medio para recopilar datos sensoriales, y estos datos sensoriales se han utilizado en contextos médicos, ^[99] de fabricación ^[100] y de transporte ^[101] .

Kevin Ashton , el experto en innovación digital a quien se le atribuye haber acuñado el término, ^[102] define Internet de las cosas con esta cita: "Si tuviéramos computadoras que supieran todo lo que hay que saber sobre las cosas, utilizando datos que recopilaron sin ninguna ayuda de nosotros: podríamos rastrear y contar todo, y reducir en gran medida el desperdicio, las pérdidas y los costos. Sabríamos cuándo las cosas necesitan ser reemplazadas, reparadas o retiradas del mercado, y si están nuevas o han pasado de su mejor momento".

Tecnologías de la información

Especialmente desde 2015, el big data ha cobrado importancia dentro de las operaciones comerciales como una herramienta para ayudar a los empleados a trabajar de manera más eficiente y agilizar la recopilación y distribución de tecnología de la información (TI). El uso de big data para resolver problemas de TI y recopilación de datos dentro de una empresa se denomina análisis de operaciones de TI (ITOA). ^[103] Al aplicar los principios de big data en los conceptos de inteligencia artificial y computación profunda, los departamentos de TI pueden predecir problemas potenciales y prevenirlos. ^[103] Las empresas de ITOA ofrecen plataformas para la gestión de sistemas que reúnen silos de datos y generan información a partir de todo el sistema en lugar de grupos aislados de datos.

ciencia de la encuesta

En comparación con la recopilación de datos basada en encuestas , los big data tienen un bajo costo por punto de datos, aplican técnicas de análisis mediante aprendizaje automático y minería de datos , e incluyen fuentes de datos nuevas y diversas, por ejemplo, registros, redes sociales, aplicaciones y otras formas de datos digitales. Desde 2018, los científicos encuestadores han comenzado a examinar cómo los big data y la ciencia de las encuestas pueden complementarse entre sí para permitir a los investigadores y profesionales mejorar la producción de estadísticas y su calidad. Hasta la fecha, ha habido tres conferencias Big Data Meets Survey Science (BigSurv) en 2018, 2020 (virtual), 2023 y, a partir de 2023, ^[update]una conferencia próxima en 2025, ^[104] un número especial en Social Science Computer Review , ^{[ 105]} un número especial en Journal of the Royal Statistical Society , ^[106] y un número especial en EP J Data Science , ^[107] y un libro llamado Big Data Meets Social Sciences ^[108] editado por Craig Hill y otros cinco miembros de la Asociación Estadounidense de Estadística . En 2021, los miembros fundadores de BigSurv recibieron el premio Warren J. Mitofsky Innovators Award de la Asociación Estadounidense para la Investigación de la Opinión Pública . ^[109]

Marketing

Los macrodatos son notables en marketing debido a la constante “datificación” ^[110] de los consumidores cotidianos de Internet, en la que se rastrean todas las formas de datos. La datificación de los consumidores se puede definir como la cuantificación de muchos o todos los comportamientos humanos con fines de marketing. ^[111] El mundo cada vez más digital de datificación rápida hace que esta idea sea relevante para el marketing porque la cantidad de datos crece constantemente de manera exponencial. Se prevé que aumente de 44 a 163 zettabytes en un lapso de cinco años. ^[112] El tamaño de los big data a menudo puede ser difícil de navegar para los especialistas en marketing. ^[113] Como resultado, quienes adoptan big data pueden encontrarse en desventaja. Puede resultar difícil lograr resultados algorítmicos con conjuntos de datos tan grandes. ^[114] Big data en marketing es una herramienta muy lucrativa que puede ser utilizada por grandes corporaciones, siendo su valor el resultado de la posibilidad de predecir tendencias, intereses o resultados estadísticos significativos basándose en el consumidor. ^[115]

Hay tres factores importantes en el uso de big data en marketing:

Big data proporciona a los especialistas en marketing la detección de patrones de comportamiento del cliente, ya que todas las acciones humanas se cuantifican en números legibles para que los especialistas en marketing los analicen y utilicen en sus investigaciones. ^[116]
La capacidad de respuesta del mercado en tiempo real es importante para los especialistas en marketing debido a la capacidad de cambiar los esfuerzos de marketing y corregir las tendencias actuales, lo que es útil para mantener la relevancia para los consumidores. Esto puede proporcionar a las corporaciones la información necesaria para predecir de antemano los deseos y necesidades de los consumidores. ^[117]
La ambidestreza del mercado impulsada por los datos se está viendo impulsada en gran medida por los big data. ^[118] Se están desarrollando nuevos modelos y algoritmos para hacer predicciones significativas sobre determinadas situaciones económicas y sociales. ^[119]

Estudios de caso

Gobierno

Porcelana

El gobierno utiliza la Plataforma de Operaciones Conjuntas Integradas (IJOP, 一体化联合作战平台) para monitorear a la población, particularmente a los uigures . ^[120] Los datos biométricos , incluidas las muestras de ADN, se recopilan mediante un programa de exámenes físicos gratuitos. ^[121]
Para 2020, China planea otorgar a todos sus ciudadanos una puntuación personal de "crédito social" basada en su comportamiento. ^[122] El Sistema de Crédito Social , que ahora se está poniendo a prueba en varias ciudades chinas, se considera una forma de vigilancia masiva que utiliza tecnología de análisis de big data. ^[123]^[124]

India

El BJP probó el análisis de big data para ganar las elecciones generales indias de 2014. ^[125]
El gobierno indio utiliza numerosas técnicas para determinar cómo está respondiendo el electorado indio a la acción gubernamental, así como ideas para mejorar las políticas.

Israel

Se pueden crear tratamientos personalizados para la diabetes a través de la solución de big data de GlucoMe. ^[126]

Reino Unido

Ejemplos de usos del big data en servicios públicos:

Datos sobre medicamentos recetados: al conectar el origen, la ubicación y el momento de cada prescripción, una unidad de investigación pudo ejemplificar y examinar el retraso considerable entre el lanzamiento de un medicamento determinado y una adaptación en todo el Reino Unido del Instituto Nacional de Salud y Pautas de excelencia asistencial . Esto sugiere que los medicamentos nuevos o más actualizados tardan algún tiempo en llegar al paciente en general. ^{[ cita necesaria ]}^[127]
Combinación de datos: una autoridad local combinó datos sobre servicios, como turnos de limpieza de carreteras, con servicios para personas en riesgo, como Meals on Wheels . La conexión de datos permitió a las autoridades locales evitar cualquier retraso relacionado con el clima. ^[128]

Estados Unidos

En 2012, la administración Obama anunció la Iniciativa de Investigación y Desarrollo de Big Data, para explorar cómo se podrían utilizar los big data para abordar problemas importantes que enfrenta el gobierno. ^[129] La iniciativa se compone de 84 programas diferentes de big data distribuidos en seis departamentos. ^[130]
El análisis de big data jugó un papel importante en la exitosa campaña de reelección de Barack Obama en 2012 . ^[131]
El gobierno federal de los Estados Unidos posee cinco de las diez supercomputadoras más poderosas del mundo. ^[132]^[133]
El Centro de Datos de Utah ha sido construido por la Agencia de Seguridad Nacional de Estados Unidos . Cuando esté terminada, la instalación podrá manejar una gran cantidad de información recopilada por la NSA a través de Internet. Se desconoce la cantidad exacta de espacio de almacenamiento, pero fuentes más recientes afirman que será del orden de unos pocos exabytes . ^[134]^[135]^[136] Esto ha planteado preocupaciones de seguridad con respecto al anonimato de los datos recopilados. ^[137]

Minorista

Walmart maneja más de 1 millón de transacciones de clientes cada hora, que se importan a bases de datos que se estima contienen más de 2,5 petabytes (2560 terabytes) de datos, el equivalente a 167 veces la información contenida en todos los libros de la Biblioteca del Congreso de Estados Unidos . ^[7]
Windermere Real Estate utiliza información de ubicación de casi 100 millones de conductores para ayudar a los compradores de viviendas nuevas a determinar sus tiempos de viaje típicos hacia y desde el trabajo en distintos momentos del día. ^[138]
El sistema de detección de tarjetas FICO protege cuentas en todo el mundo. ^[139]

Ciencia

Los experimentos del Gran Colisionador de Hadrones representan alrededor de 150 millones de sensores que entregan datos 40 millones de veces por segundo. Hay casi 600 millones de colisiones por segundo. Después de filtrar y abstenerse de registrar más del 99,99995% ^[140] de estos flujos, hay 1.000 colisiones de interés por segundo. ^[141]^[142]^[143]
- Como resultado, al trabajar solo con menos del 0,001% de los datos del flujo de sensores, el flujo de datos de los cuatro experimentos del LHC representa una tasa anual de 25 petabytes antes de la replicación (a partir de 2012 ^[update]). Esto se convierte en casi 200 petabytes después de la replicación.
- Si todos los datos de los sensores se registraran en el LHC, sería extremadamente difícil trabajar con el flujo de datos. El flujo de datos superaría los 150 millones de petabytes al año, o casi 500 exabytes por día, antes de la replicación. Para poner la cifra en perspectiva, esto equivale a 500 quintillones (5×10 ²⁰ ) de bytes por día, casi 200 veces más que todas las demás fuentes combinadas en el mundo.
El Square Kilometer Array es un radiotelescopio construido con miles de antenas. Se espera que esté operativa en 2024. En conjunto, se espera que estas antenas recopilen 14 exabytes y almacenen un petabyte por día. ^[144]^[145] Se considera uno de los proyectos científicos más ambiciosos jamás emprendidos. ^[146]
Cuando el Sloan Digital Sky Survey (SDSS) comenzó a recopilar datos astronómicos en 2000, acumuló más en sus primeras semanas que todos los datos recopilados anteriormente en la historia de la astronomía. A un ritmo de unos 200 GB por noche, SDSS ha acumulado más de 140 terabytes de información. ^[7] Cuando el Gran Telescopio de Rastreo Sinóptico , sucesor del SDSS, entre en funcionamiento en 2020, sus diseñadores esperan que adquiera esa cantidad de datos cada cinco días. ^[7]
Originalmente , la decodificación del genoma humano tardó 10 años en procesarse; ahora se puede lograr en menos de un día. Los secuenciadores de ADN han dividido el coste de secuenciación por 10.000 en los últimos diez años, lo que es 100 veces menos costoso que la reducción de coste prevista por la ley de Moore . ^[147]
El Centro de Simulación Climática de la NASA (NCCS) almacena 32 petabytes de observaciones y simulaciones climáticas en el grupo de supercomputación Discover. ^[148]^[149]
DNAStack de Google compila y organiza muestras de ADN de datos genéticos de todo el mundo para identificar enfermedades y otros defectos médicos. Estos cálculos rápidos y exactos eliminan cualquier "punto de fricción" o error humano que pueda cometer uno de los numerosos expertos en ciencia y biología que trabajan con el ADN. DNAStack, parte de Google Genomics, permite a los científicos utilizar la amplia muestra de recursos del servidor de búsqueda de Google para escalar experimentos sociales que normalmente llevarían años, al instante. ^[150]^[151]
La base de datos de ADN de 23andme contiene la información genética de más de 1.000.000 de personas en todo el mundo. ^[152] La compañía explora la venta de "datos genéticos agregados anónimos" a otros investigadores y compañías farmacéuticas con fines de investigación si los pacientes dan su consentimiento. ^[153]^[154]^[155]^[156]^[157] Ahmad Hariri, profesor de psicología y neurociencia en la Universidad de Duke , que ha estado utilizando 23andMe en su investigación desde 2009, afirma que el aspecto más importante del nuevo servicio de la empresa es que hace que la investigación genética sea accesible y relativamente barata para los científicos. ^[153] Un estudio que identificó 15 sitios del genoma vinculados a la depresión en la base de datos de 23andMe provocó un aumento en las demandas para acceder al repositorio y 23andMe respondió a casi 20 solicitudes para acceder a los datos de la depresión en las dos semanas posteriores a la publicación del artículo. ^[158]
La dinámica de fluidos computacional ( CFD ) y la investigación de la turbulencia hidrodinámica generan conjuntos de datos masivos. La base de datos de turbulencias de Johns Hopkins (JHTDB) contiene más de 350 terabytes de campos espaciotemporales de simulaciones numéricas directas de varios flujos turbulentos. Estos datos han sido difíciles de compartir utilizando métodos tradicionales, como la descarga de archivos de salida de simulación planos. Se puede acceder a los datos dentro de JHTDB utilizando "sensores virtuales" con varios modos de acceso que van desde consultas directas al navegador web, acceso a través de programas Matlab, Python, Fortran y C que se ejecutan en las plataformas de los clientes, hasta servicios de corte para descargar datos sin procesar. Los datos se han utilizado en más de 150 publicaciones científicas.

Deportes

Los macrodatos se pueden utilizar para mejorar el entrenamiento y la comprensión de los competidores mediante sensores deportivos. También es posible predecir los ganadores de un partido utilizando análisis de big data. ^[159] También se podría predecir el rendimiento futuro de los jugadores. ^[160] Por lo tanto, el valor y el salario de los jugadores están determinados por los datos recopilados a lo largo de la temporada. ^[161]

En las carreras de Fórmula Uno , los coches de carreras con cientos de sensores generan terabytes de datos. Estos sensores recopilan puntos de datos desde la presión de los neumáticos hasta la eficiencia del consumo de combustible. ^[162] Basándose en los datos, los ingenieros y analistas de datos deciden si se deben realizar ajustes para ganar una carrera. Además, utilizando big data, los equipos de carrera intentan predecir de antemano el momento en el que terminarán la carrera, basándose en simulaciones que utilizan datos recopilados a lo largo de la temporada. ^[163]

Tecnología

A partir de 2013 ^[update], eBay.com utiliza dos almacenes de datos de 7,5 petabytes y 40 PB, así como un clúster Hadoop de 40 PB para búsqueda, recomendaciones de consumidores y comercialización. ^[164]
Amazon.com maneja millones de operaciones de back-end todos los días, así como consultas de más de medio millón de vendedores externos. La tecnología central que mantiene a Amazon en funcionamiento está basada en Linux y en 2005 ^[update]tenían las tres bases de datos de Linux más grandes del mundo, con capacidades de 7,8 TB, 18,5 TB y 24,7 TB. ^[165]
Facebook maneja 50 mil millones de fotos de su base de usuarios. ^[166] En junio de 2017 ^[update], Facebook alcanzó los 2 mil millones de usuarios activos mensuales . ^[167]
En agosto de 2012, Google manejaba aproximadamente 100 mil millones de búsquedas por mes ^[update]. ^[168]

COVID-19

Durante la pandemia de COVID-19 , el big data se planteó como una forma de minimizar el impacto de la enfermedad. Entre las aplicaciones importantes del big data se incluyen la minimización de la propagación del virus, la identificación de casos y el desarrollo de tratamientos médicos. ^[169]

Los gobiernos utilizaron big data para rastrear a las personas infectadas y minimizar la propagación. Los primeros en adoptarlo fueron China, Taiwán, Corea del Sur e Israel. ^[170]^[171]^[172]

Actividades de investigación

En marzo de 2014 se demostró en la Sociedad Estadounidense de Educación en Ingeniería la búsqueda cifrada y la formación de clústeres en big data. Gautam Siwach participó en Abordando los desafíos de Big Data por el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT y Amir Esmailpour en el Grupo de Investigación de la UNH investigó las características clave de big data como la formación de clusters y sus interconexiones. Se centraron en la seguridad de los macrodatos y la orientación del término hacia la presencia de diferentes tipos de datos en forma cifrada en la interfaz de la nube, proporcionando definiciones sin procesar y ejemplos en tiempo real dentro de la tecnología. Además, propusieron un enfoque para identificar la técnica de codificación para avanzar hacia una búsqueda acelerada en texto cifrado que conduzca a mejoras de seguridad en big data. ^[173]

En marzo de 2012, la Casa Blanca anunció una "Iniciativa de Big Data" nacional que consistía en seis departamentos y agencias federales que comprometieron más de 200 millones de dólares para proyectos de investigación de big data. ^[174]

La iniciativa incluyó una subvención de "Expediciones en Computación" de la Fundación Nacional de Ciencias de 10 millones de dólares durante cinco años para el AMPLab ^[175] de la Universidad de California, Berkeley. ^[176] El AMPLab también recibió fondos de DARPA y más de una docena de patrocinadores industriales y utiliza big data para atacar una amplia gama de problemas, desde la predicción de la congestión del tráfico ^[177] hasta la lucha contra el cáncer. ^[178]

La Iniciativa Big Data de la Casa Blanca también incluyó el compromiso del Departamento de Energía de proporcionar 25 millones de dólares en financiación durante cinco años para establecer el Instituto de Visualización, Análisis y Gestión de Datos Escalables (SDAV), [ ^{179] dirigido por el Instituto}Nacional Lawrence Berkeley del Departamento de Energía. Laboratorio . El Instituto SDAV tiene como objetivo reunir la experiencia de seis laboratorios nacionales y siete universidades para desarrollar nuevas herramientas que ayuden a los científicos a gestionar y visualizar datos en las supercomputadoras del departamento.

El estado estadounidense de Massachusetts anunció la Iniciativa Big Data de Massachusetts en mayo de 2012, que proporciona financiación del gobierno estatal y de empresas privadas a una variedad de instituciones de investigación. ^[180] El Instituto de Tecnología de Massachusetts alberga el Centro Intel de Ciencia y Tecnología para Big Data en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT , que combina financiación e investigación gubernamentales, corporativas e institucionales. ^[181]

La Comisión Europea está financiando el Foro Público Privado de Big Data, de dos años de duración, a través de su Séptimo Programa Marco para involucrar a empresas, académicos y otras partes interesadas en el debate sobre cuestiones de big data. El proyecto tiene como objetivo definir una estrategia en términos de investigación e innovación para guiar las acciones de apoyo de la Comisión Europea en la implementación exitosa de la economía del big data. Los resultados de este proyecto se utilizarán como aportación para Horizonte 2020 , su próximo programa marco . ^[182]

El gobierno británico anunció en marzo de 2014 la fundación del Instituto Alan Turing , que lleva el nombre del pionero de la informática y descifrador de códigos, que se centrará en nuevas formas de recopilar y analizar grandes conjuntos de datos. ^[183]

En el Día de Inspiración de la Experiencia Canadiense de Datos Abiertos (CODE) del Campus Stratford de la Universidad de Waterloo , los participantes demostraron cómo el uso de la visualización de datos puede aumentar la comprensión y el atractivo de los grandes conjuntos de datos y comunicar su historia al mundo. ^[184]

Ciencias sociales computacionales : cualquiera puede utilizar interfaces de programación de aplicaciones (API) proporcionadas por los poseedores de big data, como Google y Twitter, para realizar investigaciones en ciencias sociales y del comportamiento. ^[185] A menudo, estas API se proporcionan de forma gratuita. ^[185] Tobías Preis y otros. utilizó datos de Google Trends para demostrar que los usuarios de Internet de países con un producto interno bruto (PIB) per cápita más alto tienen más probabilidades de buscar información sobre el futuro que información sobre el pasado. Los hallazgos sugieren que puede haber un vínculo entre los comportamientos en línea y los indicadores económicos del mundo real. ^[186]^[187]^[188] Los autores del estudio examinaron los registros de consultas de Google realizadas por la relación entre el volumen de búsquedas para el próximo año (2011) y el volumen de búsquedas del año anterior (2009), al que llaman " Índice de orientación al futuro ". ^[189] Compararon el índice de orientación futura con el PIB per cápita de cada país y encontraron una fuerte tendencia en los países donde los usuarios de Google preguntan más sobre el futuro a tener un PIB más alto.

Tobias Preis y sus colegas Helen Susannah Moat y H. Eugene Stanley introdujeron un método para identificar precursores en línea de los movimientos del mercado de valores, utilizando estrategias comerciales basadas en datos de volumen de búsqueda proporcionados por Google Trends. ^[190] Su análisis del volumen de búsqueda en Google para 98 términos de diversa relevancia financiera, publicado en Scientific Reports , ^[191] sugiere que los aumentos en el volumen de búsqueda de términos de búsqueda financieramente relevantes tienden a preceder a grandes pérdidas en los mercados financieros. ^[192]^[193^{] [}^194]^{[195] [196]}^[197]^[198]

Los grandes conjuntos de datos conllevan desafíos algorítmicos que antes no existían. Por lo tanto, algunos consideran que es necesario cambiar fundamentalmente las formas de procesamiento. ^[199]

Muestreo de grandes datos

Una pregunta de investigación que se plantea sobre los grandes conjuntos de datos es si es necesario observar los datos completos para sacar ciertas conclusiones sobre las propiedades de los datos o si una muestra es lo suficientemente buena. El nombre big data en sí contiene un término relacionado con el tamaño y esta es una característica importante de big data. Pero el muestreo permite seleccionar puntos de datos correctos dentro de un conjunto de datos más amplio para estimar las características de toda la población. En la fabricación, se dispone de diferentes tipos de datos sensoriales, como acústica, vibración, presión, corriente, voltaje y datos del controlador, en intervalos de tiempo cortos. Para predecir el tiempo de inactividad puede que no sea necesario examinar todos los datos, pero una muestra puede ser suficiente. Los macrodatos se pueden desglosar en varias categorías de puntos de datos, como datos demográficos, psicográficos, de comportamiento y transaccionales. Con grandes conjuntos de puntos de datos, los especialistas en marketing pueden crear y utilizar segmentos de consumidores más personalizados para una orientación más estratégica.

Crítica

Las críticas al paradigma de los big data son de dos tipos: las que cuestionan las implicaciones del enfoque en sí y las que cuestionan la forma en que se aplica actualmente. ^[200] Un enfoque a esta crítica es el campo de los estudios de datos críticos .

Críticas al paradigma del big data

"Un problema crucial es que no sabemos mucho sobre los microprocesos empíricos subyacentes que conducen al surgimiento de las características de red típicas de Big Data". ^[24]^{[ página necesaria ]} En su crítica, Snijders, Matzat y Reips señalan que a menudo se hacen suposiciones muy sólidas sobre propiedades matemáticas que pueden no reflejar en absoluto lo que realmente está sucediendo al nivel de los microprocesos. Mark Graham ha criticado ampliamente la afirmación de Chris Anderson de que los grandes datos significarán el fin de la teoría: ^[201] centrándose en particular en la noción de que los grandes datos siempre deben contextualizarse en sus contextos sociales, económicos y políticos. ^[202] Incluso cuando las empresas invierten sumas de ocho y nueve cifras para obtener conocimientos a partir de la información que fluye desde proveedores y clientes, menos del 40% de los empleados tienen procesos y habilidades suficientemente maduros para hacerlo. Para superar este déficit de conocimiento, los big data, por muy completos o bien analizados que sean, deben complementarse con un "gran juicio", según un artículo de Harvard Business Review . ^[203]

En la misma línea, se ha señalado que las decisiones basadas en el análisis de big data están inevitablemente "informadas por el mundo como era en el pasado o, en el mejor de los casos, como es actualmente". ^[66]^{[ página necesaria ]} Alimentados por una gran cantidad de datos sobre experiencias pasadas, los algoritmos pueden predecir el desarrollo futuro si el futuro es similar al pasado. ^[204] Si la dinámica del sistema del futuro cambia (si no es un proceso estacionario ), el pasado puede decir poco sobre el futuro. Para hacer predicciones en entornos cambiantes, sería necesario tener una comprensión profunda de la dinámica de los sistemas, lo que requiere teoría. ^[204] Como respuesta a esta crítica, Alemany Oliver y Vayre sugieren utilizar "el razonamiento abductivo como un primer paso en el proceso de investigación para contextualizar las huellas digitales de los consumidores y hacer que surjan nuevas teorías". ^[205] Además, se ha sugerido combinar enfoques de big data con simulaciones por computadora, como modelos basados en agentes ^[66]^{[ página necesaria ]} y sistemas complejos . Los modelos basados en agentes son cada vez mejores a la hora de predecir el resultado de las complejidades sociales de escenarios futuros incluso desconocidos a través de simulaciones por computadora que se basan en una colección de algoritmos mutuamente interdependientes. ^[206]^[207] Finalmente, el uso de métodos multivariados que investigan la estructura latente de los datos, como el análisis factorial y el análisis de conglomerados , han demostrado ser útiles como enfoques analíticos que van mucho más allá de los enfoques bivariados (por ejemplo, tablas de contingencia). ) normalmente se emplea con conjuntos de datos más pequeños.

En salud y biología, los enfoques científicos convencionales se basan en la experimentación. Para estos enfoques, el factor limitante son los datos relevantes que pueden confirmar o refutar la hipótesis inicial. ^[208] Un nuevo postulado se acepta ahora en las biociencias: la información proporcionada por los datos en grandes volúmenes ( ómicas ) sin hipótesis previas es complementaria y en ocasiones necesaria a los enfoques convencionales basados en la experimentación. ^[209]^[210] En los enfoques masivos, el factor limitante es la formulación de una hipótesis relevante para explicar los datos. ^[211] La lógica de la búsqueda se invierte y hay que considerar los límites de la inducción ("Escándalo de la gloria de la ciencia y la filosofía", CD Broad , 1926). ^{[ cita necesaria ]}

Los defensores de la privacidad están preocupados por la amenaza a la privacidad que representa el aumento del almacenamiento y la integración de información de identificación personal ; Paneles de expertos han publicado varias recomendaciones de políticas para ajustar la práctica a las expectativas de privacidad. ^[212] El uso indebido de big data en varios casos por parte de los medios de comunicación, las empresas e incluso el gobierno ha permitido la abolición de la confianza en casi todas las instituciones fundamentales que sostienen a la sociedad. ^[213]

Barocas y Nissenbaum sostienen que una forma de proteger a los usuarios individuales es estar informados sobre los tipos de información que se recopilan, con quién se comparte, bajo qué restricciones y con qué fines. ^[214]

Críticas al modelo "V"

El modelo "V" de big data es preocupante porque se centra en la escalabilidad computacional y carece de pérdida en torno a la perceptibilidad y comprensibilidad de la información. Esto condujo al marco de big data cognitivo, que caracteriza las aplicaciones de big data según: ^[215]

Integridad de los datos: comprensión de lo no obvio a partir de los datos
Correlación de datos, causalidad y previsibilidad: la causalidad como requisito no esencial para lograr previsibilidad
Explicabilidad e interpretabilidad: los humanos desean comprender y aceptar lo que entienden, pero los algoritmos no pueden hacer frente a esto.
Nivel de toma de decisiones automatizada : algoritmos que apoyan la toma de decisiones automatizada y el autoaprendizaje algorítmico

Críticas a la novedad

Grandes conjuntos de datos han sido analizados por máquinas informáticas durante más de un siglo, incluido el análisis del censo estadounidense realizado por las máquinas de tarjetas perforadas de IBM que calcularon estadísticas que incluyen medias y variaciones de poblaciones en todo el continente. En décadas más recientes, experimentos científicos como el CERN han producido datos en escalas similares a los actuales "grandes datos" comerciales. Sin embargo, los experimentos científicos han tendido a analizar sus datos utilizando redes y clusters de computación de alto rendimiento (supercomputación) especializados y personalizados, en lugar de nubes de computadoras baratas como en la actual ola comercial, lo que implica una diferencia tanto en cultura como en tecnología. pila.

Críticas a la ejecución de big data

Ulf-Dietrich Reips y Uwe Matzat escribieron en 2014 que los big data se habían convertido en una "moda pasajera" en la investigación científica. ^[185] La investigadora Danah Boyd ha expresado su preocupación por el uso de big data en la ciencia, descuidando principios como la elección de una muestra representativa al estar demasiado preocupado por el manejo de enormes cantidades de datos. ^[216] Este enfoque puede conducir a resultados que tengan un sesgo de una forma u otra. ^[217] La integración entre recursos de datos heterogéneos (algunos que podrían considerarse big data y otros no) presenta formidables desafíos logísticos y analíticos, pero muchos investigadores sostienen que es probable que tales integraciones representen las nuevas fronteras más prometedoras de la ciencia. ^[218] En el provocativo artículo "Preguntas críticas para Big Data", ^[219] los autores consideran que los big data son parte de la mitología : "los grandes conjuntos de datos ofrecen una forma superior de inteligencia y conocimiento [...], con el aura de verdad, objetividad y exactitud". Los usuarios de big data a menudo están "perdidos en el gran volumen de números" y "trabajar con big data sigue siendo subjetivo, y lo que cuantifica no necesariamente tiene un derecho más cercano a la verdad objetiva". ^[219] Los desarrollos recientes en el dominio de BI, como los informes proactivos, apuntan especialmente a mejoras en la usabilidad de big data, a través del filtrado automatizado de correlaciones y datos no útiles . ^[220] Las grandes estructuras están llenas de correlaciones espurias ^[221] ya sea debido a coincidencias no causales ( ley de los números verdaderamente grandes ), únicamente a la naturaleza de la gran aleatoriedad ^[222] ( teoría de Ramsey ), o a la existencia de factores no incluidos, por lo que la Se cuestiona la esperanza de los primeros experimentadores de hacer que grandes bases de datos de números "hablen por sí mismos" y revolucionen el método científico. ^[223] Catherine Tucker ha señalado la "exageración" en torno a los grandes datos, escribiendo: "Por sí solos, es poco probable que los grandes datos sean valiosos". El artículo explica: "Los numerosos contextos en los que los datos son baratos en relación con el costo de retener talento para procesarlos, sugieren que las habilidades de procesamiento son más importantes que los datos en sí mismos para crear valor para una empresa". ^[224]

El análisis de big data suele ser superficial en comparación con el análisis de conjuntos de datos más pequeños. ^[225] En muchos proyectos de big data, no se realizan grandes análisis de datos, pero el desafío es extraer, transformar y cargar parte del preprocesamiento de datos. ^[225]

Big data es una palabra de moda y un "término vago", ^[226]^[227] pero al mismo tiempo una "obsesión" ^[227] entre empresarios, consultores, científicos y medios de comunicación. Los grandes escaparates de datos como Google Flu Trends no lograron ofrecer buenas predicciones en los últimos años, exagerando los brotes de gripe en un factor de dos. De manera similar, los premios de la Academia y las predicciones electorales basadas únicamente en Twitter estaban más a menudo equivocadas que acertadas. Los macrodatos a menudo plantean los mismos desafíos que los pequeños datos; agregar más datos no resuelve los problemas de sesgo, pero puede enfatizar otros problemas. En particular, las fuentes de datos como Twitter no son representativas de la población en general, y los resultados extraídos de dichas fuentes pueden llevar a conclusiones erróneas. Google Translate , que se basa en un análisis estadístico de texto con big data, hace un buen trabajo traduciendo páginas web. Sin embargo, los resultados de dominios especializados pueden estar dramáticamente sesgados. Por otro lado, los macrodatos también pueden introducir nuevos problemas, como el problema de las comparaciones múltiples : probar simultáneamente un gran conjunto de hipótesis probablemente produzca muchos resultados falsos que erróneamente parecen significativos. Ioannidis argumentó que "la mayoría de los hallazgos de investigación publicados son falsos" ^[228] debido esencialmente al mismo efecto: cuando muchos equipos científicos e investigadores realizan muchos experimentos (es decir, procesan una gran cantidad de datos científicos; aunque no con tecnología de big data), el La probabilidad de que un resultado "significativo" sea falso aumenta rápidamente, más aún cuando sólo se publican resultados positivos. Además, los resultados del análisis de big data son tan buenos como el modelo en el que se basan. Por ejemplo, los big data participaron en el intento de predecir los resultados de las elecciones presidenciales estadounidenses de 2016 ^[229] con distintos grados de éxito.

Críticas a la vigilancia y vigilancia de big data

Los macrodatos han sido utilizados en la labor policial y de vigilancia por parte de instituciones como las fuerzas del orden y las corporaciones . ^[230] Debido a la naturaleza menos visible de la vigilancia basada en datos en comparación con los métodos tradicionales de vigilancia, es menos probable que surjan objeciones a la vigilancia policial con big data. Según Big Data Surveillance: The Case of Policing de Sarah Brayne , ^[231] la vigilancia policial con big data puede reproducir las desigualdades sociales existentes de tres maneras:

Poner a las personas bajo mayor vigilancia mediante el uso de la justificación de un algoritmo matemático y, por lo tanto, imparcial.
Aumentar el alcance y el número de personas que están sujetas a seguimiento por parte de las fuerzas del orden y exacerbar la sobrerrepresentación racial existente en el sistema de justicia penal.
Alentar a los miembros de la sociedad a abandonar las interacciones con instituciones que crearían un rastro digital, creando así obstáculos a la inclusión social.

Si estos problemas potenciales no se corrigen o regulan, los efectos de la vigilancia policial de big data pueden seguir dando forma a las jerarquías sociales. Brayne también señala que el uso consciente de la vigilancia policial con big data podría evitar que los sesgos a nivel individual se conviertan en sesgos institucionales.

Ver también

Ética del big data : ética del análisis masivo de datos
Modelo de madurez de big data : aspecto de la informática
Gran memoria : una gran cantidad de memoria de acceso aleatorio
Curación de datos : trabajo realizado para garantizar un acceso significativo y duradero a los datos.
Almacenamiento definido de datos : término de marketing para la gestión de datos mediante la combinación de niveles de aplicación, información y almacenamiento.
Ingeniería de datos : enfoque de ingeniería de software para el diseño y desarrollo de sistemas de información.
Linaje de datos : orígenes y eventos de los datos
Filantropía de datos : aspecto de la cultura
Ciencia de datos : campo de estudio interdisciplinario sobre la obtención de conocimientos y conocimientos a partir de datos.
Dataficación – Tendencia tecnológica
Base de datos orientada a documentos – Tipo de programa informático
Lista de empresas de big data
Base de datos muy grande : base de datos que contiene una gran cantidad de datos.
XLDB : serie de conferencias anuales sobre bases de datos, gestión y análisis de datos

Referencias

^ Hilbert, Martín; López, Priscila (2011). "La capacidad tecnológica del mundo para almacenar, comunicar y calcular información". Ciencia . 332 (6025): 60–65. Código Bib : 2011 Ciencia... 332... 60H. doi : 10.1126/ciencia.1200970 . PMID 21310967. S2CID 206531385. Archivado desde el original el 14 de abril de 2016 . Consultado el 13 de abril de 2016 .
^ Breur, Tom (julio de 2016). "Análisis de poder estadístico y la" crisis "contemporánea de las ciencias sociales". Revista de análisis de marketing . Londres, Inglaterra: Palgrave Macmillan . 4 (2–3): 61–65. doi : 10.1057/s41270-016-0001-3 . ISSN 2050-3318.
^ Mahdavi-Damghani, Babak (2019). Modelos basados en datos y finanzas matemáticas: ¿aposición u oposición? (Tesis de doctorado). Oxford, Inglaterra: Universidad de Oxford . pag. 21.SSRN 3521933 .
^ ab "Las 5 V del big data". Perspectivas de salud de Watson . 17 de septiembre de 2016. Archivado desde el original el 18 de enero de 2021 . Consultado el 20 de enero de 2021 .
^ Cappa, Francesco; Oriani, Raffaele; Peruffo, Enzo; McCarthy, Ian (2021). "Big Data para crear y capturar valor en el entorno digitalizado: analizar los efectos del volumen, la variedad y la veracidad en el desempeño de la empresa". Revista de Gestión de la Innovación de Productos . 38 (1): 49–67. doi :10.1111/jpim.12545. ISSN 0737-6782. S2CID 225209179.
^ boyd, dana; Crawford, Kate (21 de septiembre de 2011). "Seis provocaciones para Big Data". Red de investigación en ciencias sociales: una década en el tiempo de Internet: Simposio sobre la dinámica de Internet y la sociedad . doi :10.2139/ssrn.1926431. S2CID 148610111. Archivado desde el original el 28 de febrero de 2020 . Consultado el 12 de julio de 2019 .
^ abcdefg "Datos, datos por todas partes". El economista . 25 de febrero de 2010. Archivado desde el original el 27 de mayo de 2018 . Consultado el 9 de diciembre de 2012 .
^ "Se requiere inteligencia comunitaria". Naturaleza . 455 (7209): 1 de septiembre de 2008. Bibcode :2008Natur.455....1.. doi : 10.1038/455001a . PMID 18769385.
^ Reichman OJ, Jones MB, Schildhauer MP (febrero de 2011). "Retos y oportunidades de los datos abiertos en ecología". Ciencia . 331 (6018): 703–5. Código Bib : 2011 Ciencia... 331..703R. doi : 10.1126/ciencia.1197962. PMID 21311007. S2CID 22686503. Archivado desde el original el 19 de octubre de 2020 . Consultado el 12 de julio de 2019 .
^ Hellerstein, Joe (9 de noviembre de 2008). "Programación paralela en la era del Big Data". Blog de Gigaom . Archivado desde el original el 7 de octubre de 2012 . Consultado el 21 de abril de 2010 .
^ Segaran, Toby; Hammerbacher, Jeff (2009). Beautiful Data: las historias detrás de elegantes soluciones de datos. Medios O'Reilly. pag. 257.ISBN _ 978-0-596-15711-1. Archivado desde el original el 12 de mayo de 2016 . Consultado el 31 de diciembre de 2015 .
^ ab Hilbert M, López P (abril de 2011). "La capacidad tecnológica del mundo para almacenar, comunicar y calcular información" (PDF) . Ciencia . 332 (6025): 60–5. Código Bib : 2011 Ciencia... 332... 60H. doi : 10.1126/ciencia.1200970. PMID 21310967. S2CID 206531385. Archivado (PDF) desde el original el 19 de agosto de 2019 . Consultado el 11 de mayo de 2019 .
^ "IBM ¿Qué es big data? Llevar big data a la empresa". ibm.com. Archivado desde el original el 24 de agosto de 2013 . Consultado el 26 de agosto de 2013 .
^ Reinsel, David; Gantz, Juan; Rydning, John (13 de abril de 2017). "La era de los datos 2025: la evolución de los datos hasta convertirse en datos críticos para la vida" (PDF) . seagate.com . Framingham, MA, EE. UU.: Corporación Internacional de Datos . Archivado (PDF) desde el original el 8 de diciembre de 2017 . Consultado el 2 de noviembre de 2017 .
^ "El gasto global en soluciones de análisis y big data alcanzará los 215,7 mil millones de dólares en 2021, según una nueva guía de gastos de IDC". Archivado desde el original el 23 de julio de 2022 . Consultado el 31 de julio de 2022 .
^ "Ingresos de big data y análisis empresarial en 2022".
^ "Tamaño del mercado mundial de la industria de big data 2011-2027".
^ abc Big data: la próxima frontera para la innovación, la competencia y la productividad McKinsey Global Institute, mayo de 2011
^ Oracle y FSN, "Mastering Big Data: CFO Strategies to Transform Insight into Opportunity" Archivado el 4 de agosto de 2013 en Wayback Machine , diciembre de 2012
^ Jacobs, A. (6 de julio de 2009). "Las patologías del Big Data". ACMCola . Archivado desde el original el 8 de diciembre de 2015 . Consultado el 21 de abril de 2010 .
^ Magoulas, Roger; Lorica, Ben (febrero de 2009). "Introducción al Big Data". Versión 2.0 . Sebastopol, CA: O'Reilly Media (11). Archivado desde el original el 2 de noviembre de 2021 . Consultado el 26 de febrero de 2021 .
^ John R. Mashey (25 de abril de 1998). "Big Data... y la próxima ola de InfraStress" (PDF) . Diapositivas de la charla invitada . Usenix. Archivado (PDF) desde el original el 12 de octubre de 2016 . Consultado el 28 de septiembre de 2016 .
^ Steve Lohr (1 de febrero de 2013). "Los orígenes del 'Big Data': una historia de detectives etimológica". Los New York Times . Archivado desde el original el 6 de marzo de 2016 . Consultado el 28 de septiembre de 2016 .
^ ab Snijders, Matzat y Reips 2012.
^ Dedic, N.; Stanier, C. (2017). "Hacia la diferenciación de la inteligencia empresarial, el big data, el análisis de datos y el descubrimiento del conocimiento". Innovaciones en la gestión e ingeniería de sistemas de información empresarial . Apuntes de conferencias sobre procesamiento de información empresarial. vol. 285. Berlín; Heidelberg: Springer International Publishing. págs. 114-22. doi :10.1007/978-3-319-58801-8_10. ISBN 978-3-319-58800-1. ISSN 1865-1356. OCLC 909580101. Archivado desde el original el 27 de noviembre de 2020 . Consultado el 7 de septiembre de 2019 .
^ Everts, Sarah (2016). "Sobrecarga de información". Destilaciones . vol. 2, núm. 2. págs. 26–33. Archivado desde el original el 3 de abril de 2019 . Consultado el 22 de marzo de 2018 .
^ Abraham; Targio Hashem, Abaker; Yaqoob, Ibrar; Badrul Anuar, ni; Mokhtar, Salimah; Gani, Abdullah; Ullah Khan, Samee (2015). "Big Data" sobre computación en la nube: temas de revisión y investigación abierta". Sistemas de información . 47 : 98–115. doi : 10.1016/j.is.2014.07.006. S2CID 205488005.
^ Grimes, Seth. "Big Data: evite la confusión de 'Wanna V'". Semana de la Información . Archivado desde el original el 23 de diciembre de 2015 . Consultado el 5 de enero de 2016 .
^ Fox, Charles (25 de marzo de 2018). Ciencia de datos para el transporte. Libros de texto Springer en Ciencias de la Tierra, Geografía y Medio Ambiente. Saltador. ISBN 9783319729527. Archivado desde el original el 1 de abril de 2018 . Consultado el 31 de marzo de 2018 .
^ Kitchin, Rob; McArdle, Gavin (2016). "¿Qué hace que Big Data sea Big Data? Explorando las características ontológicas de 26 conjuntos de datos". Big Data y sociedad . 3 : 1–10. doi : 10.1177/2053951716631130 . S2CID 55539845.
^ Balazka, Dominik; Rodighiero, Darío (2020). "Big Data y el pequeño Big Bang: una (R)evolución epistemológica". Fronteras en Big Data . 3 : 31. doi : 10.3389/fdata.2020.00031 . hdl : 1721.1/128865 . PMC 7931920 . PMID 33693404.
^ "con focalización en Big Data & Analytique" (PDF) . Bigdataparis.com . Archivado desde el original (PDF) el 25 de febrero de 2021 . Consultado el 8 de octubre de 2017 .
^ ab Billings SA "Identificación de sistemas no lineales: métodos NARMAX en los dominios de tiempo, frecuencia y espacio-temporal". wiley, 2013
^ "el Blog ANDSI» DSI Big Data ". Andsi.fr . Archivado desde el original el 10 de octubre de 2017 . Consultado el 8 de octubre de 2017 .
^ Les Echos (3 de abril de 2013). "Les Echos - ¿Datos de baja densidad del coche Big Data? La faible densidad en información como factor discriminante - Archivos". Lesechos.fr . Archivado desde el original el 30 de abril de 2014 . Consultado el 8 de octubre de 2017 .
^ Sagiroglu, Seref (2013). "Big data: una revisión". 2013 Conferencia Internacional sobre Tecnologías y Sistemas de Colaboración (CTS) . págs. 42–47. doi :10.1109/CTS.2013.6567202. ISBN 978-1-4673-6404-1. S2CID 5724608.
^ Kitchin, Rob; McArdle, Gavin (17 de febrero de 2016). "¿Qué hace que Big Data sea Big Data? Explorando las características ontológicas de 26 conjuntos de datos". Big Data y sociedad . 3 (1): 205395171663113. doi : 10.1177/2053951716631130 .
^ Onay, Ceilán; Öztürk, Elif (2018). "Una revisión de la investigación de calificación crediticia en la era del Big Data". Revista de Regulación y Cumplimiento Financiero . 26 (3): 382–405. doi :10.1108/JFRC-06-2017-0054. S2CID 158895306.
^ Cuarta V de Big Data
^ "Medición del valor empresarial de Big Data | IBM Big Data & Analytics Hub". www.ibmbigdatahub.com . Archivado desde el original el 28 de enero de 2021 . Consultado el 20 de enero de 2021 .
^ Kitchin, Rob; McArdle, Gavin (5 de enero de 2016). "¿Qué hace que Big Data sea Big Data? Explorando las características ontológicas de 26 conjuntos de datos". Big Data y sociedad . 3 (1): 205395171663113. doi : 10.1177/2053951716631130 . ISSN 2053-9517.
^ "Encuesta: las bases de datos más grandes se acercan a los 30 terabytes". Eweek.com . 8 de noviembre de 2003 . Consultado el 8 de octubre de 2017 .
^ "LexisNexis comprará Seisint por 775 millones de dólares". El Washington Post . Archivado desde el original el 24 de julio de 2008 . Consultado el 15 de julio de 2004 .
^ "El Washington Post". El Washington Post . Archivado desde el original el 19 de octubre de 2016 . Consultado el 24 de agosto de 2017 .
^ Bertolucci, Jeff "Hadoop: del experimento a la plataforma líder de Big Data" Archivado el 23 de noviembre de 2020 en Wayback Machine , "Information Week", 2013. Recuperado el 14 de noviembre de 2013.
^ Webster, Juan. "MapReduce: procesamiento de datos simplificado en grandes clústeres" Archivado el 14 de diciembre de 2009 en Wayback Machine , "Search Storage", 2004. Recuperado el 25 de marzo de 2013.
^ "Oferta de soluciones de Big Data". MIKE2.0. Archivado desde el original el 16 de marzo de 2013 . Consultado el 8 de diciembre de 2013 .
^ "Definición de big data". MIKE2.0. Archivado desde el original el 25 de septiembre de 2018 . Consultado el 9 de marzo de 2013 .
^ Boja, C; Pocovnicu, A; Bătăgan, L. (2012). "Arquitectura paralela distribuida para Big Data". Informática Económica . 16 (2): 116-127.
^ "Resolver desafíos comerciales clave con un gran lago de datos" (PDF) . Hcltech.com . Agosto de 2014. Archivado (PDF) desde el original el 3 de julio de 2017 . Consultado el 8 de octubre de 2017 .
^ "Método para probar la tolerancia a fallas de los marcos MapReduce" (PDF) . Red de computadoras. 2015. Archivado (PDF) desde el original el 22 de julio de 2016 . Consultado el 13 de abril de 2016 .
^ ab Manyika, James; Chui, Michael; Bughin, Jacques; Marrón, Brad; Dobbs, Richard; Roxburgh, Charles; Byers, Angela Hung (mayo de 2011). "Big Data: la próxima frontera para la innovación, la competencia y la productividad" (PDF) . Instituto Global McKinsey. Archivado (PDF) desde el original el 25 de julio de 2021 . Consultado el 22 de mayo de 2021 .
^ "Direcciones futuras en modelado y computación basados en tensores" (PDF) . Mayo de 2009. Archivado (PDF) desde el original el 17 de abril de 2018 . Consultado el 4 de enero de 2013 .
^ Lu, Haiping; Plataniotis, KN; Venetsanopoulos, AN (2011). "Un estudio sobre el aprendizaje subespacial multilineal para datos tensoriales" (PDF) . Reconocimiento de patrones . 44 (7): 1540-1551. Código Bib : 2011PatRe..44.1540L. doi :10.1016/j.patcog.2011.01.004. Archivado (PDF) desde el original el 10 de julio de 2019 . Consultado el 21 de enero de 2013 .
^ Pllana, Sabri; Janciak, Iván; Brézany, Peter; Wöhrer, Alejandro (2016). "Un estudio del estado del arte en lenguajes de consulta de integración y minería de datos". 2011 14ª Conferencia Internacional sobre Sistemas de Información Basados en Redes . Sociedad de Computación IEEE. págs. 341–348. arXiv : 1603.01113 . Código Bib : 2016arXiv160301113P. doi :10.1109/NBiS.2011.58. ISBN 978-1-4577-0789-6. S2CID 9285984.
^ Wang, Yandong; Goldstone, Robin; Yu, Weikuan; Wang, Teng (octubre de 2014). "Caracterización y optimización de MapReduce residente en memoria en sistemas HPC". 2014 IEEE 28º Simposio Internacional de Procesamiento Distribuido y Paralelo . IEEE. págs. 799–808. doi :10.1109/IPDPS.2014.87. ISBN 978-1-4799-3800-1. S2CID 11157612.
^ L'Heureux, A.; Grolinger, K.; Elyamany, HF; Capretz, MAM (2017). "Aprendizaje automático con Big Data: desafíos y enfoques". Acceso IEEE . 5 : 7776–7797. Código Bib : 2017IEEEA...5.7776L. doi : 10.1109/ACCESS.2017.2696365 . ISSN 2169-3536.
^ Monash, Curt (30 de abril de 2009). "Los dos enormes almacenes de datos de eBay". Archivado desde el original el 31 de marzo de 2019 . Consultado el 11 de noviembre de 2010 .
Monash, Curt (6 de octubre de 2010). "Seguimiento de eBay: Greenplum disponible, Teradata> 10 petabytes, Hadoop tiene cierto valor y más". Archivado desde el original el 31 de marzo de 2019 . Consultado el 11 de noviembre de 2010 .
^ "Recursos sobre cómo se utiliza el análisis de datos topológicos para analizar big data". Ayasdí. Archivado desde el original el 3 de marzo de 2013 . Consultado el 5 de marzo de 2013 .
^ Noticias CNET (1 de abril de 2011). "No es necesario aplicar las redes de área de almacenamiento". Archivado desde el original el 18 de octubre de 2013 . Consultado el 17 de abril de 2013 .
^ Hilbert, Martín (2014). "¿Cuál es el contenido de la capacidad de comunicación e información mediada tecnológicamente del mundo: cuánto texto, imagen, audio y vídeo?". La Sociedad de la Información . 30 (2): 127-143. doi :10.1080/01972243.2013.873748. S2CID 45759014. Archivado desde el original el 24 de junio de 2020 . Consultado el 12 de julio de 2019 .
^ Rajpurohit, Anmol (11 de julio de 2014). "Entrevista: Amy Gershkoff, directora de análisis e información del cliente de eBay, sobre cómo diseñar herramientas de BI internas personalizadas". KDnuggets . Archivado desde el original el 14 de julio de 2014 . Consultado el 14 de julio de 2014 . En general, encuentro que las herramientas de inteligencia empresarial disponibles en el mercado no satisfacen las necesidades de los clientes que desean obtener información personalizada a partir de sus datos. Por lo tanto, para organizaciones medianas y grandes con acceso a talento técnico sólido, generalmente recomiendo crear soluciones internas personalizadas.
^ "El Gobierno y el big data: uso, problemas y potencial". Mundo de la informática . 21 de marzo de 2012. Archivado desde el original el 15 de septiembre de 2016 . Consultado el 12 de septiembre de 2016 .
^ "Libro blanco: Big Data para el desarrollo: oportunidades y desafíos". Pulso Global . Naciones Unidas. 2012. Archivado desde el original el 1 de junio de 2020 . Consultado el 13 de abril de 2016 .
^ "Big Data, gran impacto: nuevas posibilidades para el desarrollo internacional". Foro Económico Mundial y Vital Wave Consulting. Archivado desde el original el 1 de junio de 2020 . Consultado el 24 de agosto de 2012 .
^ ABCDE Hilbert 2016.
^ "Elena Kvochko, Cuatro formas de hablar sobre Big Data (Serie Tecnologías de la información y la comunicación para el desarrollo)". bancomundial.org. 4 de diciembre de 2012. Archivado desde el original el 15 de diciembre de 2012 . Consultado el 30 de mayo de 2012 .
^ "Daniele Medri: Big Data y negocios: una revolución en curso". Vistas de estadísticas. 21 de octubre de 2013. Archivado desde el original el 17 de junio de 2015 . Consultado el 21 de junio de 2015 .
^ Tobias Knobloch y Julia Manske (11 de enero de 2016). "Uso responsable de los datos". D+C, Desarrollo y Cooperación . Archivado desde el original el 13 de enero de 2017 . Consultado el 11 de enero de 2017 .
^ Mann, S. y Hilbert, M. (2020). AI4D: Inteligencia Artificial para el Desarrollo. Revista Internacional de Comunicación, 14(0), 21. https://www.martinhilbert.net/ai4d-artificial-intelligence-for-development/ Archivado el 22 de abril de 2021 en Wayback Machine.
^ Blumenstock, JE (2016). Luchar contra la pobreza con datos. Ciencia, 353(6301), 753–754. https://doi.org/10.1126/science.aah5217 Archivado el 1 de junio de 2022 en Wayback Machine.
^ Blumenstock, J., Cadamuro, G. y On, R. (2015). Predecir la pobreza y la riqueza a partir de metadatos de teléfonos móviles. Ciencia, 350(6264), 1073–1076. https://doi.org/10.1126/science.aac4420 Archivado el 1 de junio de 2022 en Wayback Machine.
^ Jean, N., Burke, M., Xie, M., Davis, WM, Lobell, DB y Ermon, S. (2016). Combinando imágenes satelitales y aprendizaje automático para predecir la pobreza. Ciencia, 353(6301), 790–794. https://doi.org/10.1126/science.aaf7894 Archivado el 1 de junio de 2022 en Wayback Machine.
^ ab Hilbert, M. y Lu, K. (2020). La huella del mercado laboral en línea en América Latina y el Caribe (UN CEPAL LC/TS.2020/83; p. 79). Comisión Económica de las Naciones Unidas para América Latina y el Caribe. https://www.cepal.org/en/publications/45892-online-job-market-trace-latin-america-and-caribbean Archivado el 22 de septiembre de 2020 en Wayback Machine.
^ ONU CEPAL, (Comisión Económica de las Naciones Unidas para América Latina y el Caribe). (2020). Seguimiento de la huella digital en América Latina y el Caribe: Lecciones aprendidas del uso de big data para evaluar la economía digital (Desarrollo Productivo, Asuntos de Género LC/TS.2020/12; Documentos de Proyecto). Naciones Unidas CEPAL. https://repositorio.cepal.org/handle/11362/45484 Archivado el 18 de septiembre de 2020 en Wayback Machine.
^ Banerjee, Amitav; Chaudhury, Suprakash (2010). "Estadísticas sin lágrimas: Poblaciones y muestras". Revista de Psiquiatría Industrial . 19 (1): 60–65. doi : 10.4103/0972-6748.77642 . ISSN 0972-6748. PMC 3105563 . PMID 21694795.
^ Aldridge, Irene (2016). Riesgo en tiempo real: lo que los inversores deben saber sobre la tecnología financiera, el comercio de alta frecuencia y las caídas repentinas. Steven Krawciw. Voltereta: John Wiley & Sons, Incorporated. ISBN 978-1-119-31906-1. OCLC 972292212.
^ Aldridge, Irene (2021). Ciencia de big data en finanzas. Marco Avellaneda. Hoboken, Nueva Jersey: Wiley. ISBN 978-1-119-60297-2. OCLC 1184122216.
^ Huser V, Cimino JJ (julio de 2016). "Desafíos inminentes para el uso de Big Data". Revista internacional de radiación en oncología, biología, física . 95 (3): 890–894. doi :10.1016/j.ijrobp.2015.10.060. PMC 4860172 . PMID 26797535.
^ Sejdic, Ervin; Falk, Tiago H. (4 de julio de 2018). Procesamiento de señales y aprendizaje automático para big data biomédicos . Sejdić, Ervin, Falk, Tiago H. [Lugar de publicación no identificado]. ISBN 9781351061216. OCLC 1044733829.{{cite book}}: CS1 maint: location missing publisher (link)
^ Raghupathi W, Raghupathi V (diciembre de 2014). "Análisis de big data en la atención sanitaria: promesa y potencial". Sistemas y ciencias de la información sanitaria . 2 (1): 3. doi : 10.1186/2047-2501-2-3 . PMC 4341817 . PMID 25825667.
^ Viceconti M, Hunter P, Hose R (julio de 2015). "Big data, big conocimiento: big data para una atención sanitaria personalizada" (PDF) . Revista IEEE de Informática Biomédica y de Salud . 19 (4): 1209–15. doi : 10.1109/JBHI.2015.2406883 . PMID 26218867. S2CID 14710821. Archivado (PDF) desde el original el 23 de julio de 2018 . Consultado el 21 de septiembre de 2019 .
^ O'Donoghue, John; Herbert, John (1 de octubre de 2012). "Gestión de datos en entornos de mHealth: sensores de pacientes, dispositivos móviles y bases de datos". Revista de Calidad de Datos e Información . 4 (1): 5:1–5:20. doi :10.1145/2378016.2378021. S2CID 2318649.
^ Mirkes EM, Coats TJ, Levesley J, Gorban AN (agosto de 2016). "Manejo de datos faltantes en un gran conjunto de datos sanitarios: un estudio de caso de resultados de trauma desconocidos". Computadoras en Biología y Medicina . 75 : 203-16. arXiv : 1604.00627 . Código Bib : 2016arXiv160400627M. doi :10.1016/j.compbiomed.2016.06.004. PMID 27318570. S2CID 5874067.
^ Murdoch TB, Detsky AS (abril de 2013). "La inevitable aplicación del big data a la atención sanitaria". JAMA . 309 (13): 1351–2. doi :10.1001/jama.2013.393. PMID 23549579. S2CID 20462354.
^ Vayena E, Salathé M, Madoff LC, Brownstein JS (febrero de 2015). "Retos éticos del big data en salud pública". PLOS Biología Computacional . 11 (2): e1003904. Código Bib : 2015PLSCB..11E3904V. doi : 10.1371/journal.pcbi.1003904 . PMC 4321985 . PMID 25664461.
^ Copeland, CS (julio-agosto de 2017). "Descubrimiento de impulso de datos" (PDF) . Revista de atención sanitaria de Nueva Orleans : 22–27. Archivado (PDF) desde el original el 5 de diciembre de 2019 . Consultado el 5 de diciembre de 2019 .
^ Yanase y Triantaphyllou 2019.
^ Dong X, Bahroos N, Sadhu E, Jackson T, Chukhman M, Johnson R, Boyd A, Hynes D (2013). "Aproveche el marco de Hadoop para aplicaciones de informática clínica a gran escala". Cumbres conjuntas de la AMIA sobre procedimientos científicos traslacionales. Cumbres Conjuntas AMIA sobre Ciencia Traslacional . 2013 : 53. PMID 24303235.
^ Clunie, D. (2013). "La tomosíntesis mamaria desafía la infraestructura de imágenes digitales". Grupo de Ciencia y Medicina. Archivado desde el original el 24 de febrero de 2021 . Consultado el 28 de noviembre de 2023 .
^ Yanase J, Triantaphyllou E (2019b). "Los siete desafíos clave para el futuro del diagnóstico asistido por computadora en medicina". Revista Internacional de Informática Médica . 129 : 413–22. doi :10.1016/j.ijmedinf.2019.06.017. PMID 31445285. S2CID 198287435.
^ "Graduados en Big Data: moda pasajera o vía rápida hacia el éxito profesional". Forbes . Archivado desde el original el 3 de marzo de 2016 . Consultado el 21 de febrero de 2016 .
^ "Nueva York tiene un nuevo campo de entrenamiento para científicos de datos: es gratis pero más difícil de ingresar que Harvard". Vencer Beat . Archivado desde el original el 15 de febrero de 2016 . Consultado el 21 de febrero de 2016 .
^ Wedel, Michel; Kannan, PK (2016). "Análisis de marketing para entornos ricos en datos". Revista de marketing . 80 (6): 97-121. doi :10.1509/jm.15.0413. S2CID 168410284.
^ Podría, Nick; Turow, José (2014). "Publicidad, Big Data y la limpieza del ámbito público: nuevos enfoques de los especialistas en marketing para la subvención de contenidos". Revista Internacional de Comunicación . 8 : 1710-1726.
^ "Por qué las agencias de publicidad digital apestan en las adquisiciones y necesitan urgentemente una actualización asistida por IA". Ishti.org . 15 de abril de 2018. Archivado desde el original el 12 de febrero de 2019 . Consultado el 15 de abril de 2018 .
^ "Big data y análisis: C4 y Genius Digital". Ibc.org . Archivado desde el original el 8 de octubre de 2017 . Consultado el 8 de octubre de 2017 .
^ Marshall Allen (17 de julio de 2018). "Las aseguradoras de salud están recopilando detalles sobre usted y eso podría aumentar sus tarifas". www.propublica.org . Archivado desde el original el 21 de julio de 2018 . Consultado el 21 de julio de 2018 .
^ "QuiO nombrado campeón de innovación del desafío de innovación Accenture HealthTech". Businesswire.com . 10 de enero de 2017. Archivado desde el original el 22 de marzo de 2017 . Consultado el 8 de octubre de 2017 .
^ "Una plataforma de software para la innovación tecnológica operativa" (PDF) . Predix.com . Archivado desde el original (PDF) el 22 de marzo de 2017 . Consultado el 8 de octubre de 2017 .
^ Z. Jenipher Wang (marzo de 2017). "Transporte inteligente impulsado por big data: la historia subyacente de la movilidad transformada por IoT". Archivado desde el original el 4 de julio de 2018 . Consultado el 4 de julio de 2018 .
^ "Esa cosa del Internet de las cosas". 22 de junio de 2009. Archivado desde el original el 2 de mayo de 2013 . Consultado el 29 de diciembre de 2017 .
^ ab Solnik, Ray. "Ha llegado el momento: Analytics ofrece resultados para las operaciones de TI". Diario del centro de datos . Archivado desde el original el 4 de agosto de 2016 . Consultado el 21 de junio de 2016 .
^ "BigSurv: Big Data se une a la ciencia de las encuestas" . Consultado el 15 de octubre de 2023 .
^ Eck, Adán; Cazar, Ana Lucía Córdova; Callegaro, Mario; Biemer, Paul (2021). ""Big Data se encuentra con la ciencia de las encuestas"". Revisión de informática de ciencias sociales . 39 (4): 484–488. doi : 10.1177/0894439319883393 .
^ "Número especial: Big data se une a la ciencia de las encuestas". Revista de la Royal Statistical Society Serie A. 185 (T2): S165-S166.
^ "Integración de datos de encuestas y no encuestados para medir el comportamiento y la opinión pública". www.springeropen.com . Consultado el 19 de octubre de 2023 .
^ Colina, Craig A.; Biemer, Paul P.; Buskirk, Trent D.; Japec, Lilli; Kirchner, Antje; Kolénikov, Stas; Lyberg, Lars E., eds. (13 de octubre de 2020). Big Data se encuentra con la ciencia de las encuestas: una colección de métodos innovadores (1 ed.). Wiley. doi :10.1002/9781118976357. ISBN 978-1-118-97632-6. S2CID 240797608.
^ "Ganadores anteriores del premio Warren J. Mitofsky Innovators - AAPOR". 7 de junio de 2023 . Consultado el 19 de octubre de 2023 .
^ Fuerte, C. (2015). Humanizando big data: marketing en el encuentro de datos, ciencias sociales y conocimiento del consumidor . Página de Kogan.
^ Fuerte, C. (2015). Humanizando big data: marketing en el encuentro de datos, ciencias sociales y conocimiento del consumidor . Página de Kogan.
^ Berisha, B., Mëziu, E. y Shabani, I. (2022). Análisis de big data en la computación en la nube: una descripción general. Revista de Computación en la Nube , 11 (1), 1-10. doi :10.1186/s13677-022-00301-w
^ Bosch, Volker (1 de noviembre de 2016). "Big Data en la investigación de mercado: por qué más datos no significa automáticamente mejor información". Revisión de inteligencia de marketing de NIM . 8 (2): 56–63. doi :10.1515/gfkmir-2016-0017.
^ McFarland, Daniel A; McFarland, H. Richard (1 de diciembre de 2015). "Big Data y el peligro de ser precisamente imprecisos". Big Data y sociedad . 2 (2): 205395171560249.doi : 10.1177/2053951715602495. ISSN 2053-9517.
^ Sivarajah, Uthayasankar; Kamal, Muhammad Mustafa; iraní, Zahir; Weerakkody, Vishanth (1 de enero de 2017). "Análisis crítico de los desafíos del Big Data y métodos analíticos". Revista de investigación empresarial . 70 : 263–286. doi :10.1016/j.jbusres.2016.08.001. ISSN 0148-2963.
^ De Luca, Luigi M.; Herhausen, Dennis; Troilo, Gabriele; Rossi, Andrea (1 de julio de 2021). "¿Cómo y cuándo dan sus frutos las inversiones en big data? El papel de las posibilidades de marketing y la innovación de servicios". Revista de la Academia de Ciencias del Marketing . 49 (4): 790–810.
^ De Luca, Luigi M.; Herhausen, Dennis; Troilo, Gabriele; Rossi, Andrea (1 de julio de 2021). "¿Cómo y cuándo dan sus frutos las inversiones en big data? El papel de las posibilidades de marketing y la innovación de servicios". Revista de la Academia de Ciencias del Marketing . 49 (4): 790–810.
^ De Luca, Luigi M.; Herhausen, Dennis; Troilo, Gabriele; Rossi, Andrea (1 de julio de 2021). "¿Cómo y cuándo dan sus frutos las inversiones en big data? El papel de las posibilidades de marketing y la innovación de servicios". Revista de la Academia de Ciencias del Marketing . 49 (4): 790–810.
^ Grybauskas, Andrio; Pilinkienė, Vaida; Stundžienė, Alina (3 de agosto de 2021). “Análisis predictivo utilizando Big Data para el mercado inmobiliario durante la pandemia COVID-19”. Revista de Big Data . 8 (1): 105. doi :10.1186/s40537-021-00476-0. ISSN 2196-1115. PMC 8329615. PMID 34367876.
^ Josh Rogin (2 de agosto de 2018). "La limpieza étnica regresa: en China". No. El Washington Post. Archivado desde el original el 31 de marzo de 2019 . Consultado el 4 de agosto de 2018 . A esto se suma el estado de seguridad y vigilancia sin precedentes en Xinjiang, que incluye un monitoreo integral basado en tarjetas de identidad, puntos de control, reconocimiento facial y la recolección de ADN de millones de personas. Las autoridades introducen todos estos datos en una máquina de inteligencia artificial que califica la lealtad de la gente al Partido Comunista para controlar todos los aspectos de sus vidas.
^ "China: Big Data impulsa la represión en una región minoritaria: el programa de vigilancia predictiva señala a personas para investigaciones y detenciones". hrw.org . Observador de derechos humanos. 26 de febrero de 2018. Archivado desde el original el 21 de diciembre de 2019 . Consultado el 4 de agosto de 2018 .
^ "Disciplinar y castigar: el nacimiento del sistema de crédito social de China". La Nación . 23 de enero de 2019. Archivado desde el original el 13 de septiembre de 2019 . Consultado el 8 de agosto de 2019 .
^ "El sistema de seguimiento del comportamiento de China prohíbe a algunos viajar y comprar propiedades". Noticias CBS . 24 de abril de 2018. Archivado desde el original el 13 de agosto de 2019 . Consultado el 8 de agosto de 2019 .
^ "La complicada verdad sobre el sistema de crédito social de China". CABLEADO . 21 de enero de 2019. Archivado desde el original el 8 de agosto de 2019 . Consultado el 8 de agosto de 2019 .
^ "Noticias: Live Mint". ¿Las empresas indias están entendiendo suficientemente el Big Data? . Menta viva. 23 de junio de 2014. Archivado desde el original el 29 de noviembre de 2014 . Consultado el 22 de noviembre de 2014 .
^ "La startup israelí utiliza big data y hardware mínimo para tratar la diabetes". Los tiempos de Israel . Archivado desde el original el 1 de marzo de 2018 . Consultado el 28 de febrero de 2018 .
^ Singh, Gurparkash; Schulthess, Duane; Hughes, Nigel; Vannieuwenhuyse, Bart; Kalra, Dipak (2018). "Big data del mundo real para la investigación clínica y el desarrollo de fármacos". Descubrimiento de fármacos hoy . 23 (3): 652–660. doi : 10.1016/j.drudis.2017.12.002 . PMID 29294362.
^ "Avances recientes aportados por la computación en la nube móvil y el Internet de las cosas para aplicaciones de Big Data: una encuesta". Revista internacional de gestión de redes. 11 de marzo de 2016. Archivado desde el original el 1 de junio de 2022 . Consultado el 14 de septiembre de 2016 .
^ Kalil, Tom (29 de marzo de 2012). "Big Data es un gran problema". casablanca.gov . Archivado desde el original el 10 de enero de 2017 . Consultado el 26 de septiembre de 2012 , a través de Archivos Nacionales .
^ Oficina Ejecutiva del Presidente (marzo de 2012). "Big Data en todo el gobierno federal" (PDF) . Oficina de Política Científica y Tecnológica . Archivado (PDF) desde el original el 21 de enero de 2017 . Consultado el 26 de septiembre de 2012 , a través de Archivos Nacionales .
^ Lampitt, Andrew (14 de febrero de 2013). "La verdadera historia de cómo el análisis de big data ayudó a Obama a ganar". InfoMundo . Archivado desde el original el 5 de julio de 2014 . Consultado el 31 de mayo de 2014 .
^ "Noviembre de 2018 | TOP500 sitios de supercomputadoras". Archivado desde el original el 12 de junio de 2020 . Consultado el 13 de noviembre de 2018 .
^ Hoover, J. Nicolás. "Las 10 supercomputadoras más poderosas del gobierno". Semana de la Información . UBM. Archivado desde el original el 16 de octubre de 2013 . Consultado el 26 de septiembre de 2012 .
^ Bamford, James (15 de marzo de 2012). "La NSA está construyendo el centro de espionaje más grande del país (tenga cuidado con lo que dice)". Cableado . Archivado desde el original el 4 de abril de 2012 . Consultado el 18 de marzo de 2013 .
^ "Ceremonia de inauguración del centro de datos de Utah de 1.200 millones de dólares". Servicio Central de Seguridad de la Agencia de Seguridad Nacional. Archivado desde el original el 5 de septiembre de 2013 . Consultado el 18 de marzo de 2013 .
^ Hill, Cachemira. "Los planos del centro de datos ridículamente caro de la NSA en Utah sugieren que contiene menos información de la que se pensaba". Forbes . Archivado desde el original el 29 de marzo de 2018 . Consultado el 31 de octubre de 2013 .
^ Herrero, Gerry; Hallman, Ben (12 de junio de 2013). "La controversia sobre el espionaje de la NSA destaca la adopción de Big Data". Correo Huffington . Archivado desde el original el 19 de julio de 2017 . Consultado el 7 de mayo de 2018 .
^ Wingfield, Nick (12 de marzo de 2013). "Predecir los desplazamientos diarios al trabajo con mayor precisión para los posibles compradores de vivienda". Los New York Times . Archivado desde el original el 29 de mayo de 2013 . Consultado el 21 de julio de 2013 .
^ "Administrador de fraude FICO® Falcon®". Fico.com. Archivado desde el original el 11 de noviembre de 2012 . Consultado el 21 de julio de 2013 .
^ Alejandro, Dan. "Profe" (PDF) . cds.cern.ch. _ CERN. Archivado (PDF) desde el original el 15 de julio de 2017 . Consultado el 24 de marzo de 2015 .
^ "Folleto del LHC, versión en inglés. Presentación del acelerador de partículas más grande y potente del mundo, el Gran Colisionador de Hadrones (LHC), que se puso en marcha en 2008. Se explica su función, características, tecnologías, etc. público en general". CERN-Folleto-2010-006-Esp. Folleto del LHC, versión en inglés . CERN. Archivado desde el original el 19 de marzo de 2019 . Consultado el 20 de enero de 2013 .
^ "Guía del LHC, versión en inglés. Una colección de datos y cifras sobre el Gran Colisionador de Hadrones (LHC) en forma de preguntas y respuestas". CERN-Folleto-2008-001-Eng. Guía del LHC, versión en inglés . CERN. Archivado desde el original el 7 de abril de 2020 . Consultado el 20 de enero de 2013 .
^ Brumfiel, Geoff (19 de enero de 2011). "Física de alta energía: por la autopista de los petabytes". Naturaleza . 469 (7330): 282–83. Código Bib :2011Natur.469..282B. doi : 10.1038/469282a . PMID 21248814. S2CID 533166.
^ "IBM Research - Zúrich" (PDF) . Zurich.ibm.com . Archivado desde el original el 1 de junio de 2022 . Consultado el 8 de octubre de 2017 .
^ "La futura matriz de telescopios impulsa el desarrollo del procesamiento Exabyte". Ars Técnica . 2 de abril de 2012. Archivado desde el original el 31 de marzo de 2019 . Consultado el 15 de abril de 2015 .
^ "La oferta de Australia por Square Kilometer Array: una perspectiva privilegiada". La conversación . 1 de febrero de 2012. Archivado desde el original el 12 de octubre de 2016 . Consultado el 27 de septiembre de 2016 .
^ "Delort P., Foro de previsión tecnológica de la ICCP de la OCDE, 2012" (PDF) . OCDE.org . Archivado (PDF) desde el original el 19 de junio de 2017 . Consultado el 8 de octubre de 2017 .
^ "NASA - NASA Goddard presenta el Centro de simulación climática de la NASA". Nasa.gov . Archivado desde el original el 3 de abril de 2016 . Consultado el 13 de abril de 2016 .
^ Webster, Phil. "Supercomputación del clima: la misión de Big Data de la NASA". Mundo CSC . Corporación de Ciencias de la Computación. Archivado desde el original el 4 de enero de 2013 . Consultado el 18 de enero de 2013 .
^ "Estas seis grandes ideas de la neurociencia podrían dar el salto del laboratorio al mercado". El globo y el correo . 20 de noviembre de 2014. Archivado desde el original el 11 de octubre de 2016 . Consultado el 1 de octubre de 2016 .
^ "DNAstack aborda conjuntos de datos de ADN complejos y masivos con Google Genomics". Plataforma en la nube de Google. Archivado desde el original el 24 de septiembre de 2016 . Consultado el 1 de octubre de 2016 .
^ "23andMe - Ascendencia". 23andme.com . Archivado desde el original el 18 de diciembre de 2016 . Consultado el 29 de diciembre de 2016 .
^ ab Potenza, Alessandra (13 de julio de 2016). "23andMe quiere que los investigadores utilicen sus kits, en un intento por ampliar su colección de datos genéticos". El borde . Archivado desde el original el 29 de diciembre de 2016 . Consultado el 29 de diciembre de 2016 .
^ "Esta startup secuenciará su ADN para que pueda contribuir a la investigación médica". Empresa Rápida . 23 de diciembre de 2016. Archivado desde el original el 29 de diciembre de 2016 . Consultado el 29 de diciembre de 2016 .
^ Seife, Charles. "23andMe es aterrador, pero no por las razones que cree la FDA". Científico americano . Archivado desde el original el 29 de diciembre de 2016 . Consultado el 29 de diciembre de 2016 .
^ Zaleski, Andrew (22 de junio de 2016). "Esta nueva empresa de biotecnología apuesta a que sus genes producirán el próximo fármaco maravilloso". CNBC. Archivado desde el original el 29 de diciembre de 2016 . Consultado el 29 de diciembre de 2016 .
^ Regalado, Antonio. "Cómo 23andMe convirtió su ADN en una máquina de descubrimiento de fármacos valorada en mil millones de dólares". Revisión de tecnología del MIT . Archivado desde el original el 29 de diciembre de 2016 . Consultado el 29 de diciembre de 2016 .
^ "Los informes de 23andMe aumentan las solicitudes de datos a raíz del estudio de depresión de Pfizer | FierceBiotech". ferozbiotech.com . 22 de agosto de 2016. Archivado desde el original el 29 de diciembre de 2016 . Consultado el 29 de diciembre de 2016 .
^ Admira Moyo (23 de octubre de 2015). "Los científicos de datos predicen la derrota de los Springbok". itweb.co.za . Archivado desde el original el 22 de diciembre de 2015 . Consultado el 12 de diciembre de 2015 .
^ Bai, Zhongbo; Bai, Xiaomei (2021). "Big Data deportivo: gestión, análisis, aplicaciones y desafíos". Complejidad . 2021 : 1–11. doi : 10.1155/2021/6676297 .
^ Regina Pazvakavambwa (17 de noviembre de 2015). "El análisis predictivo y el big data transforman el deporte". itweb.co.za . Archivado desde el original el 22 de diciembre de 2015 . Consultado el 12 de diciembre de 2015 .
^ Dave Ryan (13 de noviembre de 2015). "Deportes: donde los macrodatos finalmente tienen sentido". huffingtonpost.com . Archivado desde el original el 22 de diciembre de 2015 . Consultado el 12 de diciembre de 2015 .
^ Frank Bi. "Cómo los equipos de Fórmula Uno están utilizando Big Data para obtener ventaja interna". Forbes . Archivado desde el original el 20 de diciembre de 2015 . Consultado el 12 de diciembre de 2015 .
^ Tay, Liz. "Dentro del almacén de datos de 90 PB de eBay". Noticias de TI. Archivado desde el original el 15 de febrero de 2016 . Consultado el 12 de febrero de 2016 .
^ Layton, Julia (25 de enero de 2006). "Tecnología Amazónica". Dinero.howstuffworks.com. Archivado desde el original el 28 de febrero de 2013 . Consultado el 5 de marzo de 2013 .
^ "Escalar Facebook a 500 millones de usuarios y más". Facebook.com. Archivado desde el original el 5 de julio de 2013 . Consultado el 21 de julio de 2013 .
^ Constine, Josh (27 de junio de 2017). "Facebook tiene ahora 2 mil millones de usuarios mensuales... y responsabilidad". TechCrunch . Archivado desde el original el 27 de diciembre de 2020 . Consultado el 3 de septiembre de 2018 .
^ "Google sigue realizando al menos un billón de búsquedas al año". Tierra de motores de búsqueda . 16 de enero de 2015. Archivado desde el original el 15 de abril de 2015 . Consultado el 15 de abril de 2015 .
^ Haleem, Abid; Javaid, Mohd; Khan, Ibrahim; Vaishya, Raju (2020). "Aplicaciones importantes de Big Data en la pandemia de COVID-19". Revista India de Ortopedia . 54 (4): 526–528. doi :10.1007/s43465-020-00129-z. PMC 7204193 . PMID 32382166.
^ Manancourt, Vincent (10 de marzo de 2020). "El coronavirus pone a prueba la determinación de Europa en materia de privacidad". Político . Archivado desde el original el 20 de marzo de 2020 . Consultado el 30 de octubre de 2020 .
^ Choudhury, Amit Roy (27 de marzo de 2020). "Gobernador en la época de Corona". Información privilegiada del gobierno . Archivado desde el original el 20 de marzo de 2020 . Consultado el 30 de octubre de 2020 .
^ Cellan-Jones, Rory (11 de febrero de 2020). "China lanza la aplicación 'detector de contacto cercano' de coronavirus". BBC . Archivado desde el original el 28 de febrero de 2020 . Consultado el 30 de octubre de 2020 .
^ Siwach, Gautam; Esmailpour, Amir (marzo de 2014). Búsqueda cifrada y formación de clústeres en Big Data (PDF) . Conferencia ASEE 2014 Zona I. Universidad de Bridgeport , Bridgeport , Connecticut, Estados Unidos. Archivado desde el original (PDF) el 9 de agosto de 2014 . Consultado el 26 de julio de 2014 .
^ "La administración Obama presenta la iniciativa" Big Data ": anuncia 200 millones de dólares en nuevas inversiones en I + D" (PDF) . Oficina de Política Científica y Tecnológica . Archivado (PDF) desde el original el 21 de enero de 2017, a través de Archivos Nacionales .
^ "AMPLab de la Universidad de California, Berkeley". Amplab.cs.berkeley.edu. Archivado desde el original el 6 de mayo de 2011 . Consultado el 5 de marzo de 2013 .
^ "NSF lidera los esfuerzos federales en Big Data". Fundación Nacional de Ciencias (NSF). 29 de marzo de 2012. Archivado desde el original el 31 de marzo de 2019 . Consultado el 6 de abril de 2018 .
^ Timoteo cazador; Teodor Moldavo; Matei Zaharia; Justin Ma; Michael Franklin; Pieter Abbeel ; Alexandre Bayen (octubre de 2011). Escalando el Sistema Móvil Millennium en la Nube. Archivado desde el original el 31 de marzo de 2019 . Consultado el 2 de noviembre de 2012 .
^ David Patterson (5 de diciembre de 2011). "Los informáticos pueden tener lo necesario para ayudar a curar el cáncer". Los New York Times . Archivado desde el original el 30 de enero de 2017 . Consultado el 26 de febrero de 2017 .
^ "El secretario Chu anuncia un nuevo instituto para ayudar a los científicos a mejorar la investigación de conjuntos de datos masivos en supercomputadoras del DOE". energía.gov. Archivado desde el original el 3 de abril de 2019 . Consultado el 2 de noviembre de 2012 .
^ Joven, Shannon (30 de mayo de 2012). "El gobernador de Massachusetts y el MIT anuncian una iniciativa de big data". Boston.com . Archivado desde el original el 29 de julio de 2021 . Consultado el 29 de julio de 2021 .
^ "Grandes datos @ CSAIL". Bigdata.csail.mit.edu. 22 de febrero de 2013. Archivado desde el original el 30 de marzo de 2013 . Consultado el 5 de marzo de 2013 .
^ "Foro público privado de Big Data". cordis.europa.eu. 1 de septiembre de 2012. Archivado desde el original el 9 de marzo de 2021 . Consultado el 16 de marzo de 2020 .
^ "Se creará el Instituto Alan Turing para investigar big data". Noticias de la BBC . 19 de marzo de 2014. Archivado desde el original el 18 de agosto de 2021 . Consultado el 19 de marzo de 2014 .
^ "Día de la inspiración en la Universidad de Waterloo, campus de Stratford". betakit.com/. Archivado desde el original el 26 de febrero de 2014 . Consultado el 28 de febrero de 2014 .
^ abc Reips, Ulf-Dietrich; Matzat, Uwe (2014). "Minería" Big Data "utilizando servicios de Big Data". Revista Internacional de Ciencia de Internet . 1 (1): 1–8. Archivado desde el original el 14 de agosto de 2014 . Consultado el 14 de agosto de 2014 .
^ Preis T, Moat HS, Stanley HE, Bishop SR (2012). "Cuantificando la ventaja de mirar hacia adelante". Informes científicos . 2 : 350. Código Bib : 2012NatSR...2E.350P. doi :10.1038/srep00350. PMC 3320057 . PMID 22482034.
^ Marks, Paul (5 de abril de 2012). "Búsquedas online de futuro ligadas al éxito económico". Científico nuevo . Archivado desde el original el 8 de abril de 2012 . Consultado el 9 de abril de 2012 .
^ Johnston, Casey (6 de abril de 2012). "Google Trends revela pistas sobre la mentalidad de las naciones más ricas". Ars Técnica . Archivado desde el original el 7 de abril de 2012 . Consultado el 9 de abril de 2012 .
^ Tobias Preis (24 de mayo de 2012). "Información complementaria: el índice de orientación futura está disponible para descargar" (PDF) . Archivado (PDF) desde el original el 17 de enero de 2013 . Consultado el 24 de mayo de 2012 .
^ Philip Ball (26 de abril de 2013). "Contar las búsquedas en Google predice los movimientos del mercado". Naturaleza . doi :10.1038/naturaleza.2013.12879. S2CID 167357427. Archivado desde el original el 27 de septiembre de 2013 . Consultado el 9 de agosto de 2013 .
^ Preis T, Moat HS, Stanley HE (2013). "Cuantificar el comportamiento comercial en los mercados financieros utilizando Google Trends". Informes científicos . 3 : 1684. Código bibliográfico : 2013NatSR...3E1684P. doi :10.1038/srep01684. PMC 3635219 . PMID 23619126.
^ Nick Bilton (26 de abril de 2013). "Los términos de búsqueda de Google pueden predecir el mercado de valores, según un estudio". Los New York Times . Archivado desde el original el 2 de junio de 2013 . Consultado el 9 de agosto de 2013 .
^ Christopher Matthews (26 de abril de 2013). "¿Problemas con su cartera de inversiones? ¡Busque en Google!". Tiempo . Archivado desde el original el 21 de agosto de 2013 . Consultado el 9 de agosto de 2013 .
^ Philip Ball (26 de abril de 2013). "Contar las búsquedas en Google predice los movimientos del mercado". Naturaleza . doi :10.1038/naturaleza.2013.12879. S2CID 167357427. Archivado desde el original el 27 de septiembre de 2013 . Consultado el 9 de agosto de 2013 .
^ Bernhard Warner (25 de abril de 2013). "'Los investigadores de Big Data recurren a Google para ganarle a los mercados ". Semana empresarial de Bloomberg . Archivado desde el original el 23 de julio de 2013 . Consultado el 9 de agosto de 2013 .
^ Hamish McRae (28 de abril de 2013). "Hamish McRae: ¿Necesita una información valiosa sobre el sentimiento de los inversores? Busque en Google". El independiente . Londres. Archivado desde el original el 25 de julio de 2018 . Consultado el 9 de agosto de 2013 .
^ Richard Waters (25 de abril de 2013). "La búsqueda en Google demuestra ser una palabra nueva en la predicción del mercado de valores". Tiempos financieros . Archivado desde el original el 1 de junio de 2022 . Consultado el 9 de agosto de 2013 .
^ Jason Palmer (25 de abril de 2013). "Las búsquedas en Google predicen los movimientos del mercado". BBC . Archivado desde el original el 5 de junio de 2013 . Consultado el 9 de agosto de 2013 .
^ E. Sejdić (marzo de 2014). "Adaptar las herramientas actuales para su uso con big data". Naturaleza . 507 (7492): 306.
^ Chris Kimble; Giannis Milolidakis (7 de octubre de 2015). "Big Data e inteligencia empresarial: desacreditando los mitos". Excelencia empresarial y organizacional global . 35 (1): 23–34. arXiv : 1511.03085 . doi :10.1002/JOE.21642. ISSN 1932-2054. Wikidata Q56532925.
^ Chris Anderson (23 de junio de 2008). "El fin de la teoría: la avalancha de datos hace obsoleto el método científico". Cableado . Archivado desde el original el 27 de marzo de 2014 . Consultado el 5 de marzo de 2017 .
^ Graham M. (9 de marzo de 2012). "¿Big data y el fin de la teoría?". El guardián . Londres. Archivado desde el original el 24 de julio de 2013 . Consultado el 14 de diciembre de 2016 .
^ Shah, Shvetank; Horne, Andrés; Capellá, Jaime (abril de 2012). "Los buenos datos no garantizan buenas decisiones". Revisión de negocios de Harvard . Archivado desde el original el 11 de septiembre de 2012 . Consultado el 8 de septiembre de 2012 .
^ ab Big Data requiere grandes visiones para grandes cambios. Archivado el 2 de diciembre de 2016 en Wayback Machine , Hilbert, M. (2014). Londres: TEDx UCL, x=charlas TED organizadas de forma independiente
^ Alemany Oliver, Mathieu; Vayre, Jean-Sebastien (2015). "Big Data y el futuro de la producción de conocimiento en la investigación de mercados: ética, huellas digitales y razonamiento abductivo". Revista de análisis de marketing . 3 (1): 5–13. doi :10.1057/jma.2015.1. S2CID 111360835.
^ Jonathan Rauch (1 de abril de 2002). "Ver las esquinas". El Atlántico . Archivado desde el original el 4 de abril de 2017 . Consultado el 5 de marzo de 2017 .
^ Epstein, JM y Axtell, RL (1996). Sociedades artificiales en crecimiento: ciencias sociales desde abajo hacia arriba. Un libro de Bradford.
^ "Delort P., Big data en biociencias, Big Data Paris, 2012" (PDF) . Bigdata París . Archivado desde el original (PDF) el 30 de julio de 2016 . Consultado el 8 de octubre de 2017 .
^ "Genómica de próxima generación: un enfoque integrador" (PDF) . naturaleza. Julio de 2010. Archivado (PDF) desde el original el 13 de agosto de 2017 . Consultado el 18 de octubre de 2016 .
^ "Big Data en Biociencias". Octubre de 2015. Archivado desde el original el 1 de junio de 2022 . Consultado el 18 de octubre de 2016 .
^ "Big data: ¿estamos cometiendo un gran error?". Tiempos financieros . 28 de marzo de 2014. Archivado desde el original el 30 de junio de 2016 . Consultado el 20 de octubre de 2016 .
^ Ohm, Paul (23 de agosto de 2012). "No construyas una base de datos de ruinas". Revisión de negocios de Harvard . Archivado desde el original el 30 de agosto de 2012 . Consultado el 29 de agosto de 2012 .
^ Bond-Graham, Darwin (2018). "La perspectiva sobre Big Data" Archivado el 9 de noviembre de 2020 en Wayback Machine . La perspectiva .
^ Barocas, Solón; Nissenbaum, Helen; Carril, Julia; Stodden, Victoria; Bender, Stefan; Nissenbaum, Helen (junio de 2014). "El fin del Big Data en torno al anonimato y el consentimiento ". Prensa de la Universidad de Cambridge. págs. 44–75. doi :10.1017/cbo9781107590205.004. ISBN 9781107067356. S2CID 152939392.
^ Lugmayr, A.; Stockleben, B; Scheib, C.; Mailaparampil, M.; Mesia, N.; Ranta, H.; Lab, E. (1 de junio de 2016). "Una encuesta completa sobre la investigación de Big Data y sus implicaciones. ¿Qué es realmente 'nuevo' en Big Data? ¡Son Big Data cognitivos!". Archivado desde el original el 1 de junio de 2022 . Consultado el 27 de noviembre de 2023 .
^ Danah Boyd (29 de abril de 2010). "Privacidad y publicidad en el contexto del Big Data". Conferencia WWW 2010 . Archivado desde el original el 22 de octubre de 2018 . Consultado el 18 de abril de 2011 .
^ Katyal, Sonia K. (2019). "Inteligencia artificial, publicidad y desinformación". Publicidad y Sociedad Trimestral . 20 (4). doi :10.1353/asr.2019.0026. ISSN 2475-1790. S2CID 213397212. Archivado desde el original el 28 de octubre de 2020 . Consultado el 18 de noviembre de 2020 .
^ Jones, MB; Schildhauer, diputado; Reichman, DO; Bowers, S (2006). "La Nueva Bioinformática: Integrando Datos Ecológicos del Gen a la Biosfera" (PDF) . Revisión anual de ecología, evolución y sistemática . 37 (1): 519–544. doi : 10.1146/annurev.ecolsys.37.091305.110031. Archivado (PDF) desde el original el 8 de julio de 2019 . Consultado el 19 de septiembre de 2012 .
^ ab Boyd, D.; Crawford, K. (2012). "Preguntas críticas para Big Data". Información, Comunicación y Sociedad . 15 (5): 662–679. doi :10.1080/1369118X.2012.678878. hdl : 10983/1320 . S2CID 51843165.
^ Fracaso en el lanzamiento: del big data a las grandes decisiones Archivado el 6 de diciembre de 2016 en Wayback Machine , Forte Wares.
^ "15 cosas locas que se correlacionan entre sí". Archivado desde el original el 27 de junio de 2019 . Consultado el 27 de junio de 2019 .
^ "Estructuras y algoritmos aleatorios". Archivado desde el original el 27 de junio de 2019 . Consultado el 27 de junio de 2019 .
^ Cristian S. Calude, Giuseppe Longo, (2016), El diluvio de correlaciones espurias en Big Data, Fundamentos de la ciencia
^ Anja Lambrecht y Catherine Tucker (2016) "Los 4 errores que cometen la mayoría de los gerentes con el análisis", Harvard Business Review , 12 de julio. https://hbr.org/2016/07/the-4-mistakes-most-managers-make -con-analítica Archivado el 26 de enero de 2022 en Wayback Machine.
^ ab Gregory Piatetsky (12 de agosto de 2014). "Entrevista: Michael Berthold, fundador de KNIME, sobre investigación, creatividad, big data y privacidad, parte 2". KDnuggets. Archivado desde el original el 13 de agosto de 2014 . Consultado el 13 de agosto de 2014 .
^ Pelt, Mason (26 de octubre de 2015). ""Big Data "es una palabra de moda muy utilizada y este robot de Twitter lo demuestra". Ángulo de silicio . Archivado desde el original el 30 de octubre de 2015 . Consultado el 4 de noviembre de 2015 .
^ ab Harford, Tim (28 de marzo de 2014). "Big data: ¿estamos cometiendo un gran error?". Tiempos financieros . Archivado desde el original el 7 de abril de 2014 . Consultado el 7 de abril de 2014 .
^ Ioannidis JP (agosto de 2005). "Por qué la mayoría de los resultados de las investigaciones publicadas son falsos". Más Medicina . 2 (8): e124. doi : 10.1371/journal.pmed.0020124 . PMC 1182327 . PMID 16060722.
^ Lohr, Steve; Cantante, Natasha (10 de noviembre de 2016). "Cómo los datos nos fallaron al convocar elecciones". Los New York Times . ISSN 0362-4331. Archivado desde el original el 25 de noviembre de 2016 . Consultado el 27 de noviembre de 2016 .
^ "Cómo la actuación policial basada en datos amenaza la libertad humana". El economista . 4 de junio de 2018. ISSN 0013-0613. Archivado desde el original el 27 de octubre de 2019 . Consultado el 27 de octubre de 2019 .
^ Brayne, Sarah (29 de agosto de 2017). "Vigilancia de big data: el caso de la vigilancia policial". Revista sociológica estadounidense . 82 (5): 977–1008. doi :10.1177/0003122417725865. PMC 10846878 . S2CID 3609838.

Bibliografía

Hilbert, M (2016), "Big Data para el desarrollo: una revisión de promesas y desafíos", Revisión de políticas de desarrollo , 34 (1): 135–74, doi : 10.1111/dpr.12142; acceso gratuito, Archivado el 21 de abril de 2021 en Wayback Machine.
Snijders, C.; Matzat, U.; Reips, U.-D. (2012). "'Big Data': Grandes lagunas de conocimiento en el campo de Internet". Revista Internacional de Ciencia de Internet . 7 : 1–5. Archivado desde el original el 23 de noviembre de 2019 . Consultado el 13 de abril de 2013 .
Yanase, J; Triantaphyllou, E (2019). "Un estudio sistemático del diagnóstico asistido por computadora en medicina: desarrollos pasados y presentes". Sistemas Expertos con Aplicaciones . 138 : 112821. doi : 10.1016/j.eswa.2019.112821. S2CID 199019309.

Otras lecturas

Peter Kinnaird; Inbal Talgam-Cohen, eds. (2012). "Grandes datos". XRDS: Crossroads, la revista ACM para estudiantes . vol. 19, núm. 1. Asociación de Maquinaria de Computación . ISSN 1528-4980. OCLC 779657714.
Juré Leskovec ; Anand Rajaraman ; Jeffrey D. Ullman (2014). Minería de conjuntos de datos masivos. Prensa de la Universidad de Cambridge. ISBN 978-1-10707723-2. OCLC 888463433.
Viktor Mayer-Schönberger ; Kenneth Cukier (2013). Big Data: una revolución que transformará nuestra forma de vivir, trabajar y pensar . Houghton Mifflin Harcourt. ISBN 978-1-29990302-9. OCLC 828620988.
Prensa, Gil (9 de mayo de 2013). "Una historia muy breve de Big Data". forbes.com . Jersey City, Nueva Jersey . Consultado el 17 de septiembre de 2016 .
Stephens-Davidowitz, Seth (2017). Todo el mundo miente: Big Data, nuevos datos y lo que Internet puede decirnos sobre quiénes somos realmente . Libros de la calle Dey. ISBN 978-0-06239085-1.
"Big Data: la revolución de la gestión". Revisión de negocios de Harvard . Octubre 2012.
O'Neil, Cathy (2017). Armas de destrucción matemática: cómo los macrodatos aumentan la desigualdad y amenazan la democracia . Libros de Broadway. ISBN 978-0-55341883-5.

enlaces externos

Medios relacionados con Big data en Wikimedia Commons
La definición del diccionario de big data en Wikcionario