stringtranslate.com

Grandes datos

Crecimiento no lineal de la capacidad de almacenamiento de información digital global y disminución del almacenamiento analógico [1] [ necesita actualización ]

El término big data se refiere principalmente a conjuntos de datos que son demasiado grandes o complejos para ser tratados por un software de procesamiento de datos tradicional . Los datos con muchas entradas (filas) ofrecen un mayor poder estadístico , mientras que los datos con mayor complejidad (más atributos o columnas) pueden llevar a una mayor tasa de descubrimientos falsos . [2] Aunque a veces se utiliza de forma imprecisa, en parte debido a la falta de una definición formal, la mejor interpretación es que se trata de un gran cuerpo de información que no se puede comprender cuando se utiliza solo en pequeñas cantidades. [3]

Los desafíos del análisis de big data incluyen la captura de datos , el almacenamiento de datos , el análisis de datos , la búsqueda, el uso compartido , la transferencia , la visualización , la consulta , la actualización, la privacidad de la información y la fuente de datos. Originalmente, el big data se asociaba con tres conceptos clave: volumen , variedad y velocidad . [4] El análisis de big data presenta desafíos en el muestreo, por lo que anteriormente solo permitía observaciones y muestreos. Por lo tanto, un cuarto concepto, la veracidad, se refiere a la calidad o el grado de conocimiento de los datos. [5] Sin una inversión suficiente en experiencia para la veracidad de big data, el volumen y la variedad de datos pueden producir costos y riesgos que excedan la capacidad de una organización para crear y capturar valor a partir de big data . [6]

El uso actual del término big data tiende a referirse al uso de análisis predictivos , análisis del comportamiento del usuario u otros métodos avanzados de análisis de datos que extraen valor de los grandes datos, y rara vez a un tamaño particular de conjunto de datos. "Hay pocas dudas de que las cantidades de datos disponibles ahora son de hecho grandes, pero esa no es la característica más relevante de este nuevo ecosistema de datos". [7] El análisis de conjuntos de datos puede encontrar nuevas correlaciones para "detectar tendencias comerciales, prevenir enfermedades, combatir el crimen, etc." [8] Los científicos, ejecutivos de empresas, médicos, publicidad y gobiernos por igual encuentran regularmente dificultades con grandes conjuntos de datos en áreas que incluyen búsquedas en Internet , tecnología financiera , análisis de atención médica, sistemas de información geográfica, informática urbana e informática empresarial . Los científicos encuentran limitaciones en el trabajo de e-Ciencia , incluida la meteorología , la genómica , [9] la conectómica , simulaciones físicas complejas, biología e investigación ambiental. [10]

El tamaño y la cantidad de conjuntos de datos disponibles han crecido rápidamente a medida que los datos se recopilan mediante dispositivos como dispositivos móviles , dispositivos de Internet de las cosas baratos y numerosos que detectan información , equipos aéreos ( detección remota ), registros de software, cámaras , micrófonos, lectores de identificación por radiofrecuencia (RFID) y redes de sensores inalámbricos . [11] [12] La capacidad tecnológica per cápita del mundo para almacenar información se ha duplicado aproximadamente cada 40 meses desde la década de 1980; [13] a partir de 2012 , cada día se generan 2,5 exabytes (2,17 × 2 60 bytes) de datos. [14] Según una predicción de un informe de IDC , se predijo que el volumen global de datos crecería exponencialmente de 4,4 zettabytes a 44 zettabytes entre 2013 y 2020. Para 2025, IDC predice que habrá 163 zettabytes de datos. [15] Según IDC, se estima que el gasto mundial en soluciones de big data y análisis de negocios (BDA) alcanzará los 215.700 millones de dólares en 2021. [16] [17] Según un informe de Statista , se prevé que el mercado mundial de big data crezca hasta los 103.000 millones de dólares en 2027. [18] En 2011, McKinsey & Company informó que, si el sector sanitario estadounidense utilizara big data de forma creativa y eficaz para impulsar la eficiencia y la calidad, podría crear más de 300.000 millones de dólares en valor cada año. [19] En las economías desarrolladas de Europa, los administradores gubernamentales podrían ahorrar más de 100.000 millones de euros (149.000 millones de dólares) solo en mejoras de eficiencia operativa utilizando big data. [19] Y los usuarios de servicios habilitados por datos de ubicación personal podrían capturar 600.000 millones de dólares en excedente del consumidor. [19] Una cuestión para las grandes empresas es determinar quién debería ser el propietario de las iniciativas de big data que afectan a toda la organización. [20]

Los sistemas de gestión de bases de datos relacionales y los paquetes de software estadístico de escritorio que se utilizan para visualizar datos suelen tener dificultades para procesar y analizar grandes volúmenes de datos. El procesamiento y análisis de grandes volúmenes de datos puede requerir "un software masivamente paralelo que se ejecute en decenas, cientos o incluso miles de servidores". [21] Lo que se considera "grandes volúmenes de datos" varía en función de las capacidades de quienes los analizan y de sus herramientas. Además, la expansión de las capacidades convierte a los grandes volúmenes de datos en un objetivo en movimiento. "Para algunas organizaciones, enfrentarse por primera vez a cientos de gigabytes de datos puede desencadenar la necesidad de reconsiderar las opciones de gestión de datos. Para otras, pueden ser necesarias decenas o cientos de terabytes antes de que el tamaño de los datos se convierta en una consideración importante". [22]

Definición

El término big data se ha utilizado desde la década de 1990, y algunos atribuyen el mérito a John Mashey por popularizar el término. [23] [24] El big data generalmente incluye conjuntos de datos con tamaños que superan la capacidad de las herramientas de software comúnmente utilizadas para capturar , curar , administrar y procesar datos dentro de un tiempo transcurrido tolerable. [25] [ página necesaria ] La filosofía del big data abarca datos no estructurados, semiestructurados y estructurados; sin embargo, el enfoque principal está en los datos no estructurados. [26] El "tamaño" del big data es un objetivo en constante movimiento; a partir de 2012, oscilaba entre unas pocas docenas de terabytes y muchos zettabytes de datos. [27] El big data requiere un conjunto de técnicas y tecnologías con nuevas formas de integración para revelar información de conjuntos de datos que son diversos, complejos y de escala masiva. [28]

Algunas organizaciones añaden "volumen", "variedad", "velocidad" y otras "V" para describirlo, una revisión que ha sido cuestionada por algunas autoridades de la industria. [29] Las V de los macrodatos se denominaban a menudo "tres V", "cuatro V" y "cinco V". Representaban las cualidades de los macrodatos en volumen, variedad, velocidad, veracidad y valor. [5] La variabilidad se incluye a menudo como una cualidad adicional de los macrodatos.

Una definición de 2018 establece que "Big data es donde se necesitan herramientas de computación paralela para manejar datos", y señala: "Esto representa un cambio distinto y claramente definido en la ciencia informática utilizada, a través de teorías de programación paralela, y pérdidas de algunas de las garantías y capacidades hechas por el modelo relacional de Codd ". [30]

En un estudio comparativo de grandes conjuntos de datos, Kitchin y McArdle descubrieron que ninguna de las características comúnmente consideradas de los grandes datos aparece de manera consistente en todos los casos analizados. [31] Por esta razón, otros estudios identificaron la redefinición de la dinámica de poder en el descubrimiento de conocimiento como el rasgo definitorio. [32] En lugar de centrarse en las características intrínsecas de los grandes datos, esta perspectiva alternativa impulsa una comprensión relacional del objeto afirmando que lo que importa es la forma en que los datos se recopilan, almacenan, ponen a disposición y analizan.

Big data versus inteligencia empresarial

La creciente madurez del concepto delinea más claramente la diferencia entre "big data" e " inteligencia empresarial ": [33]

Características

Esta imagen muestra el crecimiento de las principales características del big data: volumen, velocidad y variedad.

El big data se puede describir mediante las siguientes características:

Volumen
La cantidad de datos generados y almacenados. El tamaño de los datos determina el valor y la información potencial, y si se pueden considerar big data o no. El tamaño de los big data suele ser mayor que terabytes y petabytes. [37]
Variedad
El tipo y la naturaleza de los datos. Las tecnologías anteriores, como los RDBMS, eran capaces de manejar datos estructurados de manera eficiente y eficaz. Sin embargo, el cambio de tipo y naturaleza de estructurado a semiestructurado o no estructurado desafió las herramientas y tecnologías existentes. Las tecnologías de big data evolucionaron con la intención principal de capturar, almacenar y procesar los datos semiestructurados y no estructurados (variedad) generados con alta velocidad (velocidad) y gran tamaño (volumen). Más tarde, estas herramientas y tecnologías se exploraron y utilizaron también para manejar datos estructurados, pero preferibles para el almacenamiento. Finalmente, el procesamiento de datos estructurados se mantuvo como opcional, ya sea utilizando big data o RDBMS tradicionales. Esto ayuda a analizar los datos para el uso efectivo de los conocimientos ocultos expuestos a partir de los datos recopilados a través de las redes sociales, archivos de registro, sensores, etc. Big data se nutre de texto, imágenes, audio, video; además, completa las piezas faltantes a través de la fusión de datos .
Velocidad
La velocidad a la que se generan y procesan los datos para satisfacer las demandas y los desafíos que se presentan en el camino del crecimiento y el desarrollo. Los macrodatos suelen estar disponibles en tiempo real. En comparación con los macrodatos , los macrodatos se producen de forma más continua. Dos tipos de velocidad relacionados con los macrodatos son la frecuencia de generación y la frecuencia de manipulación, registro y publicación. [38]
Veracidad
La veracidad o fiabilidad de los datos, que se refiere a la calidad de los mismos y a su valor. [39] Los macrodatos no solo deben ser de gran tamaño, sino que también deben ser fiables para que su análisis sea valioso. La calidad de los datos capturados puede variar en gran medida, lo que afecta a la precisión del análisis. [40]
Valor
El valor de la información que se puede lograr mediante el procesamiento y análisis de grandes conjuntos de datos. El valor también se puede medir mediante una evaluación de las otras cualidades de los macrodatos. [41] El valor también puede representar la rentabilidad de la información que se recupera del análisis de los macrodatos.
Variabilidad
La característica de los formatos, la estructura o las fuentes cambiantes de los macrodatos. Los macrodatos pueden incluir datos estructurados, no estructurados o combinaciones de ambos. El análisis de macrodatos puede integrar datos sin procesar de múltiples fuentes. El procesamiento de datos sin procesar también puede implicar transformaciones de datos no estructurados en datos estructurados.

Otras posibles características del big data son: [42]

Exhaustivo
Ya sea que se capture o registre todo el sistema (es decir, todo). Los macrodatos pueden incluir o no todos los datos disponibles de las fuentes.
De grano fino y léxico único
Respectivamente, la proporción de datos específicos de cada elemento por elemento recogido y si el elemento y sus características están debidamente indexados o identificados.
Relacional
Si los datos recopilados contienen campos comunes que permitirían una unión o metanálisis de diferentes conjuntos de datos.
Extensional
Si se pueden agregar o cambiar fácilmente nuevos campos en cada elemento de los datos recopilados.
Escalabilidad
Si el tamaño del sistema de almacenamiento de big data puede expandirse rápidamente.

Arquitectura

Los repositorios de big data han existido en muchas formas, a menudo creados por corporaciones con una necesidad especial. Históricamente, los proveedores comerciales ofrecieron sistemas de gestión de bases de datos paralelas para big data a partir de la década de 1990. Durante muchos años, WinterCorp publicó el informe de bases de datos más grande. [43] [ ¿ Fuente promocional? ]

En 1984, Teradata Corporation comercializó el sistema de procesamiento paralelo DBC 1012. Los sistemas Teradata fueron los primeros en almacenar y analizar 1 terabyte de datos en 1992. Las unidades de disco duro eran de 2,5 GB en 1991, por lo que la definición de big data evoluciona continuamente. Teradata instaló el primer sistema basado en RDBMS de clase petabyte en 2007. A partir de 2017 , hay unas pocas docenas de bases de datos relacionales Teradata de clase petabyte instaladas, la más grande de las cuales supera los 50 PB. Los sistemas hasta 2008 eran datos relacionales 100% estructurados. Desde entonces, Teradata ha agregado tipos de datos no estructurados, incluidos XML , JSON y Avro.

En 2000, Seisint Inc. (ahora LexisNexis Risk Solutions ) desarrolló una plataforma distribuida basada en C++ para el procesamiento y la consulta de datos conocida como la plataforma HPCC Systems . Este sistema particiona, distribuye, almacena y entrega automáticamente datos estructurados, semiestructurados y no estructurados en múltiples servidores de productos básicos. Los usuarios pueden escribir consultas y canalizaciones de procesamiento de datos en un lenguaje de programación de flujo de datos declarativo llamado ECL. Los analistas de datos que trabajan en ECL no necesitan definir esquemas de datos por adelantado y pueden centrarse en el problema particular en cuestión, remodelando los datos de la mejor manera posible a medida que desarrollan la solución. En 2004, LexisNexis adquirió Seisint Inc. [44] y su plataforma de procesamiento paralelo de alta velocidad y utilizó con éxito esta plataforma para integrar los sistemas de datos de Choicepoint Inc. cuando adquirieron esa empresa en 2008. [45] En 2011, la plataforma de sistemas HPCC se convirtió en código abierto bajo la licencia Apache v2.0.

El CERN y otros experimentos de física han recopilado grandes conjuntos de datos durante muchas décadas, generalmente analizados mediante computación de alto rendimiento en lugar de las arquitecturas de mapa-reducción a las que suele referirse el actual movimiento de "big data".

En 2004, Google publicó un artículo sobre un proceso llamado MapReduce que utiliza una arquitectura similar. El concepto de MapReduce proporciona un modelo de procesamiento paralelo y se lanzó una implementación asociada para procesar grandes cantidades de datos. Con MapReduce, las consultas se dividen y distribuyen entre nodos paralelos y se procesan en paralelo (el paso "map"). Luego, los resultados se recopilan y se entregan (el paso "reduce"). El marco tuvo mucho éxito, [46] por lo que otros quisieron replicar el algoritmo. Por lo tanto, un proyecto de código abierto Apache llamado " Hadoop " adoptó una implementación del marco MapReduce . [47] Apache Spark se desarrolló en 2012 en respuesta a las limitaciones del paradigma MapReduce, ya que agrega procesamiento en memoria y la capacidad de configurar muchas operaciones (no solo mapear seguido de reducir).

MIKE2.0 es un enfoque abierto para la gestión de la información que reconoce la necesidad de revisiones debido a las implicaciones de los macrodatos identificadas en un artículo titulado "Oferta de soluciones de macrodatos". [48] La metodología aborda el manejo de macrodatos en términos de permutaciones útiles de fuentes de datos, complejidad en las interrelaciones y dificultad para eliminar (o modificar) registros individuales. [49]

Estudios realizados en 2012 demostraron que una arquitectura de múltiples capas era una opción para abordar los problemas que presenta el big data. Una arquitectura paralela distribuida distribuye los datos entre varios servidores; estos entornos de ejecución paralelos pueden mejorar drásticamente las velocidades de procesamiento de datos. Este tipo de arquitectura inserta los datos en un DBMS paralelo, que implementa el uso de los marcos MapReduce y Hadoop. Este tipo de marco busca hacer que la potencia de procesamiento sea transparente para el usuario final mediante el uso de un servidor de aplicaciones front-end. [50]

El lago de datos permite a una organización cambiar su enfoque del control centralizado a un modelo compartido para responder a la dinámica cambiante de la gestión de la información. Esto permite una rápida segregación de los datos en el lago de datos, reduciendo así el tiempo de sobrecarga. [51] [52]

Tecnologías

Un informe del McKinsey Global Institute de 2011 caracteriza los principales componentes y el ecosistema del big data de la siguiente manera: [53]

Los big data multidimensionales también se pueden representar como cubos de datos OLAP o, matemáticamente, tensores . Los sistemas de bases de datos de matriz se han propuesto proporcionar almacenamiento y soporte de consultas de alto nivel en este tipo de datos. Las tecnologías adicionales que se están aplicando a los big data incluyen computación eficiente basada en tensores, [54] como aprendizaje de subespacios multilineales , [55] bases de datos de procesamiento masivo en paralelo ( MPP ), aplicaciones basadas en búsquedas , minería de datos , [56] sistemas de archivos distribuidos , caché distribuida (por ejemplo, búfer de ráfagas y Memcached ), bases de datos distribuidas , infraestructura basada en la nube y HPC (aplicaciones, almacenamiento y recursos informáticos), [57] e Internet. [ cita requerida ] Aunque se han desarrollado muchos enfoques y tecnologías, todavía sigue siendo difícil llevar a cabo aprendizaje automático con big data. [58]

Algunas bases de datos relacionales MPP tienen la capacidad de almacenar y gestionar petabytes de datos. Esto implica la capacidad de cargar, supervisar, realizar copias de seguridad y optimizar el uso de las grandes tablas de datos en el RDBMS . [59] [¿ Fuente promocional? ]

El programa de Análisis de Datos Topológicos de DARPA busca la estructura fundamental de conjuntos masivos de datos y en 2008 la tecnología se hizo pública con el lanzamiento de una empresa llamada "Ayasdi". [60] [ se necesita una fuente de terceros ]

Los profesionales de los procesos de análisis de big data son generalmente hostiles al almacenamiento compartido más lento, [61] prefiriendo el almacenamiento de conexión directa ( DAS ) en sus diversas formas, desde unidades de estado sólido ( SSD ) hasta discos SATA de alta capacidad enterrados dentro de nodos de procesamiento paralelo. La percepción de las arquitecturas de almacenamiento compartido ( red de área de almacenamiento [SAN] y almacenamiento conectado a red [NAS]) es que son relativamente lentas, complejas y costosas. Estas cualidades no son consistentes con los sistemas de análisis de big data que prosperan gracias al rendimiento del sistema, la infraestructura básica y el bajo costo.

La entrega de información en tiempo real o casi real es una de las características que definen el análisis de big data. Por lo tanto, se evita la latencia siempre que sea posible. Los datos en la memoria o disco conectados directamente son buenos, pero los datos en la memoria o disco en el otro extremo de una conexión SAN FC no lo son. El costo de una SAN a la escala necesaria para las aplicaciones de análisis es mucho más alto que el de otras técnicas de almacenamiento.

Aplicaciones

Autobús equipado con big data de SAP estacionado frente al IDF13

El big data ha aumentado la demanda de especialistas en gestión de la información hasta tal punto que Software AG , Oracle Corporation , IBM , Microsoft , SAP , EMC , HP y Dell han gastado más de 15.000 millones de dólares en empresas de software especializadas en gestión y análisis de datos. En 2010, esta industria valía más de 100.000 millones de dólares y crecía a un ritmo de casi el 10 por ciento anual, aproximadamente el doble de rápido que el negocio del software en su conjunto. [8]

Las economías desarrolladas utilizan cada vez más tecnologías que hacen un uso intensivo de los datos. En todo el mundo hay 4.600 millones de suscripciones a teléfonos móviles y entre 1.000 y 2.000 millones de personas acceden a Internet. [8] Entre 1990 y 2005, más de 1.000 millones de personas de todo el mundo entraron en la clase media, lo que significa que más gente se volvió más alfabetizada, lo que a su vez condujo al crecimiento de la información. La capacidad efectiva del mundo para intercambiar información a través de las redes de telecomunicaciones era de 281 petabytes en 1986, 471 petabytes en 1993, 2,2 exabytes en 2000, 65 exabytes en 2007 [13] y las predicciones sitúan la cantidad de tráfico de Internet en 667 exabytes anuales para 2014. [8] Según una estimación, una tercera parte de la información almacenada a nivel mundial está en forma de texto alfanumérico y datos de imágenes fijas, [62] que es el formato más útil para la mayoría de las aplicaciones de big data. Esto también muestra el potencial de los datos aún no utilizados (es decir, en forma de contenido de vídeo y audio).

Si bien muchos proveedores ofrecen productos listos para usar para big data, los expertos promueven el desarrollo de sistemas internos personalizados si la empresa tiene capacidades técnicas suficientes. [63]

Gobierno

El uso y la adopción de big data en los procesos gubernamentales permite eficiencias en términos de costos, productividad e innovación, [64] pero tiene fallas. El análisis de datos a menudo requiere que varias partes del gobierno (central y local) trabajen en colaboración y creen procesos nuevos e innovadores para obtener el resultado deseado. Una organización gubernamental común que hace uso de big data es la Administración de Seguridad Nacional ( NSA ), que monitorea las actividades de Internet constantemente en busca de posibles patrones de actividades sospechosas o ilegales que su sistema pueda detectar.

El registro civil y las estadísticas vitales (CRVS) recopilan todos los estados de los certificados desde el nacimiento hasta la muerte. El CRVS es una fuente de macrodatos para los gobiernos.

Desarrollo internacional

Las investigaciones sobre el uso eficaz de las tecnologías de la información y la comunicación para el desarrollo (también conocidas como "ICT4D") sugieren que la tecnología de big data puede hacer contribuciones importantes, pero también presentar desafíos únicos para el desarrollo internacional . [65] [66] Los avances en el análisis de big data ofrecen oportunidades rentables para mejorar la toma de decisiones en áreas críticas para el desarrollo, como la atención médica, el empleo, la productividad económica , el crimen, la seguridad y la gestión de recursos y desastres naturales . [67] [ página necesaria ] [68] [69] Además, los datos generados por los usuarios ofrecen nuevas oportunidades para dar voz a los no escuchados. [70] Sin embargo, los desafíos de larga data para las regiones en desarrollo, como la infraestructura tecnológica inadecuada y la escasez de recursos económicos y humanos, exacerban las preocupaciones existentes con big data, como la privacidad, la metodología imperfecta y los problemas de interoperabilidad. [67] [ página necesaria ] El desafío de "big data para el desarrollo" [67] [ página necesaria ] está evolucionando actualmente hacia la aplicación de estos datos a través del aprendizaje automático, conocido como "inteligencia artificial para el desarrollo (AI4D)". [71]

Beneficios

Una de las principales aplicaciones prácticas de los macrodatos para el desarrollo ha sido la "lucha contra la pobreza con datos". [72] En 2015, Blumenstock y sus colegas estimaron la pobreza y la riqueza previstas a partir de metadatos de teléfonos móviles [73] y en 2016 Jean y sus colegas combinaron imágenes satelitales y aprendizaje automático para predecir la pobreza. [74] Al utilizar datos de trazas digitales para estudiar el mercado laboral y la economía digital en América Latina, Hilbert y sus colegas [75] [76] sostienen que los datos de trazas digitales tienen varios beneficios, como:

Desafíos

Al mismo tiempo, trabajar con datos de rastreo digitales en lugar de datos de encuestas tradicionales no elimina los desafíos tradicionales que implica trabajar en el campo del análisis cuantitativo internacional. Las prioridades cambian, pero los debates básicos siguen siendo los mismos. Entre los principales desafíos se encuentran:

Finanzas

El Big Data se está adoptando rápidamente en las finanzas para 1) acelerar el procesamiento y 2) ofrecer inferencias mejores y más informadas, tanto internamente como a los clientes de las instituciones financieras. [78] Las aplicaciones financieras del Big Data van desde las decisiones de inversión y el comercio (procesamiento de volúmenes de datos de precios disponibles, libros de órdenes limitadas, datos económicos y más, todo al mismo tiempo), la gestión de carteras (optimización sobre una gama cada vez mayor de instrumentos financieros, potencialmente seleccionados de diferentes clases de activos), la gestión de riesgos (calificación crediticia basada en información extendida) y cualquier otro aspecto en el que las entradas de datos sean grandes. [79] El Big Data también ha sido un concepto típico dentro del campo de los servicios financieros alternativos . Algunas de las áreas principales involucran plataformas de financiación colectiva e intercambios de criptomonedas. [80]

Cuidado de la salud

El análisis de big data se ha utilizado en el ámbito sanitario para proporcionar medicina personalizada y análisis prescriptivos , intervención de riesgo clínico y análisis predictivos, reducción de la variabilidad de los residuos y la atención, informes internos y externos automatizados de datos de pacientes, términos médicos estandarizados y registros de pacientes. [81] [82] [83] [84] Algunas áreas de mejora son más aspiracionales que implementadas realmente. El nivel de datos generados dentro de los sistemas sanitarios no es trivial. Con la adopción adicional de mHealth, eHealth y tecnologías portátiles, el volumen de datos seguirá aumentando. Esto incluye datos de registros sanitarios electrónicos , datos de imágenes, datos generados por pacientes, datos de sensores y otras formas de datos difíciles de procesar. Ahora existe una necesidad aún mayor de que dichos entornos presten mayor atención a la calidad de los datos y la información. [85] "Big data muy a menudo significa ' datos sucios ' y la fracción de inexactitudes de datos aumenta con el crecimiento del volumen de datos". La inspección humana a escala de big data es imposible y existe una necesidad desesperada en el servicio sanitario de herramientas inteligentes para el control de la precisión y la credibilidad y el manejo de la información omitida. [86] Si bien una gran cantidad de información en el ámbito de la atención de la salud es ahora electrónica, encaja dentro del concepto de big data, ya que la mayor parte no está estructurada y es difícil de utilizar. [87] El uso de big data en el ámbito de la atención de la salud ha planteado importantes desafíos éticos que van desde los riesgos para los derechos individuales, la privacidad y la autonomía hasta la transparencia y la confianza. [88]

Los macrodatos en la investigación sanitaria son particularmente prometedores en términos de investigación biomédica exploratoria, ya que el análisis basado en datos puede avanzar más rápidamente que la investigación basada en hipótesis. [89] Luego, las tendencias observadas en el análisis de datos se pueden probar en la investigación biológica de seguimiento tradicional basada en hipótesis y, eventualmente, en la investigación clínica.

Un subárea de aplicación relacionada, que depende en gran medida de los macrodatos, dentro del campo de la atención sanitaria es el diagnóstico asistido por ordenador en medicina. [90] [ página necesaria ] Por ejemplo, para el seguimiento de la epilepsia se acostumbra a crear de 5 a 10 GB de datos al día. [91] De manera similar, una sola imagen sin comprimir de una tomosíntesis de mama tiene un promedio de 450 MB de datos. [92] Estos son solo algunos de los muchos ejemplos en los que el diagnóstico asistido por ordenador utiliza macrodatos. Por esta razón, el macrodato ha sido reconocido como uno de los siete desafíos clave que los sistemas de diagnóstico asistido por ordenador deben superar para alcanzar el siguiente nivel de rendimiento. [93]

Educación

Un estudio del McKinsey Global Institute encontró una escasez de 1,5 millones de profesionales y administradores de datos altamente capacitados [53] y varias universidades [94] [ se necesita una mejor fuente ], incluida la Universidad de Tennessee y la UC Berkeley , han creado programas de maestría para satisfacer esta demanda. Los campamentos de entrenamiento privados también han desarrollado programas para satisfacer esa demanda, incluidos programas pagos como The Data Incubator o General Assembly . [95] En el campo específico del marketing, uno de los problemas enfatizados por Wedel y Kannan [96] es que el marketing tiene varios subdominios (por ejemplo, publicidad, promociones, desarrollo de productos, marca) que utilizan diferentes tipos de datos.

Medios de comunicación

Para entender cómo los medios de comunicación utilizan el big data, primero es necesario contextualizar el mecanismo que se utiliza para procesarlo. Nick Couldry y Joseph Turow han sugerido que los profesionales de los medios de comunicación y la publicidad abordan el big data como muchos puntos de información procesables sobre millones de personas. La industria parece estar alejándose del enfoque tradicional de utilizar entornos de medios específicos, como periódicos, revistas o programas de televisión, y en su lugar se conecta con los consumidores con tecnologías que llegan a las personas objetivo en momentos óptimos y lugares óptimos. El objetivo final es servir o transmitir un mensaje o contenido que esté (estadísticamente hablando) en línea con la mentalidad del consumidor. Por ejemplo, los entornos editoriales están adaptando cada vez más los mensajes (anuncios) y el contenido (artículos) para atraer a los consumidores, que han sido obtenidos exclusivamente a través de diversas actividades de minería de datos . [97]

Channel 4 , la cadena de televisión pública británica , es líder en el campo del big data y el análisis de datos . [99]

Seguro

Los proveedores de seguros de salud están recopilando datos sobre los "determinantes sociales de la salud", como el consumo de alimentos y televisión , el estado civil, la talla de ropa y los hábitos de compra, a partir de los cuales hacen predicciones sobre los costos de la salud, con el fin de detectar problemas de salud en sus clientes. Es controvertido si estas predicciones se están utilizando actualmente para la fijación de precios. [100]

Internet de las cosas (IoT)

Los macrodatos y la IoT trabajan en conjunto. Los datos extraídos de los dispositivos IoT proporcionan un mapeo de la interconectividad de los dispositivos. Estos mapeos han sido utilizados por la industria de los medios, las empresas y los gobiernos para llegar a su audiencia con mayor precisión y aumentar la eficiencia de los medios. La IoT también se adopta cada vez más como un medio para recopilar datos sensoriales, y estos datos sensoriales se han utilizado en contextos médicos [101] , de fabricación [102] y de transporte [103] .

Kevin Ashton , el experto en innovación digital a quien se le atribuye haber acuñado el término, [104] define la Internet de las cosas con esta cita: "Si tuviéramos computadoras que supieran todo lo que hay que saber sobre las cosas, utilizando datos que recopilaran sin nuestra ayuda, seríamos capaces de rastrear y contar todo, y reducir enormemente el desperdicio, las pérdidas y los costos. Sabríamos cuándo es necesario reemplazar, reparar o retirar las cosas, y si están nuevas o han pasado su mejor momento".

Tecnologías de la información

Especialmente desde 2015, el big data ha cobrado importancia dentro de las operaciones comerciales como una herramienta para ayudar a los empleados a trabajar de manera más eficiente y agilizar la recopilación y distribución de tecnología de la información (TI). El uso de big data para resolver problemas de TI y recopilación de datos dentro de una empresa se denomina análisis de operaciones de TI (ITOA). [105] Al aplicar los principios de big data a los conceptos de inteligencia artificial y computación profunda, los departamentos de TI pueden predecir posibles problemas y prevenirlos. [105] Las empresas ITOA ofrecen plataformas para la gestión de sistemas que reúnen silos de datos y generan información de todo el sistema en lugar de hacerlo a partir de grupos aislados de datos.

Ciencia de encuestas

En comparación con la recopilación de datos basada en encuestas , los macrodatos tienen un bajo costo por punto de datos, aplican técnicas de análisis a través del aprendizaje automático y la minería de datos , e incluyen fuentes de datos diversas y nuevas, por ejemplo, registros, redes sociales, aplicaciones y otras formas de datos digitales. Desde 2018, los científicos de encuestas han comenzado a examinar cómo los macrodatos y la ciencia de las encuestas pueden complementarse entre sí para permitir que los investigadores y los profesionales mejoren la producción de estadísticas y su calidad. Se han celebrado tres conferencias Big Data Meets Survey Science (BigSurv) en 2018, 2020 (virtual), 2023 y, a partir de 2023, una conferencia próxima en 2025, [106] un número especial en Social Science Computer Review , [107] un número especial en Journal of the Royal Statistical Society , [108] y un número especial en EP J Data Science , [109] y un libro llamado Big Data Meets Social Sciences [110] editado por Craig Hill y otros cinco miembros de la American Statistical Association . En 2021, los miembros fundadores de BigSurv recibieron el premio Warren J. Mitofsky Innovators Award de la Asociación Estadounidense de Investigación de Opinión Pública . [111]

Marketing

El big data es importante en el marketing debido a la constante “datificación” [112] de los consumidores cotidianos de Internet, en la que se rastrean todas las formas de datos. La datificación de los consumidores puede definirse como la cuantificación de muchos o todos los comportamientos humanos con fines de marketing. [112] El mundo cada vez más digital de rápida datificación hace que esta idea sea relevante para el marketing porque la cantidad de datos crece constantemente de manera exponencial. Se predice que aumentará de 44 a 163 zettabytes en el lapso de cinco años. [113] El tamaño del big data a menudo puede ser difícil de manejar para los especialistas en marketing. [114] Como resultado, los adoptantes del big data pueden encontrarse en desventaja. Los hallazgos algorítmicos pueden ser difíciles de lograr con conjuntos de datos tan grandes. [115] El big data en marketing es una herramienta altamente lucrativa que puede ser utilizada por grandes corporaciones, y su valor es el resultado de la posibilidad de predecir tendencias significativas, intereses o resultados estadísticos de una manera basada en el consumidor. [116]

Hay tres factores importantes en el uso de big data en marketing:

  1. El big data permite a los profesionales del marketing detectar patrones de comportamiento de los clientes, ya que todas las acciones humanas se cuantifican en números legibles que los profesionales del marketing pueden analizar y utilizar para sus investigaciones. [117] Además, el big data también puede considerarse una herramienta de recomendación de productos personalizados. En concreto, dado que el big data es eficaz para analizar los patrones de navegación y los comportamientos de compra de los clientes, esta tecnología puede ayudar a las empresas a promocionar productos personalizados específicos para clientes específicos. [118]
  2. La capacidad de respuesta al mercado en tiempo real es importante para los especialistas en marketing debido a la capacidad de adaptar los esfuerzos de marketing y corregir las tendencias actuales, lo que resulta útil para mantener la relevancia para los consumidores. Esto puede proporcionar a las empresas la información necesaria para predecir los deseos y necesidades de los consumidores con antelación. [117]
  3. La ambidextría del mercado basada en datos está siendo impulsada en gran medida por el big data. [117] Se están desarrollando nuevos modelos y algoritmos para hacer predicciones significativas sobre ciertas situaciones económicas y sociales. [119]

Estudios de caso

Gobierno

Porcelana

India

Israel

Reino Unido

Ejemplos de usos del big data en los servicios públicos:

Estados Unidos

Minorista

Ciencia

Deportes

El big data se puede utilizar para mejorar el entrenamiento y la comprensión de los competidores mediante sensores deportivos. También es posible predecir los ganadores de un partido mediante el análisis de big data. [160] También se puede predecir el rendimiento futuro de los jugadores. [161] Por lo tanto, el valor y el salario de los jugadores se determinan a partir de los datos recopilados a lo largo de la temporada. [162]

En las carreras de Fórmula 1 , los coches de carreras con cientos de sensores generan terabytes de datos. Estos sensores recogen datos que van desde la presión de los neumáticos hasta la eficiencia del consumo de combustible. [163] Con base en los datos, los ingenieros y analistas de datos deciden si se deben realizar ajustes para ganar una carrera. Además, utilizando big data, los equipos de carreras intentan predecir de antemano el tiempo en el que terminarán la carrera, basándose en simulaciones con datos recopilados durante la temporada. [164]

Tecnología

COVID-19

Durante la pandemia de COVID-19 , el uso de big data se ha convertido en una forma de minimizar el impacto de la enfermedad. Entre las aplicaciones más importantes de este tipo de datos se encuentran la minimización de la propagación del virus, la identificación de casos y el desarrollo de tratamientos médicos. [170]

Los gobiernos utilizaron big data para rastrear a las personas infectadas y minimizar la propagación. Entre los primeros en adoptar esta medida se encuentran China, Taiwán, Corea del Sur e Israel. [171] [172] [173]

Actividades de investigación

En marzo de 2014, en la Sociedad Estadounidense de Educación en Ingeniería, se demostró la búsqueda cifrada y la formación de clústeres en big data. Gautam Siwach participó en el proyecto Tackling the challenges of Big Data del Laboratorio de Ciencias Informáticas e Inteligencia Artificial del MIT y Amir Esmailpour del Grupo de Investigación de la UNH investigaron las características clave de los big data, como la formación de clústeres y sus interconexiones. Se centraron en la seguridad de los big data y la orientación del término hacia la presencia de diferentes tipos de datos en forma cifrada en la interfaz de la nube, proporcionando definiciones sin procesar y ejemplos en tiempo real dentro de la tecnología. Además, propusieron un enfoque para identificar la técnica de codificación para avanzar hacia una búsqueda acelerada sobre texto cifrado que conduzca a mejoras de seguridad en los big data. [174]

En marzo de 2012, la Casa Blanca anunció una "Iniciativa de Big Data" nacional que consistía en que seis departamentos y agencias federales comprometieran más de 200 millones de dólares a proyectos de investigación de big data. [175]

La iniciativa incluyó una subvención de la National Science Foundation "Expeditions in Computing" de 10 millones de dólares durante cinco años al AMPLab [176] en la Universidad de California, Berkeley. [177] El AMPLab también recibió fondos de DARPA y más de una docena de patrocinadores industriales y utiliza big data para atacar una amplia gama de problemas, desde predecir la congestión del tráfico [178] hasta combatir el cáncer. [179]

La Iniciativa de Big Data de la Casa Blanca también incluyó un compromiso por parte del Departamento de Energía de proporcionar 25 millones de dólares en financiación durante cinco años para establecer el Instituto de Gestión, Análisis y Visualización de Datos Escalables (SDAV, por sus siglas en inglés), [180] dirigido por el Laboratorio Nacional Lawrence Berkeley del Departamento de Energía . El Instituto SDAV tiene como objetivo reunir la experiencia de seis laboratorios nacionales y siete universidades para desarrollar nuevas herramientas que ayuden a los científicos a gestionar y visualizar datos en las supercomputadoras del departamento.

En mayo de 2012, el estado estadounidense de Massachusetts anunció la Iniciativa de Big Data de Massachusetts, que proporciona financiación del gobierno estatal y de empresas privadas a una variedad de instituciones de investigación. [181] El Instituto Tecnológico de Massachusetts alberga el Centro de Ciencia y Tecnología Intel para Big Data en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT , que combina financiación gubernamental, corporativa e institucional y esfuerzos de investigación. [182]

La Comisión Europea está financiando el Foro Público-Privado sobre Big Data, de dos años de duración, a través de su Séptimo Programa Marco, para que empresas, académicos y otras partes interesadas participen en el debate sobre cuestiones relacionadas con los big data. El proyecto tiene por objeto definir una estrategia en términos de investigación e innovación que oriente las acciones de apoyo de la Comisión Europea para la implementación exitosa de la economía de los big data. Los resultados de este proyecto se utilizarán como insumo para Horizonte 2020 , su próximo programa marco . [183]

El gobierno británico anunció en marzo de 2014 la fundación del Instituto Alan Turing , llamado así en honor al pionero de la informática y descifrador de códigos, que se centrará en nuevas formas de recopilar y analizar grandes conjuntos de datos. [184]

En el Día de inspiración de la Experiencia de Datos Abiertos Canadienses (CODE) del campus Stratford de la Universidad de Waterloo , los participantes demostraron cómo el uso de la visualización de datos puede aumentar la comprensión y el atractivo de los grandes conjuntos de datos y comunicar su historia al mundo. [185]

Ciencias sociales computacionales  – Cualquiera puede usar interfaces de programación de aplicaciones (API) proporcionadas por los grandes propietarios de datos, como Google y Twitter, para realizar investigaciones en las ciencias sociales y del comportamiento. [186] A menudo, estas API se proporcionan de forma gratuita. [186] Tobias Preis et al. utilizaron datos de Google Trends para demostrar que los usuarios de Internet de países con un producto interno bruto (PIB) per cápita más alto tienen más probabilidades de buscar información sobre el futuro que información sobre el pasado. Los hallazgos sugieren que puede haber un vínculo entre los comportamientos en línea y los indicadores económicos del mundo real. [187] [188] [189] Los autores del estudio examinaron los registros de consultas de Google realizados en función del volumen de búsquedas para el año siguiente (2011) con el volumen de búsquedas del año anterior (2009), lo que denominan "índice de orientación al futuro ". [190] Compararon el índice de orientación al futuro con el PIB per cápita de cada país y encontraron una fuerte tendencia a que los países donde los usuarios de Google preguntan más sobre el futuro tengan un PIB más alto.

Tobias Preis y sus colegas Helen Susannah Moat y H. Eugene Stanley introdujeron un método para identificar precursores en línea de movimientos del mercado de valores, utilizando estrategias comerciales basadas en datos de volumen de búsqueda proporcionados por Google Trends. [191] Su análisis del volumen de búsqueda de Google para 98 términos de relevancia financiera variable, publicado en Scientific Reports , [192] sugiere que los aumentos en el volumen de búsqueda para términos de búsqueda financieramente relevantes tienden a preceder a grandes pérdidas en los mercados financieros. [193] [194] [195] [196] [197] [198] [199]

Los grandes conjuntos de datos presentan desafíos algorítmicos que antes no existían. Por lo tanto, algunos consideran que es necesario cambiar radicalmente los métodos de procesamiento. [200]

Muestreo de big data

Una pregunta de investigación que se plantea sobre los grandes conjuntos de datos es si es necesario examinar todos los datos para sacar ciertas conclusiones sobre las propiedades de los mismos o si una muestra es suficiente. El nombre de big data en sí mismo contiene un término relacionado con el tamaño y esta es una característica importante de los grandes datos. Pero el muestreo permite la selección de los puntos de datos correctos dentro de un conjunto de datos más grande para estimar las características de toda la población. En la fabricación, se dispone de diferentes tipos de datos sensoriales, como datos acústicos, de vibración, de presión, de corriente, de voltaje y de controlador, en intervalos de tiempo cortos. Para predecir el tiempo de inactividad, puede que no sea necesario examinar todos los datos, pero una muestra puede ser suficiente. Los grandes datos se pueden desglosar en varias categorías de puntos de datos, como datos demográficos, psicográficos, de comportamiento y transaccionales. Con grandes conjuntos de puntos de datos, los especialistas en marketing pueden crear y utilizar segmentos de consumidores más personalizados para una segmentación más estratégica.

Crítica

Las críticas al paradigma del big data vienen en dos formas: aquellas que cuestionan las implicaciones del enfoque en sí, y aquellas que cuestionan la forma en que se realiza actualmente. [201] Un enfoque a esta crítica es el campo de los estudios críticos de datos .

Críticas al paradigma del big data

"Un problema crucial es que no sabemos mucho sobre los microprocesos empíricos subyacentes que conducen al surgimiento de las características de red típicas de Big Data". [25] [ página necesaria ] En su crítica, Snijders, Matzat y Reips señalan que a menudo se hacen suposiciones muy fuertes sobre propiedades matemáticas que pueden no reflejar en absoluto lo que realmente está sucediendo a nivel de microprocesos. Mark Graham ha dirigido amplias críticas a la afirmación de Chris Anderson de que Big Data significará el fin de la teoría: [202] centrándose en particular en la noción de que Big Data siempre debe contextualizarse en sus contextos sociales, económicos y políticos. [203] Incluso cuando las empresas invierten sumas de ocho y nueve cifras para obtener información de la información que fluye de proveedores y clientes, menos del 40% de los empleados tienen procesos y habilidades suficientemente maduros para hacerlo. Para superar este déficit de información, Big Data, sin importar cuán completo o bien analizado sea, debe complementarse con un "gran juicio", según un artículo en Harvard Business Review . [204]

En la misma línea, se ha señalado que las decisiones basadas en el análisis de big data están inevitablemente "informadas por el mundo tal como era en el pasado o, en el mejor de los casos, como es actualmente". [67] [ página necesaria ] Alimentados por una gran cantidad de datos sobre experiencias pasadas, los algoritmos pueden predecir el desarrollo futuro si el futuro es similar al pasado. [205] Si la dinámica del sistema del futuro cambia (si no es un proceso estacionario ), el pasado puede decir poco sobre el futuro. Para hacer predicciones en entornos cambiantes, sería necesario tener una comprensión profunda de la dinámica de los sistemas, lo que requiere teoría. [205] Como respuesta a esta crítica, Alemany Oliver y Vayre sugieren utilizar "el razonamiento abductivo como un primer paso en el proceso de investigación para dar contexto a los rastros digitales de los consumidores y hacer que surjan nuevas teorías". [206] Además, se ha sugerido combinar enfoques de big data con simulaciones por computadora, como modelos basados ​​en agentes [67] [ página necesaria ] y sistemas complejos . Los modelos basados ​​en agentes son cada vez mejores en la predicción del resultado de las complejidades sociales de escenarios futuros incluso desconocidos a través de simulaciones por computadora que se basan en una colección de algoritmos mutuamente interdependientes. [207] [208] Finalmente, el uso de métodos multivariados que investigan la estructura latente de los datos, como el análisis factorial y el análisis de conglomerados , han demostrado ser útiles como enfoques analíticos que van mucho más allá de los enfoques bivariados (por ejemplo, tablas de contingencia ) que normalmente se emplean con conjuntos de datos más pequeños.

En salud y biología, los enfoques científicos convencionales se basan en la experimentación. Para estos enfoques, el factor limitante son los datos relevantes que pueden confirmar o refutar la hipótesis inicial. [209] Un nuevo postulado se acepta ahora en biociencias: la información proporcionada por los datos en grandes volúmenes ( ómicas ) sin hipótesis previas es complementaria y a veces necesaria a los enfoques convencionales basados ​​en la experimentación. [210] [211] En los enfoques masivos es la formulación de una hipótesis relevante para explicar los datos lo que es el factor limitante. [212] La lógica de búsqueda se invierte y se deben considerar los límites de la inducción ("Glory of Science and Philosophy scandal", CD Broad , 1926). [ cita requerida ]

Los defensores de la privacidad están preocupados por la amenaza a la privacidad que representa el aumento del almacenamiento y la integración de información personal identificable ; los paneles de expertos han publicado varias recomendaciones de políticas para adaptar la práctica a las expectativas de privacidad. [213] El mal uso de los macrodatos en varios casos por parte de los medios de comunicación, las empresas e incluso el gobierno ha permitido la abolición de la confianza en casi todas las instituciones fundamentales que sostienen a la sociedad. [214]

Barocas y Nissenbaum sostienen que una forma de proteger a los usuarios individuales es estar informados sobre los tipos de información que se recopilan, con quién se comparte, bajo qué restricciones y con qué fines. [215]

Críticas al modelo “V”

El modelo en "V" de big data es preocupante porque se centra en la escalabilidad computacional y carece de una pérdida en la perceptibilidad y la comprensión de la información. Esto condujo al marco de big data cognitivo, que caracteriza las aplicaciones de big data según: [216]

Críticas a la novedad

Durante más de un siglo, las máquinas de computación han analizado grandes conjuntos de datos, incluidos los análisis del censo de Estados Unidos realizados por las máquinas de tarjetas perforadas de IBM , que calculaban estadísticas que incluían medias y varianzas de poblaciones en todo el continente. En décadas más recientes, experimentos científicos como el CERN han producido datos en escalas similares a los actuales "big data" comerciales. Sin embargo, los experimentos científicos han tendido a analizar sus datos utilizando clústeres y redes de computación de alto rendimiento (supercomputación) personalizados y especializados , en lugar de nubes de computadoras comerciales baratas como en la ola comercial actual, lo que implica una diferencia tanto en la cultura como en la pila de tecnología.

Críticas a la ejecución de big data

Ulf-Dietrich Reips y Uwe Matzat escribieron en 2014 que el big data se había convertido en una "moda" en la investigación científica. [186] La investigadora Danah Boyd ha expresado su preocupación por el uso del big data en la ciencia, descuidando principios como la elección de una muestra representativa al preocuparse demasiado por el manejo de enormes cantidades de datos. [217] Este enfoque puede conducir a resultados que tienen un sesgo de una forma u otra. [218] La integración entre recursos de datos heterogéneos (algunos de los cuales podrían considerarse big data y otros no) presenta formidables desafíos logísticos y analíticos, pero muchos investigadores sostienen que es probable que tales integraciones representen las nuevas fronteras más prometedoras en la ciencia. [219] En el provocativo artículo "Preguntas críticas para el big data", [220] los autores titulan al big data como una parte de la mitología : "los grandes conjuntos de datos ofrecen una forma superior de inteligencia y conocimiento [...], con el aura de verdad, objetividad y precisión". Los usuarios de big data a menudo se "pierden en el gran volumen de números", y "trabajar con big data sigue siendo subjetivo, y lo que cuantifica no necesariamente tiene un reclamo más cercano a la verdad objetiva". [220] Los desarrollos recientes en el dominio de BI, como los informes proactivos, apuntan especialmente a mejoras en la usabilidad de big data, a través del filtrado automático de datos y correlaciones no útiles . [221] Las grandes estructuras están llenas de correlaciones espurias [222] ya sea por coincidencias no causales ( ley de números verdaderamente grandes ), la naturaleza únicamente de la gran aleatoriedad [223] ( teoría de Ramsey ) o la existencia de factores no incluidos , por lo que la esperanza de los primeros experimentadores de hacer que grandes bases de datos de números "hablaran por sí mismas" y revolucionaran el método científico, está cuestionada. [224] Catherine Tucker ha señalado el "bombo" en torno a los big data, escribiendo "Por sí solo, es poco probable que los big data sean valiosos". El artículo explica: "Los numerosos contextos en los que los datos son baratos en relación con el coste de retener el talento para procesarlos sugieren que las habilidades de procesamiento son más importantes que los datos en sí mismos a la hora de crear valor para una empresa". [225]

El análisis de big data suele ser superficial en comparación con el análisis de conjuntos de datos más pequeños. [226] En muchos proyectos de big data, no se realiza un análisis de big data, pero el desafío es la parte de extracción, transformación y carga del preprocesamiento de datos. [226]

Big data es una palabra de moda y un "término vago", [227] [228] pero al mismo tiempo una "obsesión" [228] entre empresarios, consultores, científicos y medios de comunicación. Los programas de big data como Google Flu Trends no han logrado ofrecer buenas predicciones en los últimos años, exagerando los brotes de gripe por un factor de dos. De manera similar, las predicciones de los premios Oscar y las elecciones basadas únicamente en Twitter fueron más acertadas que correctas. Big data a menudo plantea los mismos desafíos que small data; agregar más datos no resuelve los problemas de sesgo, pero puede enfatizar otros problemas. En particular, las fuentes de datos como Twitter no son representativas de la población general, y los resultados extraídos de esas fuentes pueden llevar a conclusiones erróneas. Google Translate , que se basa en el análisis estadístico de texto de big data, hace un buen trabajo al traducir páginas web. Sin embargo, los resultados de dominios especializados pueden estar sesgados drásticamente. Por otra parte, el big data también puede introducir nuevos problemas, como el problema de las comparaciones múltiples : probar simultáneamente un gran conjunto de hipótesis puede producir muchos resultados falsos que parecen significativos por error. Ioannidis sostuvo que "la mayoría de los hallazgos de investigación publicados son falsos" [229] debido esencialmente al mismo efecto: cuando muchos equipos científicos e investigadores realizan muchos experimentos (es decir, procesan una gran cantidad de datos científicos; aunque no con tecnología de big data), la probabilidad de que un resultado "significativo" sea falso crece rápidamente, más aún cuando solo se publican resultados positivos. Además, los resultados del análisis de big data son tan buenos como el modelo en el que se basan. En un ejemplo, el big data participó en el intento de predecir los resultados de las elecciones presidenciales estadounidenses de 2016 [230] con distintos grados de éxito.

Críticas a la vigilancia y al control del uso de macrodatos

El uso de big data en la vigilancia policial y de seguridad pública ha sido utilizado por instituciones como las fuerzas del orden y las corporaciones . [231] Debido a la naturaleza menos visible de la vigilancia basada en datos en comparación con los métodos tradicionales de vigilancia policial, es menos probable que surjan objeciones a la vigilancia con big data. Según Big Data Surveillance: The Case of Policing de Sarah Brayne , [232] la vigilancia con big data puede reproducir las desigualdades sociales existentes de tres maneras:

Si no se corrigen o regulan estos problemas potenciales, los efectos de la vigilancia basada en los macrodatos pueden seguir configurando las jerarquías sociales. El uso consciente de la vigilancia basada en los macrodatos podría evitar que los sesgos a nivel individual se conviertan en sesgos institucionales, señala Brayne.

Véase también

Referencias

  1. ^ Hilbert, Martin; López, Priscila (2011). «La capacidad tecnológica mundial para almacenar, comunicar y computar información». Science . 332 (6025): 60–65. Bibcode :2011Sci...332...60H. doi : 10.1126/science.1200970 . PMID  21310967. S2CID  206531385. Archivado desde el original el 14 de abril de 2016 . Consultado el 13 de abril de 2016 .
  2. ^ Breur, Tom (julio de 2016). «Análisis de poder estadístico y la «crisis» contemporánea en las ciencias sociales». Journal of Marketing Analytics . 4 (2–3). Londres, Inglaterra: Palgrave Macmillan : 61–65. doi : 10.1057/s41270-016-0001-3 . ISSN  2050-3318.
  3. ^ Mahdavi-Damghani, Babak (2019). Modelos basados ​​en datos y finanzas matemáticas: ¿aposición u oposición? (Tesis de doctorado). Oxford, Inglaterra: Universidad de Oxford . p. 21. SSRN  3521933.
  4. ^ McAfee, Andrew; Brynjolfsson, Erik (1 de octubre de 2012). "Big data: la revolución de la gestión". Harvard Business Review . 90 (10): 60–66, 68, 128. ISSN  0017-8012. PMID  23074865.
  5. ^ ab "Las 5 V del big data". Watson Health Perspectives . 17 de septiembre de 2016. Archivado desde el original el 18 de enero de 2021 . Consultado el 20 de enero de 2021 .
  6. ^ Cappa, Francesco; Oriani, Raffaele; Peruffo, Enzo; McCarthy, Ian (2021). "Big Data para crear y capturar valor en el entorno digitalizado: análisis de los efectos del volumen, la variedad y la veracidad en el rendimiento de la empresa". Revista de gestión de la innovación de productos . 38 (1): 49–67. doi :10.1111/jpim.12545. ISSN  0737-6782. S2CID  225209179.
  7. ^ boyd, dana; Crawford, Kate (21 de septiembre de 2011). "Seis provocaciones para el Big Data". Social Science Research Network: A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society . doi :10.2139/ssrn.1926431. S2CID  148610111. Archivado desde el original el 28 de febrero de 2020 . Consultado el 12 de julio de 2019 .
  8. ^ abcdefg «Datos, datos por todas partes». The Economist . 25 de febrero de 2010. Archivado desde el original el 27 de mayo de 2018. Consultado el 9 de diciembre de 2012 .
  9. ^ "Se requiere inteligencia comunitaria". Nature . 455 (7209): 1. Septiembre 2008. Bibcode :2008Natur.455....1.. doi : 10.1038/455001a . PMID  18769385.
  10. ^ Reichman OJ, Jones MB, Schildhauer MP (febrero de 2011). "Retos y oportunidades de los datos abiertos en ecología". Ciencia . 331 (6018): 703–5. Código Bib : 2011 Ciencia... 331..703R. doi : 10.1126/ciencia.1197962. PMID  21311007. S2CID  22686503. Archivado desde el original el 19 de octubre de 2020 . Consultado el 12 de julio de 2019 .
  11. ^ Hellerstein, Joe (9 de noviembre de 2008). "Programación paralela en la era del Big Data". Blog de Gigaom . Archivado desde el original el 7 de octubre de 2012. Consultado el 21 de abril de 2010 .
  12. ^ Segaran, Toby; Hammerbacher, Jeff (2009). Datos hermosos: las historias detrás de soluciones de datos elegantes. O'Reilly Media. pág. 257. ISBN 978-0-596-15711-1Archivado desde el original el 12 de mayo de 2016 . Consultado el 31 de diciembre de 2015 .
  13. ^ ab Hilbert M, López P (abril de 2011). «La capacidad tecnológica mundial para almacenar, comunicar y computar información» (PDF) . Science . 332 (6025): 60–5. Bibcode :2011Sci...332...60H. doi :10.1126/science.1200970. PMID  21310967. S2CID  206531385. Archivado (PDF) desde el original el 19 de agosto de 2019. Consultado el 11 de mayo de 2019 .
  14. ^ "IBM ¿Qué es el big data? – Llevando el big data a la empresa". ibm.com. Archivado desde el original el 24 de agosto de 2013. Consultado el 26 de agosto de 2013 .
  15. ^ Reinsel, David; Gantz, John; Rydning, John (13 de abril de 2017). "Data Age 2025: The Evolution of Data to Life-Critical" (PDF) . seagate.com . Framingham, MA, EE. UU.: International Data Corporation . Archivado (PDF) del original el 8 de diciembre de 2017 . Consultado el 2 de noviembre de 2017 .
  16. ^ "El gasto mundial en soluciones de big data y análisis alcanzará los 215.700 millones de dólares en 2021, según una nueva guía de gasto de IDC". Archivado desde el original el 23 de julio de 2022 . Consultado el 31 de julio de 2022 .
  17. ^ "Ingresos por big data y análisis de negocios 2022".
  18. ^ "Tamaño del mercado de la industria global de big data 2011-2027".
  19. ^ abc Big data: la próxima frontera para la innovación, la competencia y la productividad McKinsey Global Institute Mayo de 2011
  20. ^ Oracle y FSN, "Mastering Big Data: CFO Strategies to Transform Insight into Opportunity" Archivado el 4 de agosto de 2013 en Wayback Machine , diciembre de 2012
  21. ^ Jacobs, A. (6 de julio de 2009). "Las patologías del Big Data". ACMQueue . Archivado desde el original el 8 de diciembre de 2015. Consultado el 21 de abril de 2010 .
  22. ^ Magoulas, Roger; Lorica, Ben (febrero de 2009). "Introducción a Big Data". Versión 2.0 (11). Sebastopol, CA: O'Reilly Media. Archivado desde el original el 2 de noviembre de 2021. Consultado el 26 de febrero de 2021 .
  23. ^ John R. Mashey (25 de abril de 1998). "Big Data… and the Next Wave of InfraStress" (PDF) . Diapositivas de una charla invitada . Usenix. Archivado (PDF) del original el 12 de octubre de 2016. Consultado el 28 de septiembre de 2016 .
  24. ^ Steve Lohr (1 de febrero de 2013). «Los orígenes del «Big Data»: una historia detectivesca etimológica». The New York Times . Archivado desde el original el 6 de marzo de 2016. Consultado el 28 de septiembre de 2016 .
  25. ^ ab Snijders, Matzat y Reips 2012.
  26. ^ Dedić, N.; Stanier, C. (2017). "Hacia la diferenciación de la inteligencia empresarial, el big data, el análisis de datos y el descubrimiento de conocimientos". Innovaciones en la gestión e ingeniería de sistemas de información empresarial . Apuntes de clase sobre procesamiento de información empresarial. Vol. 285. Berlín; Heidelberg: Springer International Publishing. págs. 114–22. doi :10.1007/978-3-319-58801-8_10. ISBN 978-3-319-58800-1. ISSN  1865-1356. OCLC  909580101. Archivado desde el original el 27 de noviembre de 2020 . Consultado el 7 de septiembre de 2019 .
  27. ^ Everts, Sarah (2016). «Sobrecarga de información». Destilaciones . Vol. 2, núm. 2. págs. 26–33. Archivado desde el original el 3 de abril de 2019. Consultado el 22 de marzo de 2018 .
  28. ^ Abraham; Targio Hashem, Abaker; Yaqoob, Ibrar; Badrul Anuar, ni; Mokhtar, Salimah; Gani, Abdullah; Ullah Khan, Samee (2015). "Big Data" sobre computación en la nube: temas de revisión y investigación abierta". Sistemas de información . 47 : 98–115. doi : 10.1016/j.is.2014.07.006. S2CID  205488005.
  29. ^ Grimes, Seth. "Big Data: Evitar la confusión sobre 'Wanna V'". InformationWeek . Archivado desde el original el 23 de diciembre de 2015. Consultado el 5 de enero de 2016 .
  30. ^ Fox, Charles (25 de marzo de 2018). Data Science for Transport. Springer Textbooks in Earth Sciences, Geography and Environment. Springer. ISBN 9783319729527Archivado desde el original el 1 de abril de 2018 . Consultado el 31 de marzo de 2018 .
  31. ^ Kitchin, Rob; McArdle, Gavin (2016). "¿Qué hace que Big Data sea Big Data? Explorando las características ontológicas de 26 conjuntos de datos". Big Data & Society . 3 : 1–10. doi : 10.1177/2053951716631130 . S2CID  55539845.
  32. ^ Balazka, Dominik; Rodighiero, Dario (2020). "Big Data y el pequeño Big Bang: una (r)evolución epistemológica". Frontiers in Big Data . 3 : 31. doi : 10.3389/fdata.2020.00031 . hdl : 1721.1/128865 . PMC 7931920 . PMID  33693404. 
  33. ^ "con especial atención a Big Data y Analítica" (PDF) . Bigdataparis.com . Archivado desde el original (PDF) el 25 de febrero de 2021 . Consultado el 8 de octubre de 2017 .
  34. ^ ab Billings SA "Identificación de sistemas no lineales: métodos NARMAX en los dominios de tiempo, frecuencia y espacio-temporal". Wiley, 2013
  35. ^ "El blog ANDSI » DSI Big Data". Andsi.fr . Archivado desde el original el 10 de octubre de 2017. Consultado el 8 de octubre de 2017 .
  36. ^ Les Echos (3 de abril de 2013). "Les Echos - ¿Datos de baja densidad del coche Big Data? La faible densidad en información como factor discriminante - Archivos". Lesechos.fr . Archivado desde el original el 30 de abril de 2014 . Consultado el 8 de octubre de 2017 .
  37. ^ Sagiroglu, Seref (2013). "Big data: una revisión". Conferencia internacional sobre tecnologías y sistemas de colaboración (CTS) de 2013. págs. 42–47. doi :10.1109/CTS.2013.6567202. ISBN 978-1-4673-6404-1. Número de identificación del sujeto  5724608.
  38. ^ Kitchin, Rob; McArdle, Gavin (17 de febrero de 2016). "¿Qué hace que Big Data sea Big Data? Explorando las características ontológicas de 26 conjuntos de datos". Big Data & Society . 3 (1): 205395171663113. doi : 10.1177/2053951716631130 .
  39. ^ Onay, Ceylan; Öztürk, Elif (2018). "Una revisión de la investigación sobre calificación crediticia en la era del Big Data". Revista de Regulación y Cumplimiento Financiero . 26 (3): 382–405. doi :10.1108/JFRC-06-2017-0054. S2CID  158895306.
  40. ^ La cuarta V del Big Data
  41. ^ "Medición del valor empresarial de Big Data | IBM Big Data & Analytics Hub". www.ibmbigdatahub.com . Archivado desde el original el 28 de enero de 2021 . Consultado el 20 de enero de 2021 .
  42. ^ Kitchin, Rob; McArdle, Gavin (5 de enero de 2016). "¿Qué hace que Big Data sea Big Data? Explorando las características ontológicas de 26 conjuntos de datos". Big Data & Society . 3 (1): 205395171663113. doi : 10.1177/2053951716631130 . ISSN  2053-9517.
  43. ^ "Encuesta: las bases de datos más grandes se acercan a los 30 terabytes". Eweek.com . 8 de noviembre de 2003 . Consultado el 8 de octubre de 2017 .
  44. ^ "LexisNexis comprará Seisint por 775 millones de dólares". The Washington Post . Archivado desde el original el 24 de julio de 2008. Consultado el 15 de julio de 2004 .
  45. ^ "The Washington Post". The Washington Post . Archivado desde el original el 19 de octubre de 2016. Consultado el 24 de agosto de 2017 .
  46. ^ Bertolucci, Jeff "Hadoop: de experimento a plataforma líder de big data" Archivado el 23 de noviembre de 2020 en Wayback Machine , "Information Week", 2013. Recuperado el 14 de noviembre de 2013.
  47. ^ Webster, John. "MapReduce: procesamiento simplificado de datos en grandes clústeres". Archivado el 14 de diciembre de 2009 en Wayback Machine , "Search Storage", 2004. Recuperado el 25 de marzo de 2013.
  48. ^ "Oferta de soluciones de Big Data". MIKE2.0. Archivado desde el original el 16 de marzo de 2013. Consultado el 8 de diciembre de 2013 .
  49. ^ "Definición de Big Data". MIKE2.0. Archivado desde el original el 25 de septiembre de 2018. Consultado el 9 de marzo de 2013 .
  50. ^ Boja, C; Pocovnicu, A; Bătăgan, L. (2012). "Arquitectura paralela distribuida para Big Data". Informática Económica . 16 (2): 116-127.
  51. ^ "Resolver los principales desafíos empresariales con un lago de datos masivos" (PDF) . Hcltech.com . Agosto de 2014. Archivado (PDF) del original el 3 de julio de 2017 . Consultado el 8 de octubre de 2017 .
  52. ^ "Método para probar la tolerancia a fallos de los frameworks MapReduce" (PDF) . Redes informáticas. 2015. Archivado (PDF) del original el 22 de julio de 2016. Consultado el 13 de abril de 2016 .
  53. ^ ab Manyika, James; Chui, Michael; Bughin, Jaques; Brown, Brad; Dobbs, Richard; Roxburgh, Charles; Byers, Angela Hung (mayo de 2011). "Big Data: la próxima frontera para la innovación, la competencia y la productividad" (PDF) . McKinsey Global Institute. Archivado (PDF) del original el 25 de julio de 2021. Consultado el 22 de mayo de 2021 .
  54. ^ "Future Directions in Tensor-Based Computation and Modeling" (PDF) . Mayo de 2009. Archivado (PDF) del original el 17 de abril de 2018 . Consultado el 4 de enero de 2013 .
  55. ^ Lu, Haiping; Plataniotis, KN; Venetsanopoulos, AN (2011). "Un estudio sobre aprendizaje de subespacios multilineales para datos tensoriales" (PDF) . Reconocimiento de patrones . 44 (7): 1540–1551. Código bibliográfico :2011PatRe..44.1540L. doi :10.1016/j.patcog.2011.01.004. Archivado (PDF) desde el original el 10 de julio de 2019 . Consultado el 21 de enero de 2013 .
  56. ^ Pllana, Sabri; Janciak, Ivan; Brezany, Peter; Wöhrer, Alexander (2016). "Un estudio del estado del arte en minería de datos y lenguajes de consulta de integración". 2011 14th International Conference on Network-Based Information Systems . IEEE Computer Society. págs. 341–348. arXiv : 1603.01113 . Bibcode :2016arXiv160301113P. doi :10.1109/NBiS.2011.58. ISBN 978-1-4577-0789-6.S2CID 9285984  .
  57. ^ Wang, Yandong; Goldstone, Robin; Yu, Weikuan; Wang, Teng (octubre de 2014). "Caracterización y optimización de MapReduce residente en memoria en sistemas HPC". 2014 IEEE 28th International Parallel and Distributed Processing Symposium . IEEE. págs. 799–808. doi :10.1109/IPDPS.2014.87. ISBN 978-1-4799-3800-1.S2CID11157612  .​
  58. ^ L'Heureux, A.; Grolinger, K.; Elyamany, HF; Capretz, MAM (2017). "Aprendizaje automático con big data: desafíos y enfoques". IEEE Access . 5 : 7776–7797. Bibcode :2017IEEEA...5.7776L. doi : 10.1109/ACCESS.2017.2696365 . ISSN  2169-3536.
  59. ^ Monash, Curt (30 de abril de 2009). «Los dos enormes almacenes de datos de eBay». Archivado desde el original el 31 de marzo de 2019. Consultado el 11 de noviembre de 2010 .
    Monash, Curt (6 de octubre de 2010). «Seguimiento de eBay: Greenplum fuera, Teradata > 10 petabytes, Hadoop tiene cierto valor y más». Archivado desde el original el 31 de marzo de 2019. Consultado el 11 de noviembre de 2010 .
  60. ^ "Recursos sobre cómo se utiliza el análisis de datos topológicos para analizar grandes volúmenes de datos". Ayasdi. Archivado desde el original el 3 de marzo de 2013. Consultado el 5 de marzo de 2013 .
  61. ^ CNET News (1 de abril de 2011). «Las redes de área de almacenamiento no son necesarias». Archivado desde el original el 18 de octubre de 2013. Consultado el 17 de abril de 2013 .
  62. ^ Hilbert, Martin (2014). «¿Cuál es el contenido de la información y la capacidad de comunicación tecnológicamente mediadas del mundo: cuánto texto, imagen, audio y vídeo hay?». La sociedad de la información . 30 (2): 127–143. doi :10.1080/01972243.2013.873748. S2CID  45759014. Archivado desde el original el 24 de junio de 2020. Consultado el 12 de julio de 2019 .
  63. ^ Rajpurohit, Anmol (11 de julio de 2014). "Entrevista: Amy Gershkoff, directora de análisis y perspectivas de clientes de eBay, sobre cómo diseñar herramientas de inteligencia empresarial internas personalizadas". KDnuggets . Archivado desde el original el 14 de julio de 2014 . Consultado el 14 de julio de 2014 . En general, considero que las herramientas de inteligencia empresarial estándar no satisfacen las necesidades de los clientes que desean obtener perspectivas personalizadas de sus datos. Por lo tanto, para las organizaciones medianas y grandes con acceso a un talento técnico sólido, suelo recomendar la creación de soluciones internas personalizadas.
  64. ^ "El Gobierno y el big data: Uso, problemas y potencial". Computerworld . 21 de marzo de 2012. Archivado desde el original el 15 de septiembre de 2016 . Consultado el 12 de septiembre de 2016 .
  65. ^ "Libro blanco: Big Data para el desarrollo: oportunidades y desafíos". Global Pulse . Naciones Unidas. 2012. Archivado desde el original el 1 de junio de 2020 . Consultado el 13 de abril de 2016 .
  66. ^ "Big Data, Big Impact: Nuevas posibilidades para el desarrollo internacional". Foro Económico Mundial y Vital Wave Consulting. Archivado desde el original el 1 de junio de 2020. Consultado el 24 de agosto de 2012 .
  67. ^ abcde Hilbert 2016.
  68. ^ "Elena Kvochko, Cuatro maneras de hablar sobre Big Data (Serie Tecnologías de la información y la comunicación para el desarrollo)". worldbank.org. 4 de diciembre de 2012. Archivado desde el original el 15 de diciembre de 2012. Consultado el 30 de mayo de 2012 .
  69. ^ "Daniele Medri: Big Data & Business: An on-going revolution". Estadísticas Vistas. 21 de octubre de 2013. Archivado desde el original el 17 de junio de 2015 . Consultado el 21 de junio de 2015 .
  70. ^ Tobias Knobloch y Julia Manske (11 de enero de 2016). «Uso responsable de los datos». D+C, Desarrollo y Cooperación . Archivado desde el original el 13 de enero de 2017. Consultado el 11 de enero de 2017 .
  71. ^ Mann, S., y Hilbert, M. (2020). AI4D: Inteligencia artificial para el desarrollo. Revista internacional de comunicación, 14(0), 21. https://www.martinhilbert.net/ai4d-artificial-intelligence-for-development/ Archivado el 22 de abril de 2021 en Wayback Machine.
  72. ^ Blumenstock, JE (2016). Combatir la pobreza con datos. Science, 353(6301), 753–754. https://doi.org/10.1126/science.aah5217 Archivado el 1 de junio de 2022 en Wayback Machine.
  73. ^ Blumenstock, J., Cadamuro, G., & On, R. (2015). Predicción de la pobreza y la riqueza a partir de metadatos de teléfonos móviles. Science, 350(6264), 1073–1076. https://doi.org/10.1126/science.aac4420 Archivado el 1 de junio de 2022 en Wayback Machine.
  74. ^ Jean, N., Burke, M., Xie, M., Davis, WM, Lobell, DB y Ermon, S. (2016). Combinación de imágenes satelitales y aprendizaje automático para predecir la pobreza. Science, 353(6301), 790–794. https://doi.org/10.1126/science.aaf7894 Archivado el 1 de junio de 2022 en Wayback Machine.
  75. ^ ab Hilbert, M., & Lu, K. (2020). El rastreo del mercado laboral en línea en América Latina y el Caribe (UN CEPAL LC/TS.2020/83; p. 79). Comisión Económica de las Naciones Unidas para América Latina y el Caribe. https://www.cepal.org/es/publicaciones/45892-rastreo-del-mercado-laboral-en-linea-america-latina-y-el-caribe Archivado el 22 de septiembre de 2020 en Wayback Machine.
  76. ^ ONU CEPAL, (Comisión Económica de las Naciones Unidas para América Latina y el Caribe). (2020). Seguimiento de la huella digital en América Latina y el Caribe: lecciones aprendidas del uso de big data para evaluar la economía digital (Desarrollo Productivo, Asuntos de Género LC/TS.2020/12; Documentos de Proyecto). Naciones Unidas CEPAL. https://repositorio.cepal.org/handle/11362/45484 Archivado el 18 de septiembre de 2020 en Wayback Machine.
  77. ^ Banerjee, Amitav; Chaudhury, Suprakash (2010). "Estadísticas sin lágrimas: poblaciones y muestras". Revista de psiquiatría industrial . 19 (1): 60–65. doi : 10.4103/0972-6748.77642 . ISSN  0972-6748. PMC 3105563 . PMID  21694795. 
  78. ^ Aldridge, Irene (2016). Riesgo en tiempo real: lo que los inversores deberían saber sobre tecnología financiera, operaciones de alta frecuencia y caídas repentinas. Steven Krawciw. Somerset: John Wiley & Sons, Incorporated. ISBN 978-1-119-31906-1. OCLC  972292212.
  79. ^ Aldridge, Irene (2021). Big data science in finance. Marco Avellaneda. Hoboken, Nueva Jersey: Wiley. ISBN 978-1-119-60297-2.OCLC 1184122216  .
  80. ^ Hasan, Md. Morshadul; Popp, József; Oláh, Judit (12 de marzo de 2020). "Panorama actual e influencia del big data en las finanzas". Revista de Big Data . 7 (1): 21. doi : 10.1186/s40537-020-00291-z . ISSN  2196-1115.
  81. ^ Huser V, Cimino JJ (julio de 2016). "Desafíos inminentes para el uso de Big Data". Revista internacional de oncología radioterápica, biología y física . 95 (3): 890–894. doi :10.1016/j.ijrobp.2015.10.060. PMC 4860172. PMID  26797535 . 
  82. ^ Sejdic, Ervin; Falk, Tiago H. (4 de julio de 2018). Procesamiento de señales y aprendizaje automático para macrodatos biomédicos . Sejdić, Ervin, Falk, Tiago H. [Lugar de publicación no identificado]. ISBN 9781351061216.OCLC 1044733829  .{{cite book}}: CS1 maint: location missing publisher (link)
  83. ^ Raghupathi W, Raghupathi V (diciembre de 2014). "Análisis de big data en el cuidado de la salud: promesa y potencial". Health Information Science and Systems . 2 (1): 3. doi : 10.1186/2047-2501-2-3 . PMC 4341817 . PMID  25825667. 
  84. ^ Viceconti M, Hunter P, Hose R (julio de 2015). "Big data, big knowledge: big data for Personalized healthcare" (PDF) . IEEE Journal of Biomedical and Health Informatics . 19 (4): 1209–15. doi : 10.1109/JBHI.2015.2406883 . PMID  26218867. S2CID  14710821. Archivado (PDF) del original el 23 de julio de 2018 . Consultado el 21 de septiembre de 2019 .
  85. ^ O'Donoghue, John; Herbert, John (1 de octubre de 2012). "Gestión de datos en entornos de mHealth: sensores de pacientes, dispositivos móviles y bases de datos". Revista de calidad de datos e información . 4 (1): 5:1–5:20. doi :10.1145/2378016.2378021. S2CID  2318649.
  86. ^ Mirkes EM, Coats TJ, Levesley J, Gorban AN (agosto de 2016). "Manejo de datos faltantes en grandes conjuntos de datos de atención médica: un estudio de caso de resultados de trauma desconocidos". Computers in Biology and Medicine . 75 : 203–16. arXiv : 1604.00627 . Bibcode :2016arXiv160400627M. doi :10.1016/j.compbiomed.2016.06.004. PMID  27318570. S2CID  5874067.
  87. ^ Murdoch TB, Detsky AS (abril de 2013). "La inevitable aplicación de big data a la atención sanitaria". JAMA . 309 (13): 1351–2. doi :10.1001/jama.2013.393. PMID  23549579. S2CID  20462354.
  88. ^ Vayena E, Salathé M, Madoff LC, Brownstein JS (febrero de 2015). "Desafíos éticos del big data en la salud pública". PLOS Computational Biology . 11 (2): e1003904. Bibcode :2015PLSCB..11E3904V. doi : 10.1371/journal.pcbi.1003904 . PMC 4321985 . PMID  25664461. 
  89. ^ Copeland, CS (julio-agosto de 2017). «Data Driving Discovery» (PDF) . Healthcare Journal of New Orleans : 22–27. Archivado (PDF) del original el 5 de diciembre de 2019. Consultado el 5 de diciembre de 2019 .
  90. ^ Yanase y Triantaphyllou 2019.
  91. ^ Dong X, Bahroos N, Sadhu E, Jackson T, Chukhman M, Johnson R, Boyd A, Hynes D (2013). "Aproveche el marco Hadoop para aplicaciones de informática clínica a gran escala". Actas de las Cumbres conjuntas de AMIA sobre ciencia traslacional. Cumbres conjuntas de AMIA sobre ciencia traslacional . 2013 : 53. PMID  24303235.
  92. ^ Clunie, D. (2013). «La tomosíntesis de mama desafía la infraestructura de imágenes digitales». Science and Medicine Group. Archivado desde el original el 24 de febrero de 2021. Consultado el 28 de noviembre de 2023 .
  93. ^ Yanase J, Triantaphyllou E (2019b). "Los siete desafíos clave para el futuro del diagnóstico asistido por computadora en medicina". Revista internacional de informática médica . 129 : 413–22. doi :10.1016/j.ijmedinf.2019.06.017. PMID  31445285. S2CID  198287435.
  94. ^ "Grados en Big Data: ¿moda pasajera o vía rápida al éxito profesional?". Forbes . Archivado desde el original el 3 de marzo de 2016. Consultado el 21 de febrero de 2016 .
  95. ^ "Nueva York ofrece un nuevo campo de entrenamiento para científicos de datos: es gratuito, pero es más difícil entrar que en Harvard". Venture Beat . Archivado desde el original el 15 de febrero de 2016 . Consultado el 21 de febrero de 2016 .
  96. ^ Wedel, Michel; Kannan, PK (2016). "Análisis de marketing para entornos ricos en datos". Revista de marketing . 80 (6): 97–121. doi :10.1509/jm.15.0413. S2CID  168410284.
  97. ^ Couldry, Nick; Turow, Joseph (2014). "Publicidad, Big Data y la eliminación del espacio público: nuevos enfoques de los especialistas en marketing para el subsidio de contenido". Revista Internacional de Comunicación . 8 : 1710–1726.
  98. ^ "Por qué las agencias de publicidad digital no logran captar clientes y necesitan urgentemente una actualización asistida por IA". Ishti.org . 15 de abril de 2018. Archivado desde el original el 12 de febrero de 2019 . Consultado el 15 de abril de 2018 .
  99. ^ "Big data y analítica: C4 y Genius Digital". Ibc.org . Archivado desde el original el 8 de octubre de 2017. Consultado el 8 de octubre de 2017 .
  100. ^ Marshall Allen (17 de julio de 2018). "Las aseguradoras de salud están recogiendo detalles sobre usted y esto podría aumentar sus tarifas". www.propublica.org . Archivado desde el original el 21 de julio de 2018 . Consultado el 21 de julio de 2018 .
  101. ^ "QuiO nombrado campeón de innovación del Accenture HealthTech Innovation Challenge". Businesswire.com . 10 de enero de 2017. Archivado desde el original el 22 de marzo de 2017 . Consultado el 8 de octubre de 2017 .
  102. ^ "Una plataforma de software para la innovación tecnológica operativa" (PDF) . Predix.com . Archivado desde el original (PDF) el 22 de marzo de 2017 . Consultado el 8 de octubre de 2017 .
  103. ^ Z. Jenipher Wang (marzo de 2017). «Transporte inteligente impulsado por big data: la historia subyacente de la movilidad transformada por IoT». Archivado desde el original el 4 de julio de 2018. Consultado el 4 de julio de 2018 .
  104. ^ "That Internet Of Things Thing". 22 de junio de 2009. Archivado desde el original el 2 de mayo de 2013. Consultado el 29 de diciembre de 2017 .
  105. ^ ab Solnik, Ray. "Ha llegado el momento: la analítica es de gran ayuda para las operaciones de TI". Data Center Journal . Archivado desde el original el 4 de agosto de 2016. Consultado el 21 de junio de 2016 .
  106. ^ "BigSurv: Big Data se une a la ciencia de las encuestas" . Consultado el 15 de octubre de 2023 .
  107. ^ Eck, Adán; Cazar, Ana Lucía Córdova; Callegaro, Mario; Biemer, Paul (2021). ""Big Data se encuentra con la ciencia de las encuestas"". Revisión de informática de ciencias sociales . 39 (4): 484–488. doi : 10.1177/0894439319883393 .
  108. ^ "Número especial: Big data se encuentra con la ciencia de las encuestas". Revista de la Royal Statistical Society, Serie A . 185 (S2): S165–S166.
  109. ^ "Integración de datos de encuestas y no encuestas para medir el comportamiento y la opinión pública". www.springeropen.com . Consultado el 19 de octubre de 2023 .
  110. ^ Hill, Craig A.; Biemer, Paul P.; Buskirk, Trent D.; Japec, Lilli; Kirchner, Antje; Kolenikov, Stas; Lyberg, Lars E., eds. (13 de octubre de 2020). Big Data Meets Survey Science: A Collection of Innovative Methods (1.ª ed.). Wiley. doi :10.1002/9781118976357. ISBN 978-1-118-97632-6.S2CID240797608  .​
  111. ^ "Ganadores anteriores del premio Warren J. Mitofsky Innovators Award - AAPOR". 7 de junio de 2023. Consultado el 19 de octubre de 2023 .
  112. ^ ab Strong, Colin (2015). Humanizar el big data: el marketing en el encuentro de los datos, las ciencias sociales y el conocimiento del consumidor . Londres: Kogan Page. ISBN 978-0-7494-7211-5.
  113. ^ Berisha, B., Mëziu, E. y Shabani, I. (2022). Análisis de big data en computación en la nube: una descripción general. Journal of Cloud Computing , 11 (1), 1-10. doi :10.1186/s13677-022-00301-w
  114. ^ Bosch, Volker (1 de noviembre de 2016). "Big Data en la investigación de mercados: por qué más datos no significa automáticamente mejor información". NIM Marketing Intelligence Review . 8 (2): 56–63. doi :10.1515/gfkmir-2016-0017.
  115. ^ McFarland, Daniel A; McFarland, H Richard (1 de diciembre de 2015). "Big Data y el peligro de ser precisamente inexacto". Big Data & Society . 2 (2): 205395171560249. doi :10.1177/2053951715602495. ISSN  2053-9517.
  116. ^ Sivarajah, Uthayasankar; Kamal, Muhammad Mustafa; iraní, Zahir; Weerakkody, Vishanth (1 de enero de 2017). "Análisis crítico de los desafíos del Big Data y métodos analíticos". Revista de investigación empresarial . 70 : 263–286. doi :10.1016/j.jbusres.2016.08.001. ISSN  0148-2963.
  117. ^ abc De Luca, Luigi M.; Herhausen, Dennis; Troilo, Gabriele; Rossi, Andrea (1 de julio de 2021). "¿Cómo y cuándo dan resultado las inversiones en big data? El papel de las posibilidades de marketing y la innovación en servicios". Revista de la Academia de Ciencias del Marketing . 49 (4): 790–810.
  118. ^ Ghasemaghaei, Maryam; Calic, Goran (enero de 2020). "Evaluación del impacto del big data en el desempeño de la innovación de las empresas: el big data no siempre es mejor". Journal of Business Research . 108 : 147–162. doi :10.1016/j.jbusres.2019.09.062. ISSN  0148-2963.
  119. ^ Grybauskas, Andrius; Pilinkienė, Vaida; Stundžienė, Alina (3 de agosto de 2021). "Análisis predictivo utilizando Big Data para el mercado inmobiliario durante la pandemia de COVID-19". Revista de Big Data . 8 (1): 105. doi :10.1186/s40537-021-00476-0. ISSN  2196-1115. PMC 8329615. PMID 34367876.
  120. ^ Josh Rogin (2 de agosto de 2018). "La limpieza étnica vuelve a la normalidad en China". N.º 1. Washington Post. Archivado del original el 31 de marzo de 2019. Consultado el 4 de agosto de 2018. A eso hay que añadir el estado de seguridad y vigilancia sin precedentes en Xinjiang, que incluye un control integral basado en documentos de identidad, puestos de control, reconocimiento facial y la recolección de ADN de millones de personas. Las autoridades introducen todos estos datos en una máquina de inteligencia artificial que evalúa la lealtad de las personas al Partido Comunista para controlar todos los aspectos de sus vidas.
  121. ^ "China: Big Data impulsa represión en región minoritaria: programa de vigilancia predictiva señala a individuos para investigaciones y detenciones". hrw.org . Human Rights Watch. 26 de febrero de 2018. Archivado desde el original el 21 de diciembre de 2019 . Consultado el 4 de agosto de 2018 .
  122. ^ "Disciplina y castigo: el nacimiento del sistema de crédito social de China". The Nation . 23 de enero de 2019. Archivado desde el original el 13 de septiembre de 2019 . Consultado el 8 de agosto de 2019 .
  123. ^ "El sistema de monitoreo de conducta de China prohíbe a algunas personas viajar y comprar propiedades". CBS News . 24 de abril de 2018. Archivado desde el original el 13 de agosto de 2019 . Consultado el 8 de agosto de 2019 .
  124. ^ "La complicada verdad sobre el sistema de crédito social de China". WIRED . 21 de enero de 2019. Archivado desde el original el 8 de agosto de 2019 . Consultado el 8 de agosto de 2019 .
  125. ^ "Noticias: Live Mint". ¿Las empresas indias están entendiendo lo suficiente el uso de Big Data? . Live Mint. 23 de junio de 2014. Archivado desde el original el 29 de noviembre de 2014. Consultado el 22 de noviembre de 2014 .
  126. ^ "Una startup israelí utiliza big data y hardware mínimo para tratar la diabetes". The Times of Israel . Archivado desde el original el 1 de marzo de 2018. Consultado el 28 de febrero de 2018 .
  127. ^ Singh, Gurparkash; Schulthess, Duane; Hughes, Nigel; Vannieuwenhuyse, Bart; Kalra, Dipak (2018). "Big data del mundo real para la investigación clínica y el desarrollo de fármacos". Drug Discovery Today . 23 (3): 652–660. doi : 10.1016/j.drudis.2017.12.002 . PMID  29294362.
  128. ^ "Avances recientes de la computación en la nube móvil y la Internet de las cosas para aplicaciones de Big Data: una encuesta". Revista internacional de gestión de redes. 11 de marzo de 2016. Archivado desde el original el 1 de junio de 2022. Consultado el 14 de septiembre de 2016 .
  129. ^ Kalil, Tom (29 de marzo de 2012). "Big Data is a Big Deal". whitehouse.gov . Archivado desde el original el 10 de enero de 2017. Consultado el 26 de septiembre de 2012 a través de National Archives .
  130. ^ Oficina Ejecutiva del Presidente (marzo de 2012). "Big Data en el Gobierno Federal" (PDF) . Oficina de Política Científica y Tecnológica . Archivado (PDF) del original el 21 de enero de 2017. Consultado el 26 de septiembre de 2012 a través de Archivos Nacionales .
  131. ^ Lampitt, Andrew (14 de febrero de 2013). «La verdadera historia de cómo el análisis de big data ayudó a Obama a ganar». InfoWorld . Archivado desde el original el 5 de julio de 2014. Consultado el 31 de mayo de 2014 .
  132. ^ "Noviembre 2023 | TOP500". Archivado desde el original el 7 de abril de 2024 . Consultado el 20 de abril de 2024 .
  133. ^ Hoover, J. Nicholas. "Las 10 supercomputadoras más poderosas del gobierno". Information Week . UBM. Archivado desde el original el 16 de octubre de 2013. Consultado el 26 de septiembre de 2012 .
  134. ^ Bamford, James (15 de marzo de 2012). "La NSA está construyendo el mayor centro de espionaje del país (cuidado con lo que dices)". Wired . Archivado desde el original el 4 de abril de 2012. Consultado el 18 de marzo de 2013 .
  135. ^ "Se celebró la ceremonia inaugural del centro de datos de Utah, valorado en 1200 millones de dólares". Agencia de Seguridad Nacional, Servicio Central de Seguridad. Archivado desde el original el 5 de septiembre de 2013. Consultado el 18 de marzo de 2013 .
  136. ^ Hill, Kashmir. "Los planos del ridículamente caro centro de datos de la NSA en Utah sugieren que contiene menos información de la que se pensaba". Forbes . Archivado desde el original el 29 de marzo de 2018. Consultado el 31 de octubre de 2013 .
  137. ^ Smith, Gerry; Hallman, Ben (12 de junio de 2013). «La polémica por el espionaje de la NSA pone de relieve la adopción del Big Data». Huffington Post . Archivado desde el original el 19 de julio de 2017 . Consultado el 7 de mayo de 2018 .
  138. ^ Wingfield, Nick (12 de marzo de 2013). "Predicción de los desplazamientos diarios con mayor precisión para los posibles compradores de viviendas". The New York Times . Archivado desde el original el 29 de mayo de 2013. Consultado el 21 de julio de 2013 .
  139. ^ "FICO® Falcon® Fraud Manager". Fico.com. Archivado desde el original el 11 de noviembre de 2012. Consultado el 21 de julio de 2013 .
  140. ^ Brynjolfsson, Erik; Hu, Yu Jeffrey; Rahman, Mohammad S. (21 de mayo de 2013). "Competir en la era del comercio minorista omnicanal". MIT Sloan Management Review .
  141. ^ Alexandru, Dan. "Prof" (PDF) . cds.cern.ch . CERN. Archivado (PDF) del original el 15 de julio de 2017 . Consultado el 24 de marzo de 2015 .
  142. ^ "Folleto del LHC, versión en inglés. Presentación del mayor y más potente acelerador de partículas del mundo, el Gran Colisionador de Hadrones (LHC), que se puso en marcha en 2008. Se explican su papel, características, tecnologías, etc. para el público en general". Folleto del LHC, versión en inglés . CERN. Archivado desde el original el 19 de marzo de 2019. Consultado el 20 de enero de 2013 .
  143. ^ "Guía del LHC, versión en inglés. Una recopilación de datos y cifras sobre el Gran Colisionador de Hadrones (LHC) en forma de preguntas y respuestas". CERN-Brochure-2008-001-Eng. Guía del LHC, versión en inglés . CERN. Archivado desde el original el 7 de abril de 2020. Consultado el 20 de enero de 2013 .
  144. ^ Brumfiel, Geoff (19 de enero de 2011). «Física de altas energías: por la autopista del petabyte». Nature . 469 (7330): 282–83. Bibcode :2011Natur.469..282B. doi : 10.1038/469282a . PMID  21248814. S2CID  533166.
  145. ^ "IBM Research – Zurich" (PDF) . Zurich.ibm.com . Archivado desde el original el 1 de junio de 2022 . Consultado el 8 de octubre de 2017 .
  146. ^ "El futuro conjunto de telescopios impulsa el desarrollo del procesamiento en exabytes". Ars Technica . 2 de abril de 2012. Archivado desde el original el 31 de marzo de 2019 . Consultado el 15 de abril de 2015 .
  147. ^ "La oferta de Australia para el Square Kilometre Array: la perspectiva de un experto". The Conversation . 1 de febrero de 2012. Archivado desde el original el 12 de octubre de 2016 . Consultado el 27 de septiembre de 2016 .
  148. ^ "Delort P., OECD ICCP Technology Foresight Forum, 2012" (PDF) . Oecd.org . Archivado (PDF) del original el 19 de junio de 2017. Consultado el 8 de octubre de 2017 .
  149. ^ "NASA – NASA Goddard presenta el Centro de Simulación Climática de la NASA". Nasa.gov . Archivado desde el original el 3 de abril de 2016. Consultado el 13 de abril de 2016 .
  150. ^ Webster, Phil. "Supercomputing the Climate: NASA's Big Data Mission". CSC World . Computer Sciences Corporation. Archivado desde el original el 4 de enero de 2013. Consultado el 18 de enero de 2013 .
  151. ^ "Estas seis grandes ideas de la neurociencia podrían dar el salto del laboratorio al mercado". The Globe and Mail . 20 de noviembre de 2014. Archivado desde el original el 11 de octubre de 2016 . Consultado el 1 de octubre de 2016 .
  152. ^ "DNAstack aborda conjuntos de datos de ADN complejos y masivos con Google Genomics". Google Cloud Platform. Archivado desde el original el 24 de septiembre de 2016. Consultado el 1 de octubre de 2016 .
  153. ^ "23andMe – Ancestry". 23andme.com . Archivado desde el original el 18 de diciembre de 2016. Consultado el 29 de diciembre de 2016 .
  154. ^ ab Potenza, Alessandra (13 de julio de 2016). «23andMe quiere que los investigadores utilicen sus kits, en un intento de ampliar su colección de datos genéticos». The Verge . Archivado desde el original el 29 de diciembre de 2016. Consultado el 29 de diciembre de 2016 .
  155. ^ "Esta startup secuenciará tu ADN para que puedas contribuir a la investigación médica". Fast Company . 23 de diciembre de 2016. Archivado desde el original el 29 de diciembre de 2016 . Consultado el 29 de diciembre de 2016 .
  156. ^ Seife, Charles. "23andMe es aterrador, pero no por las razones que cree la FDA". Scientific American . Archivado desde el original el 29 de diciembre de 2016. Consultado el 29 de diciembre de 2016 .
  157. ^ Zaleski, Andrew (22 de junio de 2016). "Esta empresa de biotecnología está apostando a que sus genes producirán el próximo fármaco maravilloso". CNBC. Archivado desde el original el 29 de diciembre de 2016. Consultado el 29 de diciembre de 2016 .
  158. ^ Regalado, Antonio. «Cómo 23andMe convirtió tu ADN en una máquina de descubrimiento de fármacos de 1.000 millones de dólares». MIT Technology Review . Archivado desde el original el 29 de diciembre de 2016. Consultado el 29 de diciembre de 2016 .
  159. ^ "23andMe informa de un aumento de las solicitudes de datos tras el estudio sobre la depresión de Pfizer | FierceBiotech". fiercebiotech.com . 22 de agosto de 2016. Archivado desde el original el 29 de diciembre de 2016 . Consultado el 29 de diciembre de 2016 .
  160. ^ Admire Moyo (23 de octubre de 2015). «Los científicos de datos predicen la derrota de los Springboks». itweb.co.za . Archivado desde el original el 22 de diciembre de 2015 . Consultado el 12 de diciembre de 2015 .
  161. ^ Bai, Zhongbo; Bai, Xiaomei (2021). "Big Data deportivo: gestión, análisis, aplicaciones y desafíos". Complejidad . 2021 : 1–11. doi : 10.1155/2021/6676297 .
  162. ^ Regina Pazvakavambwa (17 de noviembre de 2015). «Predictive analytics, big data transform sports». itweb.co.za . Archivado desde el original el 22 de diciembre de 2015. Consultado el 12 de diciembre de 2015 .
  163. ^ Dave Ryan (13 de noviembre de 2015). «Deportes: donde el Big Data finalmente cobra sentido». huffingtonpost.com . Archivado desde el original el 22 de diciembre de 2015. Consultado el 12 de diciembre de 2015 .
  164. ^ Frank Bi. "Cómo los equipos de Fórmula 1 están utilizando el Big Data para obtener la ventaja interna". Forbes . Archivado desde el original el 20 de diciembre de 2015. Consultado el 12 de diciembre de 2015 .
  165. ^ Tay, Liz. "Dentro del almacén de datos de 90 PB de eBay". ITNews. Archivado desde el original el 15 de febrero de 2016. Consultado el 12 de febrero de 2016 .
  166. ^ Layton, Julia (25 de enero de 2006). «Tecnología de Amazon». Money.howstuffworks.com. Archivado desde el original el 28 de febrero de 2013. Consultado el 5 de marzo de 2013 .
  167. ^ "Ampliando Facebook a 500 millones de usuarios y más". Facebook.com. Archivado desde el original el 5 de julio de 2013. Consultado el 21 de julio de 2013 .
  168. ^ Constine, Josh (27 de junio de 2017). «Facebook ahora tiene 2 mil millones de usuarios mensuales… y responsabilidad». TechCrunch . Archivado desde el original el 27 de diciembre de 2020. Consultado el 3 de septiembre de 2018 .
  169. ^ "Google sigue realizando al menos un billón de búsquedas al año". Search Engine Land . 16 de enero de 2015. Archivado desde el original el 15 de abril de 2015 . Consultado el 15 de abril de 2015 .
  170. ^ Haleem, Abid; Javaid, Mohd; Khan, Ibrahim; Vaishya, Raju (2020). "Aplicaciones importantes de Big Data en la pandemia de COVID-19". Revista India de Ortopedia . 54 (4): 526–528. doi :10.1007/s43465-020-00129-z. PMC 7204193 . PMID  32382166. 
  171. ^ Manancourt, Vincent (10 de marzo de 2020). «El coronavirus pone a prueba la determinación de Europa en materia de privacidad». Politico . Archivado desde el original el 20 de marzo de 2020. Consultado el 30 de octubre de 2020 .
  172. ^ Choudhury, Amit Roy (27 de marzo de 2020). "El gobierno en tiempos de coronavirus". Gov Insider . Archivado desde el original el 20 de marzo de 2020. Consultado el 30 de octubre de 2020 .
  173. ^ Cellan-Jones, Rory (11 de febrero de 2020). «China lanza una aplicación para detectar contactos cercanos con el coronavirus». BBC . Archivado desde el original el 28 de febrero de 2020. Consultado el 30 de octubre de 2020 .
  174. ^ Siwach, Gautam; Esmailpour, Amir (marzo de 2014). Búsqueda cifrada y formación de clústeres en macrodatos (PDF) . Conferencia de la Zona I de la ASEE 2014. Universidad de Bridgeport , Bridgeport , Connecticut, EE. UU. Archivado desde el original (PDF) el 9 de agosto de 2014. Consultado el 26 de julio de 2014 .
  175. ^ "La Administración Obama presenta la iniciativa "Big Data": anuncia 200 millones de dólares en nuevas inversiones en I+D" (PDF) . Oficina de Política Científica y Tecnológica . Archivado (PDF) del original el 21 de enero de 2017 – vía Archivos Nacionales .
  176. ^ "AMPLab en la Universidad de California, Berkeley". Amplab.cs.berkeley.edu. Archivado desde el original el 6 de mayo de 2011. Consultado el 5 de marzo de 2013 .
  177. ^ "NSF lidera esfuerzos federales en Big Data". Fundación Nacional de Ciencias (NSF). 29 de marzo de 2012. Archivado desde el original el 31 de marzo de 2019. Consultado el 6 de abril de 2018 .
  178. ^ Timothy Hunter; Teodor Moldovan; Matei Zaharia; Justin Ma; Michael Franklin; Pieter Abbeel ; Alexandre Bayen (octubre de 2011). Escalado del sistema móvil Millennium en la nube. Archivado desde el original el 31 de marzo de 2019. Consultado el 2 de noviembre de 2012 .
  179. ^ David Patterson (5 de diciembre de 2011). «Los informáticos pueden tener lo necesario para ayudar a curar el cáncer». The New York Times . Archivado desde el original el 30 de enero de 2017. Consultado el 26 de febrero de 2017 .
  180. ^ "El secretario Chu anuncia un nuevo instituto para ayudar a los científicos a mejorar la investigación de conjuntos de datos masivos en las supercomputadoras del DOE". energy.gov. Archivado desde el original el 3 de abril de 2019. Consultado el 2 de noviembre de 2012 .
  181. ^ Young, Shannon (30 de mayo de 2012). "Mass. governor, MIT Announce Big Data Initiative". Boston.com . Archivado desde el original el 29 de julio de 2021. Consultado el 29 de julio de 2021 .
  182. ^ "Big Data @ CSAIL". Bigdata.csail.mit.edu. 22 de febrero de 2013. Archivado desde el original el 30 de marzo de 2013. Consultado el 5 de marzo de 2013 .
  183. ^ "Big Data Public Private Forum". cordis.europa.eu. 1 de septiembre de 2012. Archivado desde el original el 9 de marzo de 2021. Consultado el 16 de marzo de 2020 .
  184. ^ "Se creará el Instituto Alan Turing para investigar el big data". BBC News . 19 de marzo de 2014. Archivado desde el original el 18 de agosto de 2021 . Consultado el 19 de marzo de 2014 .
  185. ^ "Día de inspiración en la Universidad de Waterloo, campus Stratford". betakit.com/. Archivado desde el original el 26 de febrero de 2014. Consultado el 28 de febrero de 2014 .
  186. ^ abc Reips, Ulf-Dietrich; Matzat, Uwe (2014). «Extracción de «Big Data» mediante servicios de Big Data». Revista internacional de ciencia de Internet . 1 (1): 1–8. Archivado desde el original el 14 de agosto de 2014. Consultado el 14 de agosto de 2014 .
  187. ^ Preis T, Moat HS, Stanley HE, Bishop SR (2012). "Cuantificación de la ventaja de mirar hacia adelante". Scientific Reports . 2 : 350. Bibcode :2012NatSR...2E.350P. doi :10.1038/srep00350. PMC 3320057 . PMID  22482034. 
  188. ^ Marks, Paul (5 de abril de 2012). «Las búsquedas online de futuro están vinculadas al éxito económico». New Scientist . Archivado desde el original el 8 de abril de 2012. Consultado el 9 de abril de 2012 .
  189. ^ Johnston, Casey (6 de abril de 2012). «Google Trends revela pistas sobre la mentalidad de las naciones más ricas». Ars Technica . Archivado desde el original el 7 de abril de 2012. Consultado el 9 de abril de 2012 .
  190. ^ Tobias Preis (24 de mayo de 2012). «Información complementaria: El índice de orientación hacia el futuro está disponible para su descarga» (PDF) . Archivado (PDF) desde el original el 17 de enero de 2013. Consultado el 24 de mayo de 2012 .
  191. ^ Philip Ball (26 de abril de 2013). «El recuento de búsquedas en Google predice los movimientos del mercado». Nature . doi :10.1038/nature.2013.12879. S2CID  167357427. Archivado desde el original el 27 de septiembre de 2013. Consultado el 9 de agosto de 2013 .
  192. ^ Preis T, Moat HS, Stanley HE (2013). "Cuantificación del comportamiento comercial en los mercados financieros mediante Google Trends". Scientific Reports . 3 : 1684. Bibcode :2013NatSR...3E1684P. doi :10.1038/srep01684. PMC 3635219 . PMID  23619126. 
  193. ^ Nick Bilton (26 de abril de 2013). «Los términos de búsqueda de Google pueden predecir el mercado de valores, según un estudio». The New York Times . Archivado desde el original el 2 de junio de 2013. Consultado el 9 de agosto de 2013 .
  194. ^ Christopher Matthews (26 de abril de 2013). "¿Tiene problemas con su cartera de inversiones? ¡Búsquelo en Google!". Time . Archivado desde el original el 21 de agosto de 2013. Consultado el 9 de agosto de 2013 .
  195. ^ Philip Ball (26 de abril de 2013). «El recuento de búsquedas en Google predice los movimientos del mercado». Nature . doi :10.1038/nature.2013.12879. S2CID  167357427. Archivado desde el original el 27 de septiembre de 2013. Consultado el 9 de agosto de 2013 .
  196. ^ Bernhard Warner (25 de abril de 2013). «Los investigadores de Big Data recurren a Google para superar a los mercados». Bloomberg Businessweek . Archivado desde el original el 23 de julio de 2013. Consultado el 9 de agosto de 2013 .
  197. ^ Hamish McRae (28 de abril de 2013). "Hamish McRae: ¿Necesita una valiosa información sobre el sentimiento de los inversores? Búsquela en Google". The Independent . Londres. Archivado desde el original el 25 de julio de 2018 . Consultado el 9 de agosto de 2013 .
  198. ^ Richard Waters (25 de abril de 2013). «La búsqueda en Google demuestra ser una nueva palabra en la predicción del mercado de valores». Financial Times . Archivado desde el original el 1 de junio de 2022. Consultado el 9 de agosto de 2013 .
  199. ^ Jason Palmer (25 de abril de 2013). «Las búsquedas en Google predicen los movimientos del mercado». BBC . Archivado desde el original el 5 de junio de 2013. Consultado el 9 de agosto de 2013 .
  200. ^ E. Sejdić (marzo de 2014). "Adaptar las herramientas actuales para su uso con big data". Nature . 507 (7492): 306.
  201. ^ Chris Kimble; Giannis Milolidakis (7 de octubre de 2015). "Big Data e inteligencia empresarial: desacreditando los mitos". Excelencia empresarial y organizacional global . 35 (1): 23–34. arXiv : 1511.03085 . doi :10.1002/JOE.21642. ISSN  1932-2054. Wikidata  Q56532925.
  202. ^ Chris Anderson (23 de junio de 2008). «El fin de la teoría: el diluvio de datos hace que el método científico quede obsoleto». Wired . Archivado desde el original el 27 de marzo de 2014. Consultado el 5 de marzo de 2017 .
  203. ^ Graham M. (9 de marzo de 2012). «Big data and the end of theory?» (¿Big data y el fin de la teoría?). The Guardian . Londres. Archivado desde el original el 24 de julio de 2013. Consultado el 14 de diciembre de 2016 .
  204. ^ Shah, Shvetank; Horne, Andrew; Capellá, Jaime (abril de 2012). «Los buenos datos no garantizan buenas decisiones». Harvard Business Review . Archivado desde el original el 11 de septiembre de 2012. Consultado el 8 de septiembre de 2012 .
  205. ^ ab Big Data requiere grandes visiones para grandes cambios. Archivado el 2 de diciembre de 2016 en Wayback Machine , Hilbert, M. (2014). Londres: TEDx UCL, x=charlas TED organizadas de forma independiente
  206. ^ Alemany Oliver, Mathieu; Vayre, Jean-Sebastien (2015). "Big Data y el futuro de la producción de conocimiento en la investigación de marketing: ética, rastros digitales y razonamiento abductivo". Revista de análisis de marketing . 3 (1): 5–13. doi :10.1057/jma.2015.1. S2CID  111360835.
  207. ^ Jonathan Rauch (1 de abril de 2002). "Seeing Around Corners". The Atlantic . Archivado desde el original el 4 de abril de 2017. Consultado el 5 de marzo de 2017 .
  208. ^ Epstein, JM, y Axtell, RL (1996). Sociedades artificiales en crecimiento: las ciencias sociales desde abajo. Un libro de Bradford.
  209. ^ "Delort P., Big data in Biosciences, Big Data Paris, 2012" (PDF) . Bigdata Paris . Archivado desde el original (PDF) el 30 de julio de 2016. Consultado el 8 de octubre de 2017 .
  210. ^ "Genómica de próxima generación: un enfoque integrador" (PDF) . Nature. Julio de 2010. Archivado (PDF) del original el 13 de agosto de 2017 . Consultado el 18 de octubre de 2016 .
  211. ^ "Big Data en biociencias". Octubre de 2015. Archivado desde el original el 1 de junio de 2022. Consultado el 18 de octubre de 2016 .
  212. ^ "Big data: ¿estamos cometiendo un gran error?". Financial Times . 28 de marzo de 2014. Archivado desde el original el 30 de junio de 2016. Consultado el 20 de octubre de 2016 .
  213. ^ Ohm, Paul (23 de agosto de 2012). "No construyas una base de datos de la ruina". Harvard Business Review . Archivado desde el original el 30 de agosto de 2012. Consultado el 29 de agosto de 2012 .
  214. ^ Bond-Graham, Darwin (2018). "La perspectiva sobre los macrodatos" Archivado el 9 de noviembre de 2020 en Wayback Machine . La perspectiva .
  215. ^ Barocas, Solon; Nissenbaum, Helen; Lane, Julia; Stodden, Victoria; Bender, Stefan; Nissenbaum, Helen (junio de 2014). Big Data's End Run around Anonymity and Consent . Cambridge University Press. págs. 44–75. doi :10.1017/cbo9781107590205.004. ISBN 9781107067356.ID S2C  152939392.
  216. ^ Lugmayr, A.; Stockleben, B.; Scheib, C.; Mailaparampil, M.; Mesia, N.; Ranta, H.; Lab, E. (1 de junio de 2016). "Una encuesta exhaustiva sobre la investigación de big data y sus implicaciones: ¿qué es realmente "nuevo" en big data? ¡Es el big data cognitivo!". Archivado desde el original el 1 de junio de 2022. Consultado el 27 de noviembre de 2023 .
  217. ^ Danah Boyd (29 de abril de 2010). «Privacidad y publicidad en el contexto de los macrodatos». Conferencia WWW 2010. Archivado desde el original el 22 de octubre de 2018. Consultado el 18 de abril de 2011 .
  218. ^ Katyal, Sonia K. (2019). «Inteligencia artificial, publicidad y desinformación». Advertising & Society Quarterly . 20 (4). doi :10.1353/asr.2019.0026. ISSN  2475-1790. S2CID  213397212. Archivado desde el original el 28 de octubre de 2020 . Consultado el 18 de noviembre de 2020 .
  219. ^ Jones, MB; Schildhauer, MP; Reichman, OJ; Bowers, S (2006). "La nueva bioinformática: integración de datos ecológicos desde el gen hasta la biosfera" (PDF) . Revisión anual de ecología, evolución y sistemática . 37 (1): 519–544. doi :10.1146/annurev.ecolsys.37.091305.110031. Archivado (PDF) desde el original el 8 de julio de 2019 . Consultado el 19 de septiembre de 2012 .
  220. ^ ab Boyd, D.; Crawford, K. (2012). "Preguntas críticas para los macrodatos". Información, comunicación y sociedad . 15 (5): 662–679. doi :10.1080/1369118X.2012.678878. hdl : 10983/1320 . S2CID  51843165.
  221. ^ Fracaso en el lanzamiento: del Big Data a las grandes decisiones Archivado el 6 de diciembre de 2016 en Wayback Machine , Forte Wares.
  222. ^ "15 cosas locas que se correlacionan entre sí". Archivado desde el original el 27 de junio de 2019 . Consultado el 27 de junio de 2019 .
  223. ^ "Estructuras aleatorias y algoritmos". Archivado desde el original el 27 de junio de 2019 . Consultado el 27 de junio de 2019 .
  224. ^ Cristian S. Calude, Giuseppe Longo, (2016), El diluvio de correlaciones espurias en Big Data, Fundamentos de la ciencia
  225. ^ Anja Lambrecht y Catherine Tucker (2016) "Los 4 errores que la mayoría de los gerentes cometen con la analítica", Harvard Business Review , 12 de julio. https://hbr.org/2016/07/the-4-mistakes-most-managers-make-with-analytics Archivado el 26 de enero de 2022 en Wayback Machine.
  226. ^ ab Gregory Piatetsky (12 de agosto de 2014). "Entrevista: Michael Berthold, fundador de KNIME, sobre investigación, creatividad, big data y privacidad, parte 2". KDnuggets. Archivado desde el original el 13 de agosto de 2014. Consultado el 13 de agosto de 2014 .
  227. ^ Pelt, Mason (26 de octubre de 2015). «"Big Data" es una palabra de moda muy utilizada y este bot de Twitter lo demuestra». Siliconangle . Archivado desde el original el 30 de octubre de 2015 . Consultado el 4 de noviembre de 2015 .
  228. ^ ab Harford, Tim (28 de marzo de 2014). "Big data: ¿estamos cometiendo un gran error?". Financial Times . Archivado desde el original el 7 de abril de 2014. Consultado el 7 de abril de 2014 .
  229. ^ Ioannidis JP (agosto de 2005). "Por qué la mayoría de los hallazgos de investigación publicados son falsos". PLOS Medicine . 2 (8): e124. doi : 10.1371/journal.pmed.0020124 . PMC 1182327 . PMID  16060722. 
  230. ^ Lohr, Steve; Singer, Natasha (10 de noviembre de 2016). «Cómo los datos nos fallaron a la hora de convocar elecciones». The New York Times . ISSN  0362-4331. Archivado desde el original el 25 de noviembre de 2016. Consultado el 27 de noviembre de 2016 .
  231. ^ "Cómo la vigilancia basada en datos amenaza la libertad humana". The Economist . 4 de junio de 2018. ISSN  0013-0613. Archivado desde el original el 27 de octubre de 2019. Consultado el 27 de octubre de 2019 .
  232. ^ Brayne, Sarah (29 de agosto de 2017). "Big Data Surveillance: The Case of Policing" (Vigilancia de macrodatos: el caso de la policía). American Sociological Review . 82 (5): 977–1008. doi :10.1177/0003122417725865. PMC 10846878 . PMID  38322733. S2CID  3609838. 

Bibliografía

Lectura adicional

Enlaces externos