La ciencia de datos es un campo académico interdisciplinario [1] que utiliza estadísticas , informática científica , métodos , procesos, algoritmos y sistemas científicos para extraer o extrapolar conocimientos e ideas a partir de datos potencialmente ruidosos, estructurados o no estructurados . [2]
La ciencia de datos también integra el conocimiento del dominio del dominio de aplicación subyacente (por ejemplo, ciencias naturales, tecnología de la información y medicina). [3] La ciencia de datos es multifacética y puede describirse como una ciencia, un paradigma de investigación, un método de investigación, una disciplina, un flujo de trabajo y una profesión. [4]
La ciencia de datos es "un concepto para unificar las estadísticas , el análisis de datos , la informática y sus métodos relacionados" para "comprender y analizar fenómenos reales " con datos . [5] Utiliza técnicas y teorías extraídas de muchos campos dentro del contexto de las matemáticas , la estadística, la informática , las ciencias de la información y el conocimiento del dominio . [6] Sin embargo, la ciencia de datos es diferente de la informática y la ciencia de la información. El ganador del Premio Turing, Jim Gray, imaginó la ciencia de datos como un "cuarto paradigma" de la ciencia ( empírico , teórico , computacional y ahora basado en datos) y afirmó que "todo lo relacionado con la ciencia está cambiando debido al impacto de la tecnología de la información " y la avalancha de datos . . [7] [8]
Un científico de datos es un profesional que crea código de programación y lo combina con conocimientos estadísticos para generar conocimientos a partir de los datos. [9]
La ciencia de datos es un campo interdisciplinario [10] centrado en extraer conocimiento de conjuntos de datos típicamente grandes y aplicar el conocimiento y los conocimientos de esos datos para resolver problemas en una amplia gama de dominios de aplicación. El campo abarca la preparación de datos para el análisis, la formulación de problemas de ciencia de datos, el análisis de datos, el desarrollo de soluciones basadas en datos y la presentación de hallazgos para informar decisiones de alto nivel en una amplia gama de dominios de aplicación. Como tal, incorpora habilidades de informática, estadística, ciencias de la información, matemáticas, visualización de datos , visualización de información , sonificación de datos , integración de datos , diseño gráfico , sistemas complejos , comunicación y negocios . [11] [12] El estadístico Nathan Yau , basándose en Ben Fry , también vincula la ciencia de datos con la interacción persona-computadora : los usuarios deberían poder controlar y explorar los datos de manera intuitiva. [13] [14] En 2015, la Asociación Estadounidense de Estadística identificó la gestión de bases de datos , las estadísticas y el aprendizaje automático , y los sistemas distribuidos y paralelos como las tres comunidades profesionales fundamentales emergentes. [15]
Muchos estadísticos, incluido Nate Silver , han argumentado que la ciencia de datos no es un campo nuevo, sino más bien otro nombre para la estadística. [16] Otros argumentan que la ciencia de datos es distinta de la estadística porque se centra en problemas y técnicas exclusivos de los datos digitales. [17] Vasant Dhar escribe que la estadística enfatiza los datos cuantitativos y la descripción. Por el contrario, la ciencia de datos se ocupa de datos cuantitativos y cualitativos (por ejemplo, de imágenes, texto, sensores, transacciones, información de clientes, etc.) y enfatiza la predicción y la acción. [18] Andrew Gelman de la Universidad de Columbia ha descrito la estadística como una parte no esencial de la ciencia de datos. [19]
El profesor de Stanford David Donoho escribe que la ciencia de datos no se distingue de la estadística por el tamaño de los conjuntos de datos o el uso de la informática y que muchos programas de posgrado anuncian engañosamente su formación en análisis y estadística como la esencia de un programa de ciencia de datos. Describe la ciencia de datos como un campo aplicado que surge de la estadística tradicional. [20]
En 1962, John Tukey describió un campo que llamó " análisis de datos ", que se asemeja a la ciencia de datos moderna. [20] En 1985, en una conferencia dada en la Academia China de Ciencias en Beijing, C. F. Jeff Wu utilizó el término "ciencia de datos" por primera vez como un nombre alternativo para la estadística. [21] Más tarde, los asistentes a un simposio de estadística celebrado en 1992 en la Universidad de Montpellier II reconocieron el surgimiento de una nueva disciplina centrada en datos de diversos orígenes y formas, que combina conceptos y principios establecidos de estadística y análisis de datos con informática. [22] [23]
El término "ciencia de datos" se remonta a 1974, cuando Peter Naur lo propuso como un nombre alternativo a la informática. [6] En 1996, la Federación Internacional de Sociedades de Clasificación se convirtió en la primera conferencia que presentó específicamente la ciencia de datos como tema. [6] Sin embargo, la definición aún estaba cambiando. Después de la conferencia de 1985 en la Academia China de Ciencias en Beijing, en 1997 C. F. Jeff Wu sugirió nuevamente que la estadística debería llamarse ciencia de datos. Razonó que un nuevo nombre ayudaría a las estadísticas a deshacerse de estereotipos inexactos, como ser sinónimo de contabilidad o limitarse a describir datos. [24] En 1998, Hayashi Chikio defendió la ciencia de datos como un concepto nuevo e interdisciplinario, con tres aspectos: diseño, recopilación y análisis de datos. [23]
Durante la década de 1990, los términos populares para el proceso de encontrar patrones en conjuntos de datos (que eran cada vez más grandes) incluían "descubrimiento de conocimiento" y " minería de datos ". [6] [25]
En 2012, los tecnólogos Thomas H. Davenport y DJ Patil declararon "Científico de datos: el trabajo más sexy del siglo XXI", [26] un eslogan que fue retomado incluso por periódicos de las grandes ciudades como el New York Times [27] y el Globo de Boston . [28] Una década más tarde, lo reafirmaron, afirmando que "el trabajo tiene más demanda que nunca entre los empleadores". [29]
La concepción moderna de la ciencia de datos como una disciplina independiente se atribuye en ocasiones a William S. Cleveland . [30] En un artículo de 2001, abogó por una expansión de la estadística más allá de la teoría hacia áreas técnicas; Debido a que esto cambiaría significativamente el campo, justificaba un nuevo nombre. [25] La "ciencia de datos" se volvió más utilizada en los años siguientes: en 2002, el Comité de Datos para la Ciencia y la Tecnología lanzó el Data Science Journal . En 2003, la Universidad de Columbia lanzó The Journal of Data Science . [25] En 2014, la Sección de Aprendizaje Estadístico y Minería de Datos de la Asociación Estadounidense de Estadística cambió su nombre por el de Sección de Aprendizaje Estadístico y Ciencia de Datos, lo que refleja la creciente popularidad de la ciencia de datos. [31]
El título profesional de "científico de datos" se atribuyó a DJ Patil y Jeff Hammerbacher en 2008. [32] Aunque fue utilizado por la Junta Nacional de Ciencias en su informe de 2005 "Colecciones de datos digitales de larga duración: habilitando la investigación y la educación en el Siglo XXI", se refería en términos generales a cualquier papel clave en la gestión de una recopilación de datos digitales . [33]
Todavía no hay consenso sobre la definición de ciencia de datos y algunos la consideran una palabra de moda . [34] Big data es un término de marketing relacionado. [35] Los científicos de datos son responsables de descomponer los grandes datos en información utilizable y crear software y algoritmos que ayuden a las empresas y organizaciones a determinar las operaciones óptimas. [36]
La ciencia de datos y el análisis de datos son disciplinas importantes en el campo de la gestión y el análisis de datos , pero difieren en varios aspectos clave. Si bien ambos campos implican trabajar con datos, la ciencia de datos es más un campo interdisciplinario que implica la aplicación de métodos estadísticos, computacionales y de aprendizaje automático para extraer información de los datos y hacer predicciones, mientras que el análisis de datos se centra más en el examen y la interpretación de datos para identificar patrones y tendencias. [37] [38]
El análisis de datos normalmente implica trabajar con conjuntos de datos estructurados más pequeños para responder preguntas específicas o resolver problemas específicos. Esto puede implicar tareas como limpieza de datos , visualización de datos y análisis exploratorio de datos para obtener información sobre los datos y desarrollar hipótesis sobre las relaciones entre variables . Los analistas de datos suelen utilizar métodos estadísticos para probar estas hipótesis y sacar conclusiones de los datos. Por ejemplo, un analista de datos podría analizar datos de ventas para identificar tendencias en el comportamiento de los clientes y hacer recomendaciones para estrategias de marketing. [37]
La ciencia de datos, por otro lado, es un proceso más complejo e iterativo que implica trabajar con conjuntos de datos más grandes y complejos que a menudo requieren métodos computacionales y estadísticos avanzados para su análisis. Los científicos de datos suelen trabajar con datos no estructurados, como texto o imágenes, y utilizan algoritmos de aprendizaje automático para crear modelos predictivos y tomar decisiones basadas en datos. Además del análisis estadístico , la ciencia de datos a menudo implica tareas como el preprocesamiento de datos , la ingeniería de características y la selección de modelos. Por ejemplo, un científico de datos podría desarrollar un sistema de recomendación para una plataforma de comercio electrónico analizando los patrones de comportamiento del usuario y utilizando algoritmos de aprendizaje automático para predecir las preferencias del usuario. [38] [39]
Si bien el análisis de datos se centra en extraer conocimientos de los datos existentes, la ciencia de datos va más allá al incorporar el desarrollo y la implementación de modelos predictivos para tomar decisiones informadas. Los científicos de datos suelen ser responsables de recopilar y limpiar datos, seleccionar técnicas analíticas adecuadas e implementar modelos en escenarios del mundo real. Trabajan en la intersección de matemáticas, informática y experiencia en el campo para resolver problemas complejos y descubrir patrones ocultos en grandes conjuntos de datos. [38]
A pesar de estas diferencias, la ciencia de datos y el análisis de datos son campos estrechamente relacionados y, a menudo, requieren conjuntos de habilidades similares. Ambos campos requieren una base sólida en estadística, programación y visualización de datos , así como la capacidad de comunicar los hallazgos de manera efectiva a audiencias tanto técnicas como no técnicas. Ambos campos se benefician del pensamiento crítico y el conocimiento del dominio , ya que comprender el contexto y los matices de los datos es esencial para un análisis y modelado precisos. [37] [38]
En resumen, el análisis de datos y la ciencia de datos son disciplinas distintas pero interconectadas dentro del campo más amplio de la gestión y el análisis de datos . El análisis de datos se centra en extraer conocimientos y sacar conclusiones a partir de datos estructurados , mientras que la ciencia de datos implica un enfoque más integral que combina análisis estadístico , métodos computacionales y aprendizaje automático para extraer conocimientos, construir modelos predictivos e impulsar la toma de decisiones basada en datos . Ambos campos utilizan datos para comprender patrones, tomar decisiones informadas y resolver problemas complejos en varios dominios.