La ciencia de datos es un campo académico interdisciplinario [1] que utiliza estadísticas , computación científica , métodos científicos , procesamiento, visualización científica , algoritmos y sistemas para extraer o extrapolar conocimientos y perspectivas de datos potencialmente ruidosos, estructurados o no estructurados . [2]
La ciencia de datos también integra el conocimiento del dominio de la aplicación subyacente (por ejemplo, ciencias naturales, tecnología de la información y medicina). [3] La ciencia de datos es multifacética y puede describirse como una ciencia, un paradigma de investigación, un método de investigación, una disciplina, un flujo de trabajo y una profesión. [4]
La ciencia de datos es "un concepto para unificar las estadísticas , el análisis de datos , la informática y sus métodos relacionados " para "comprender y analizar fenómenos reales " con datos . [5] Utiliza técnicas y teorías extraídas de muchos campos dentro del contexto de las matemáticas , la estadística, la informática , la ciencia de la información y el conocimiento del dominio . [6] Sin embargo, la ciencia de datos es diferente de la informática y la ciencia de la información. El ganador del premio Turing Jim Gray imaginó la ciencia de datos como un "cuarto paradigma" de la ciencia ( empírica , teórica , computacional y ahora basada en datos) y afirmó que "todo sobre la ciencia está cambiando debido al impacto de la tecnología de la información " y el diluvio de datos . [7] [8]
Un científico de datos es un profesional que crea código de programación y lo combina con conocimientos estadísticos para crear información a partir de los datos. [9]
La ciencia de datos es un campo interdisciplinario [10] centrado en extraer conocimiento de conjuntos de datos típicamente grandes y aplicar el conocimiento y las perspectivas de esos datos para resolver problemas en una amplia gama de dominios de aplicación. El campo abarca la preparación de datos para el análisis, la formulación de problemas de ciencia de datos, el análisis de datos, el desarrollo de soluciones basadas en datos y la presentación de hallazgos para informar decisiones de alto nivel en una amplia gama de dominios de aplicación. Como tal, incorpora habilidades de la informática, la estadística, la ciencia de la información, las matemáticas, la visualización de datos , la visualización de información , la sonificación de datos , la integración de datos , el diseño gráfico , los sistemas complejos , la comunicación y los negocios . [11] [12] El estadístico Nathan Yau , basándose en Ben Fry , también vincula la ciencia de datos con la interacción hombre-computadora : los usuarios deben poder controlar y explorar los datos de forma intuitiva. [13] [14] En 2015, la Asociación Estadounidense de Estadística identificó la gestión de bases de datos , la estadística y el aprendizaje automático , y los sistemas distribuidos y paralelos como las tres comunidades profesionales fundacionales emergentes. [15]
Muchos estadísticos, incluido Nate Silver , han argumentado que la ciencia de datos no es un campo nuevo, sino más bien otro nombre para las estadísticas. [16] Otros argumentan que la ciencia de datos se distingue de las estadísticas porque se centra en problemas y técnicas exclusivos de los datos digitales. [17] Vasant Dhar escribe que las estadísticas enfatizan los datos cuantitativos y la descripción. Por el contrario, la ciencia de datos se ocupa de datos cuantitativos y cualitativos (por ejemplo, de imágenes, texto, sensores, transacciones, información de clientes, etc.) y enfatiza la predicción y la acción. [18] Andrew Gelman de la Universidad de Columbia ha descrito las estadísticas como una parte no esencial de la ciencia de datos. [19]
David Donoho, profesor de Stanford, escribe que la ciencia de datos no se distingue de la estadística por el tamaño de los conjuntos de datos o el uso de la informática y que muchos programas de posgrado publicitan engañosamente su formación en analítica y estadística como la esencia de un programa de ciencia de datos. Describe la ciencia de datos como un campo aplicado que surge de la estadística tradicional. [20]
En 1962, John Tukey describió un campo que llamó " análisis de datos ", que se asemeja a la ciencia de datos moderna. [20] En 1985, en una conferencia dada en la Academia China de Ciencias en Beijing, C. F. Jeff Wu utilizó el término "ciencia de datos" por primera vez como un nombre alternativo para las estadísticas. [21] Más tarde, los asistentes a un simposio de estadística de 1992 en la Universidad de Montpellier II reconocieron el surgimiento de una nueva disciplina centrada en datos de diversos orígenes y formas, que combina conceptos y principios establecidos de estadística y análisis de datos con computación. [22] [23]
El término "ciencia de datos" se remonta a 1974, cuando Peter Naur lo propuso como un nombre alternativo a la ciencia informática. [6] En 1996, la Federación Internacional de Sociedades de Clasificación se convirtió en la primera conferencia en presentar específicamente la ciencia de datos como tema. [6] Sin embargo, la definición aún estaba en proceso de cambio. Después de la conferencia de 1985 en la Academia China de Ciencias en Beijing, en 1997 C. F. Jeff Wu volvió a sugerir que las estadísticas deberían cambiar su nombre a ciencia de datos. Razonó que un nuevo nombre ayudaría a las estadísticas a deshacerse de estereotipos inexactos, como ser sinónimo de contabilidad o limitarse a describir datos. [24] En 1998, Hayashi Chikio defendió la ciencia de datos como un concepto nuevo e interdisciplinario, con tres aspectos: diseño, recopilación y análisis de datos. [23]
Durante la década de 1990, los términos populares para el proceso de encontrar patrones en conjuntos de datos (que eran cada vez más grandes) incluían "descubrimiento de conocimiento" y " minería de datos ". [6] [25]
En 2012, los tecnólogos Thomas H. Davenport y DJ Patil declararon que "el científico de datos es el trabajo más atractivo del siglo XXI", [26] una frase que fue retomada incluso por periódicos de las grandes ciudades como el New York Times [27] y el Boston Globe . [28] Una década después, lo reafirmaron, afirmando que "el trabajo tiene más demanda que nunca entre los empleadores". [29]
La concepción moderna de la ciencia de datos como una disciplina independiente se atribuye a veces a William S. Cleveland . [30] En un artículo de 2001, abogó por una expansión de las estadísticas más allá de la teoría hacia áreas técnicas; debido a que esto cambiaría significativamente el campo, justificaba un nuevo nombre. [25] "Ciencia de datos" se usó más ampliamente en los siguientes años: en 2002, el Comité de Datos para Ciencia y Tecnología lanzó el Data Science Journal . En 2003, la Universidad de Columbia lanzó The Journal of Data Science . [25] En 2014, la Sección de Aprendizaje Estadístico y Minería de Datos de la Asociación Estadounidense de Estadística cambió su nombre a Sección de Aprendizaje Estadístico y Ciencia de Datos, lo que refleja la creciente popularidad de la ciencia de datos. [31]
El título profesional de "científico de datos" se le atribuyó a DJ Patil y Jeff Hammerbacher en 2008. [32] Aunque fue utilizado por la Junta Nacional de Ciencias en su informe de 2005 "Colecciones de datos digitales de larga duración: posibilitando la investigación y la educación en el siglo XXI", se refería ampliamente a cualquier rol clave en la gestión de una colección de datos digitales . [33]
Todavía no hay consenso sobre la definición de ciencia de datos, y algunos la consideran una palabra de moda . [34] Big data es un término de marketing relacionado. [35] Los científicos de datos son responsables de descomponer los grandes datos en información utilizable y crear software y algoritmos que ayuden a las empresas y organizaciones a determinar operaciones óptimas. [36]
Tanto la ciencia de datos como el análisis de datos son disciplinas importantes en el campo de la gestión y el análisis de datos, pero difieren en varios aspectos clave. Si bien ambos campos implican trabajar con datos, la ciencia de datos es más un campo interdisciplinario que implica la aplicación de métodos estadísticos, computacionales y de aprendizaje automático para extraer información de los datos y hacer predicciones, mientras que el análisis de datos se centra más en el examen e interpretación de los datos para identificar patrones y tendencias. [37] [38]
El análisis de datos generalmente implica trabajar con conjuntos de datos más pequeños y estructurados para responder preguntas específicas o resolver problemas específicos. Esto puede implicar tareas como limpieza de datos , visualización de datos y análisis exploratorio de datos para obtener información sobre los datos y desarrollar hipótesis sobre las relaciones entre las variables . Los analistas de datos suelen utilizar métodos estadísticos para probar estas hipótesis y extraer conclusiones de los datos. Por ejemplo, un analista de datos podría analizar datos de ventas para identificar tendencias en el comportamiento del cliente y hacer recomendaciones para estrategias de marketing. [37]
La ciencia de datos, por otro lado, es un proceso más complejo e iterativo que implica trabajar con conjuntos de datos más grandes y complejos que a menudo requieren métodos computacionales y estadísticos avanzados para analizarlos. Los científicos de datos a menudo trabajan con datos no estructurados, como texto o imágenes, y utilizan algoritmos de aprendizaje automático para construir modelos predictivos y tomar decisiones basadas en datos. Además del análisis estadístico , la ciencia de datos a menudo implica tareas como el preprocesamiento de datos , la ingeniería de características y la selección de modelos. Por ejemplo, un científico de datos podría desarrollar un sistema de recomendación para una plataforma de comercio electrónico analizando los patrones de comportamiento de los usuarios y utilizando algoritmos de aprendizaje automático para predecir las preferencias de los usuarios. [38] [39]
Mientras que el análisis de datos se centra en extraer información de los datos existentes, la ciencia de datos va más allá de eso al incorporar el desarrollo y la implementación de modelos predictivos para tomar decisiones informadas. Los científicos de datos suelen ser responsables de recopilar y limpiar datos, seleccionar técnicas analíticas apropiadas e implementar modelos en escenarios del mundo real. Trabajan en la intersección de las matemáticas, la informática y la experiencia en el dominio para resolver problemas complejos y descubrir patrones ocultos en grandes conjuntos de datos. [38]
A pesar de estas diferencias, la ciencia de datos y el análisis de datos son campos estrechamente relacionados y a menudo requieren conjuntos de habilidades similares. Ambos campos requieren una base sólida en estadística, programación y visualización de datos , así como la capacidad de comunicar los hallazgos de manera efectiva tanto a audiencias técnicas como no técnicas. Ambos campos se benefician del pensamiento crítico y el conocimiento del dominio , ya que comprender el contexto y los matices de los datos es esencial para un análisis y modelado precisos. [37] [38]
En resumen, el análisis de datos y la ciencia de datos son disciplinas distintas pero interconectadas dentro del campo más amplio de la gestión y el análisis de datos. El análisis de datos se centra en extraer información y sacar conclusiones de datos estructurados , mientras que la ciencia de datos implica un enfoque más integral que combina el análisis estadístico , los métodos computacionales y el aprendizaje automático para extraer información, crear modelos predictivos e impulsar la toma de decisiones basada en datos . Ambos campos utilizan datos para comprender patrones, tomar decisiones informadas y resolver problemas complejos en varios dominios.
La computación en la nube puede ofrecer acceso a grandes cantidades de potencia computacional y almacenamiento . [40] En el ámbito del big data , donde se generan y procesan continuamente volúmenes de información, estas plataformas se pueden utilizar para gestionar tareas analíticas complejas y que requieren muchos recursos. [41]
Algunos marcos de computación distribuida están diseñados para manejar grandes cargas de trabajo de datos. Estos marcos pueden permitir a los científicos de datos procesar y analizar grandes conjuntos de datos en paralelo, lo que puede reducir los tiempos de procesamiento. [42]
La ciencia de datos implica la recopilación, el procesamiento y el análisis de datos que, a menudo, incluyen información personal y confidencial. Las preocupaciones éticas incluyen posibles violaciones de la privacidad, perpetuación de sesgos e impactos sociales negativos [43] [44]
Los modelos de aprendizaje automático pueden amplificar los sesgos existentes en los datos de entrenamiento, lo que conduce a resultados discriminatorios o injustos. [45] [46]