Ciencia de datos

La existencia del cometa NEOWISE (aquí representado como una serie de puntos rojos) fue descubierta mediante el análisis de datos de estudio astronómico adquiridos por un telescopio espacial , el Wide-field Infrared Survey Explorer .

La ciencia de datos es un campo académico interdisciplinario ^[1] que utiliza estadísticas , computación científica , métodos científicos , procesamiento, visualización científica , algoritmos y sistemas para extraer o extrapolar conocimientos y perspectivas de datos potencialmente ruidosos, estructurados o no estructurados . ^[2]

La ciencia de datos también integra el conocimiento del dominio de la aplicación subyacente (por ejemplo, ciencias naturales, tecnología de la información y medicina). ^[3] La ciencia de datos es multifacética y puede describirse como una ciencia, un paradigma de investigación, un método de investigación, una disciplina, un flujo de trabajo y una profesión. ^[4]

La ciencia de datos es "un concepto para unificar las estadísticas , el análisis de datos , la informática y sus métodos relacionados " para "comprender y analizar fenómenos reales " con datos . ^[5] Utiliza técnicas y teorías extraídas de muchos campos dentro del contexto de las matemáticas , la estadística, la informática , la ciencia de la información y el conocimiento del dominio . ^[6] Sin embargo, la ciencia de datos es diferente de la informática y la ciencia de la información. El ganador del premio Turing Jim Gray imaginó la ciencia de datos como un "cuarto paradigma" de la ciencia ( empírica , teórica , computacional y ahora basada en datos) y afirmó que "todo sobre la ciencia está cambiando debido al impacto de la tecnología de la información " y el diluvio de datos . ^[7]^[8]

Un científico de datos es un profesional que crea código de programación y lo combina con conocimientos estadísticos para crear información a partir de los datos. ^[9]

Cimientos

La ciencia de datos es un campo interdisciplinario ^[10] centrado en extraer conocimiento de conjuntos de datos típicamente grandes y aplicar el conocimiento y las perspectivas de esos datos para resolver problemas en una amplia gama de dominios de aplicación. El campo abarca la preparación de datos para el análisis, la formulación de problemas de ciencia de datos, el análisis de datos, el desarrollo de soluciones basadas en datos y la presentación de hallazgos para informar decisiones de alto nivel en una amplia gama de dominios de aplicación. Como tal, incorpora habilidades de la informática, la estadística, la ciencia de la información, las matemáticas, la visualización de datos , la visualización de información , la sonificación de datos , la integración de datos , el diseño gráfico , los sistemas complejos , la comunicación y los negocios . ^[11]^[12] El estadístico Nathan Yau , basándose en Ben Fry , también vincula la ciencia de datos con la interacción hombre-computadora : los usuarios deben poder controlar y explorar los datos de forma intuitiva. ^[13]^[14] En 2015, la Asociación Estadounidense de Estadística identificó la gestión de bases de datos , la estadística y el aprendizaje automático , y los sistemas distribuidos y paralelos como las tres comunidades profesionales fundacionales emergentes. ^[15]

Relación con las estadísticas

Muchos estadísticos, incluido Nate Silver , han argumentado que la ciencia de datos no es un campo nuevo, sino más bien otro nombre para las estadísticas. ^[16] Otros argumentan que la ciencia de datos se distingue de las estadísticas porque se centra en problemas y técnicas exclusivos de los datos digitales. ^[17] Vasant Dhar escribe que las estadísticas enfatizan los datos cuantitativos y la descripción. Por el contrario, la ciencia de datos se ocupa de datos cuantitativos y cualitativos (por ejemplo, de imágenes, texto, sensores, transacciones, información de clientes, etc.) y enfatiza la predicción y la acción. ^[18] Andrew Gelman de la Universidad de Columbia ha descrito las estadísticas como una parte no esencial de la ciencia de datos. ^[19]

David Donoho, profesor de Stanford, escribe que la ciencia de datos no se distingue de la estadística por el tamaño de los conjuntos de datos o el uso de la informática y que muchos programas de posgrado publicitan engañosamente su formación en analítica y estadística como la esencia de un programa de ciencia de datos. Describe la ciencia de datos como un campo aplicado que surge de la estadística tradicional. ^[20]

Etimología

Uso temprano

En 1962, John Tukey describió un campo que llamó " análisis de datos ", que se asemeja a la ciencia de datos moderna. ^[20] En 1985, en una conferencia dada en la Academia China de Ciencias en Beijing, C. F. Jeff Wu utilizó el término "ciencia de datos" por primera vez como un nombre alternativo para las estadísticas. ^[21] Más tarde, los asistentes a un simposio de estadística de 1992 en la Universidad de Montpellier II reconocieron el surgimiento de una nueva disciplina centrada en datos de diversos orígenes y formas, que combina conceptos y principios establecidos de estadística y análisis de datos con computación. ^[22]^[23]

El término "ciencia de datos" se remonta a 1974, cuando Peter Naur lo propuso como un nombre alternativo a la ciencia informática. ^[6] En 1996, la Federación Internacional de Sociedades de Clasificación se convirtió en la primera conferencia en presentar específicamente la ciencia de datos como tema. ^[6] Sin embargo, la definición aún estaba en proceso de cambio. Después de la conferencia de 1985 en la Academia China de Ciencias en Beijing, en 1997 C. F. Jeff Wu volvió a sugerir que las estadísticas deberían cambiar su nombre a ciencia de datos. Razonó que un nuevo nombre ayudaría a las estadísticas a deshacerse de estereotipos inexactos, como ser sinónimo de contabilidad o limitarse a describir datos. ^[24] En 1998, Hayashi Chikio defendió la ciencia de datos como un concepto nuevo e interdisciplinario, con tres aspectos: diseño, recopilación y análisis de datos. ^[23]

Durante la década de 1990, los términos populares para el proceso de encontrar patrones en conjuntos de datos (que eran cada vez más grandes) incluían "descubrimiento de conocimiento" y " minería de datos ". ^[6]^[25]

Uso moderno

En 2012, los tecnólogos Thomas H. Davenport y DJ Patil declararon que "el científico de datos es el trabajo más atractivo del siglo XXI", ^[26] una frase que fue retomada incluso por periódicos de las grandes ciudades como el New York Times ^[27] y el Boston Globe . ^[28] Una década después, lo reafirmaron, afirmando que "el trabajo tiene más demanda que nunca entre los empleadores". ^[29]

La concepción moderna de la ciencia de datos como una disciplina independiente se atribuye a veces a William S. Cleveland . ^[30] En un artículo de 2001, abogó por una expansión de las estadísticas más allá de la teoría hacia áreas técnicas; debido a que esto cambiaría significativamente el campo, justificaba un nuevo nombre. ^[25] "Ciencia de datos" se usó más ampliamente en los siguientes años: en 2002, el Comité de Datos para Ciencia y Tecnología lanzó el Data Science Journal . En 2003, la Universidad de Columbia lanzó The Journal of Data Science . ^[25] En 2014, la Sección de Aprendizaje Estadístico y Minería de Datos de la Asociación Estadounidense de Estadística cambió su nombre a Sección de Aprendizaje Estadístico y Ciencia de Datos, lo que refleja la creciente popularidad de la ciencia de datos. ^[31]

El título profesional de "científico de datos" se le atribuyó a DJ Patil y Jeff Hammerbacher en 2008. ^[32] Aunque fue utilizado por la Junta Nacional de Ciencias en su informe de 2005 "Colecciones de datos digitales de larga duración: posibilitando la investigación y la educación en el siglo XXI", se refería ampliamente a cualquier rol clave en la gestión de una colección de datos digitales . ^[33]

Todavía no hay consenso sobre la definición de ciencia de datos, y algunos la consideran una palabra de moda . ^[34] Big data es un término de marketing relacionado. ^[35] Los científicos de datos son responsables de descomponer los grandes datos en información utilizable y crear software y algoritmos que ayuden a las empresas y organizaciones a determinar operaciones óptimas. ^[36]

Ciencia de datos y análisis de datos

Tanto la ciencia de datos como el análisis de datos son disciplinas importantes en el campo de la gestión y el análisis de datos, pero difieren en varios aspectos clave. Si bien ambos campos implican trabajar con datos, la ciencia de datos es más un campo interdisciplinario que implica la aplicación de métodos estadísticos, computacionales y de aprendizaje automático para extraer información de los datos y hacer predicciones, mientras que el análisis de datos se centra más en el examen e interpretación de los datos para identificar patrones y tendencias. ^[37]^[38]

El análisis de datos generalmente implica trabajar con conjuntos de datos más pequeños y estructurados para responder preguntas específicas o resolver problemas específicos. Esto puede implicar tareas como limpieza de datos , visualización de datos y análisis exploratorio de datos para obtener información sobre los datos y desarrollar hipótesis sobre las relaciones entre las variables . Los analistas de datos suelen utilizar métodos estadísticos para probar estas hipótesis y extraer conclusiones de los datos. Por ejemplo, un analista de datos podría analizar datos de ventas para identificar tendencias en el comportamiento del cliente y hacer recomendaciones para estrategias de marketing. ^[37]

La ciencia de datos, por otro lado, es un proceso más complejo e iterativo que implica trabajar con conjuntos de datos más grandes y complejos que a menudo requieren métodos computacionales y estadísticos avanzados para analizarlos. Los científicos de datos a menudo trabajan con datos no estructurados, como texto o imágenes, y utilizan algoritmos de aprendizaje automático para construir modelos predictivos y tomar decisiones basadas en datos. Además del análisis estadístico , la ciencia de datos a menudo implica tareas como el preprocesamiento de datos , la ingeniería de características y la selección de modelos. Por ejemplo, un científico de datos podría desarrollar un sistema de recomendación para una plataforma de comercio electrónico analizando los patrones de comportamiento de los usuarios y utilizando algoritmos de aprendizaje automático para predecir las preferencias de los usuarios. ^[38]^[39]

Mientras que el análisis de datos se centra en extraer información de los datos existentes, la ciencia de datos va más allá de eso al incorporar el desarrollo y la implementación de modelos predictivos para tomar decisiones informadas. Los científicos de datos suelen ser responsables de recopilar y limpiar datos, seleccionar técnicas analíticas apropiadas e implementar modelos en escenarios del mundo real. Trabajan en la intersección de las matemáticas, la informática y la experiencia en el dominio para resolver problemas complejos y descubrir patrones ocultos en grandes conjuntos de datos. ^[38]

A pesar de estas diferencias, la ciencia de datos y el análisis de datos son campos estrechamente relacionados y a menudo requieren conjuntos de habilidades similares. Ambos campos requieren una base sólida en estadística, programación y visualización de datos , así como la capacidad de comunicar los hallazgos de manera efectiva tanto a audiencias técnicas como no técnicas. Ambos campos se benefician del pensamiento crítico y el conocimiento del dominio , ya que comprender el contexto y los matices de los datos es esencial para un análisis y modelado precisos. ^[37]^[38]

En resumen, el análisis de datos y la ciencia de datos son disciplinas distintas pero interconectadas dentro del campo más amplio de la gestión y el análisis de datos. El análisis de datos se centra en extraer información y sacar conclusiones de datos estructurados , mientras que la ciencia de datos implica un enfoque más integral que combina el análisis estadístico , los métodos computacionales y el aprendizaje automático para extraer información, crear modelos predictivos e impulsar la toma de decisiones basada en datos . Ambos campos utilizan datos para comprender patrones, tomar decisiones informadas y resolver problemas complejos en varios dominios.

Computación en la nube para la ciencia de datos

La computación en la nube puede ofrecer acceso a grandes cantidades de potencia computacional y almacenamiento . ^[40] En el ámbito del big data , donde se generan y procesan continuamente volúmenes de información, estas plataformas se pueden utilizar para gestionar tareas analíticas complejas y que requieren muchos recursos. ^[41]

Algunos marcos de computación distribuida están diseñados para manejar grandes cargas de trabajo de datos. Estos marcos pueden permitir a los científicos de datos procesar y analizar grandes conjuntos de datos en paralelo, lo que puede reducir los tiempos de procesamiento. ^[42]

Consideraciones éticas en la ciencia de datos

La ciencia de datos implica la recopilación, el procesamiento y el análisis de datos que, a menudo, incluyen información personal y confidencial. Las preocupaciones éticas incluyen posibles violaciones de la privacidad, perpetuación de sesgos e impactos sociales negativos ^[43]^[44]

Los modelos de aprendizaje automático pueden amplificar los sesgos existentes en los datos de entrenamiento, lo que conduce a resultados discriminatorios o injustos. ^[45]^[46]

Véase también

Referencias

^ Donoho, David (2017). "50 años de ciencia de datos". Revista de estadística computacional y gráfica . 26 (4): 745–766. doi : 10.1080/10618600.2017.1384734 . S2CID 114558008.
^ Dhar, V. (2013). «Ciencia de datos y predicción». Communications of the ACM . 56 (12): 64–73. doi :10.1145/2500499. S2CID 6107147. Archivado desde el original el 9 de noviembre de 2014 . Consultado el 2 de septiembre de 2015 .
^ Danyluk, A.; Leidig, P. (2021). Competencias informáticas para los planes de estudio de ciencias de datos de pregrado (PDF) . Informe final del grupo de trabajo sobre ciencia de datos de la ACM (informe).
^ Mike, Koby; Hazzan, Orit (20 de enero de 2023). "¿Qué es la ciencia de datos?". Comunicaciones de la ACM . 66 (2): 12-13. doi : 10.1145/3575663 . ISSN 0001-0782.
^ Hayashi, Chikio (1 de enero de 1998). "¿Qué es la ciencia de datos? Conceptos fundamentales y un ejemplo heurístico". En Hayashi, Chikio; Yajima, Keiji; Bock, Hans-Hermann; Ohsumi, Noboru; Tanaka, Yutaka; Baba, Yasumasa (eds.). Ciencia de datos, clasificación y métodos relacionados . Estudios en clasificación, análisis de datos y organización del conocimiento. Springer Japón. págs. 40–51. doi :10.1007/978-4-431-65950-1_3. ISBN . 9784431702085.
^ abcd Cao, Longbing (29 de junio de 2017). "Ciencia de datos: una descripción general completa". Encuestas de computación de ACM . 50 (3): 43:1–43:42. arXiv : 2007.03606 . doi : 10.1145/3076253 . ISSN 0360-0300. S2CID 207595944.
^ Tony Hey; Stewart Tansley; Kristin Michele Tolle (2009). El cuarto paradigma: descubrimiento científico basado en datos. Microsoft Research. ISBN 978-0-9825442-0-4. Archivado desde el original el 20 de marzo de 2017.
^ Bell, G.; Hey, T.; Szalay, A. (2009). "Ciencia informática: más allá del diluvio de datos". Science . 323 (5919): 1297–1298. doi :10.1126/science.1170411. ISSN 0036-8075. PMID 19265007. S2CID 9743327.
^ Davenport, Thomas H.; Patil, DJ (octubre de 2012). «Data Scientist: The Sexiest Job of the 21st Century». Harvard Business Review . 90 (10): 70–76, 128. PMID 23074866 . Consultado el 18 de enero de 2016 .
^ Emmert-Streib, Frank; Dehmer, Matthias (2018). "Definición de la ciencia de datos mediante una cuantificación de la comunidad basada en datos". Aprendizaje automático y extracción de conocimiento . 1 : 235–251. doi : 10.3390/make1010015 .
^ "1. Introducción: ¿Qué es la ciencia de datos?". Doing Data Science [Libro] . O'Reilly . Consultado el 3 de abril de 2020 .
^ "Las tres habilidades sexys de los expertos en datos". medriscoll: data utopian . 27 de mayo de 2009 . Consultado el 3 de abril de 2020 .
^ Yau, Nathan (4 de junio de 2009). "Rise of the Data Scientist". FlowingData . Consultado el 3 de abril de 2020 .
^ "Ejemplo básico". benfry.com . Consultado el 3 de abril de 2020 .
^ "Declaración de la ASA sobre el papel de la estadística en la ciencia de datos". AmStatNews . Asociación Estadounidense de Estadística . 1 de octubre de 2015. Archivado desde el original el 20 de junio de 2019 . Consultado el 29 de mayo de 2019 .
^ "Nate Silver: Lo que necesito de los estadísticos". Estadísticas Vistas . 23 de agosto de 2013 . Consultado el 3 de abril de 2020 .
^ "¿Cuál es la diferencia entre la ciencia de datos y la estadística?". Priceonomics . 13 de octubre de 2015 . Consultado el 3 de abril de 2020 .
^ Vasant Dhar (1 de diciembre de 2013). "Ciencia de datos y predicción". Comunicaciones de la ACM . 56 (12): 64–73. doi :10.1145/2500499. S2CID 6107147.
^ "Las estadísticas son la parte menos importante de la ciencia de datos « Modelado estadístico, inferencia causal y ciencias sociales ". statmodeling.stat.columbia.edu . Consultado el 3 de abril de 2020 .
^ ab Donoho, David (18 de septiembre de 2015). "50 años de ciencia de datos" (PDF) . Consultado el 2 de abril de 2020 .
^ Wu, CF Jeff (1986). "Direcciones futuras de la investigación estadística en China: una perspectiva histórica" (PDF) . Aplicación de la estadística y la gestión . 1 : 1–7 . Consultado el 29 de noviembre de 2020 .
^ Escoufier, Yves; Hayashi, Chikio; Fichet, Bernard, eds. (1995). Ciencia de datos y sus aplicaciones . Tokio: Academic Press/Harcourt Brace. ISBN 0-12-241770-4.OCLC 489990740 .
^ ab Murtagh, Fionn; Devlin, Keith (2018). "El desarrollo de la ciencia de datos: implicaciones para la educación, el empleo, la investigación y la revolución de los datos para el desarrollo sostenible". Big Data y computación cognitiva . 2 (2): 14. doi : 10.3390/bdcc2020014 .
^ Wu, C. F. Jeff. "¿Estadísticas = ciencia de datos?" (PDF) . Consultado el 2 de abril de 2020 .
^ abc Press, Gil. "Una historia muy breve de la ciencia de datos". Forbes . Consultado el 3 de abril de 2020 .
^ Davenport, Thomas (1 de octubre de 2012). «Data Scientist: The Sexyest Job of the 21st Century» (Científico de datos: el trabajo más atractivo del siglo XXI). Harvard Business Review . Consultado el 10 de octubre de 2022 .
^ Miller, Claire (4 de abril de 2013). «Data Science: The Numbers of Our Lives». New York Times . Ciudad de Nueva York . Consultado el 10 de octubre de 2022 .
^ Borchers, Callum (11 de noviembre de 2015). «Detrás de escena del «trabajo más sexy del siglo XXI»». Boston Globe . Boston . Consultado el 10 de octubre de 2022 .
^ Davenport, Thomas (15 de julio de 2022). "¿Sigue siendo el científico de datos el trabajo más atractivo del siglo XXI?". Harvard Business Review . Consultado el 10 de octubre de 2022 .
^ Gupta, Shanti (11 de diciembre de 2015). «William S. Cleveland» . Consultado el 2 de abril de 2020 .
^ Talley, Jill (1 de junio de 2016). "ASA amplía su alcance y su alcance para fomentar el crecimiento y la colaboración en la ciencia de datos". Amstat News . Asociación Estadounidense de Estadística .En 2013 se celebró en Luxemburgo la primera Conferencia Europea sobre Análisis de Datos (ECDA2013), que dio inicio al proceso que dio origen a la Asociación Europea de Ciencias de Datos (EuADS) www.euads.org en Luxemburgo en 2015.
^ Davenport, Thomas H.; Patil, DJ (1 de octubre de 2012). «Data Scientist: The Sexiest Job of the 21st Century». Harvard Business Review . N.º de octubre de 2012. ISSN 0017-8012 . Consultado el 3 de abril de 2020 .
^ "US NSF – NSB-05-40, Colecciones de datos digitales de larga duración que permiten la investigación y la educación en el siglo XXI". www.nsf.gov . Consultado el 3 de abril de 2020 .
^ Press, Gil. "Data Science: What's The Half-Life of a Buzzword?" (Ciencia de datos: ¿cuál es la vida media de una palabra de moda?). Forbes . Consultado el 3 de abril de 2020 .
^ Pham, Peter. "Los impactos del Big Data de los que quizás no hayas oído hablar". Forbes . Consultado el 3 de abril de 2020 .
^ Martin, Sophia (20 de septiembre de 2019). "¿Cómo afectará la ciencia de datos al futuro de las empresas?" (PDF) . Medium . Consultado el 3 de abril de 2020 .
^ abc James, Gareth ; Witten, Daniela ; Hastie, Trevor ; Tibshirani, Robert (29 de septiembre de 2017). Introducción al aprendizaje estadístico: con aplicaciones en R . Springer.
^ abcd Provost, Foster; Tom Fawcett (1 de agosto de 2013). "Ciencia de datos para empresas: lo que necesita saber sobre minería de datos y pensamiento analítico de datos". O'Reilly Media, Inc.
^ Han, Kamber; Pei (2011). Minería de datos: conceptos y técnicas. ISBN 9780123814791.
^ Hashem, Ibrahim Abaker Targio; Yaqoob, Ibrar; Anuar, Nor Badrul; Mokhtar, Salimah; Gani, Abdullah; Ullah Khan, Samee (2015). "El auge del" big data "en la computación en la nube: revisión y temas abiertos de investigación". Sistemas de Información . 47 : 98-115. doi :10.1016/j.is.2014.07.006.
^ Qiu, Junfei; Wu, Qihui; Ding, Guoru; Xu, Yuhua; Feng, Shuo (2016). "Un estudio sobre el aprendizaje automático para el procesamiento de big data". Revista EURASIP sobre avances en el procesamiento de señales . 2016 (1). doi : 10.1186/s13634-016-0355-x . ISSN 1687-6180.
^ Armbrust, Michael; Xin, Reynold S.; Lian, Cheng; Huai, Yin; Liu, Davies; Bradley, Joseph K.; Meng, Xiangrui; Kaftan, Tomer; Franklin, Michael J.; Ghodsi, Ali; Zaharia, Matei (27 de mayo de 2015). "Spark SQL: procesamiento de datos relacionales en Spark". Actas de la Conferencia internacional ACM SIGMOD de 2015 sobre gestión de datos . ACM. págs. 1383–1394. doi :10.1145/2723372.2742797. ISBN . 978-1-4503-2758-9.
^ Floridi, Luciano ; Taddeo, Mariarosaria (28 de diciembre de 2016). "¿Qué es la ética de los datos?". Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences . 374 (2083): 20160360. Bibcode :2016RSPTA.37460360F. doi :10.1098/rsta.2016.0360. ISSN 1364-503X. PMC 5124072 . PMID 28336805.
^ Mittelstadt, Brent Daniel; Floridi, Luciano (2016). "La ética del Big Data: cuestiones actuales y previsibles en contextos biomédicos". Ética de la ciencia y la ingeniería . 22 (2): 303–341. doi :10.1007/s11948-015-9652-2. ISSN 1353-3452. PMID 26002496.
^ Barocas, Solon; Selbst, Andrew D (2016). "El impacto desigual del Big Data". California Law Review . doi :10.15779/Z38BG31 – vía Berkeley Law Library Catalog.
^ Caliskan, Aylin; Bryson, Joanna J .; Narayanan, Arvind (14 de abril de 2017). "La semántica derivada automáticamente de los corpus lingüísticos contiene sesgos similares a los humanos". Science . 356 (6334): 183–186. arXiv : 1608.07187 . Bibcode :2017Sci...356..183C. doi :10.1126/science.aal4230. ISSN 0036-8075.