stringtranslate.com

Ciencia de los datos

La existencia del cometa NEOWISE (representado aquí como una serie de puntos rojos) se descubrió analizando datos de estudios astronómicos adquiridos por un telescopio espacial , el Wide-field Infrared Survey Explorer .

La ciencia de datos es un campo académico interdisciplinario [1] que utiliza estadísticas , informática científica , métodos , procesos, algoritmos y sistemas científicos para extraer o extrapolar conocimientos e ideas a partir de datos potencialmente ruidosos, estructurados o no estructurados . [2]

La ciencia de datos también integra el conocimiento del dominio del dominio de aplicación subyacente (por ejemplo, ciencias naturales, tecnología de la información y medicina). [3] La ciencia de datos es multifacética y puede describirse como una ciencia, un paradigma de investigación, un método de investigación, una disciplina, un flujo de trabajo y una profesión. [4]

La ciencia de datos es "un concepto para unificar las estadísticas , el análisis de datos , la informática y sus métodos relacionados" para "comprender y analizar fenómenos reales " con datos . [5] Utiliza técnicas y teorías extraídas de muchos campos dentro del contexto de las matemáticas , la estadística, la informática , las ciencias de la información y el conocimiento del dominio . [6] Sin embargo, la ciencia de datos es diferente de la informática y la ciencia de la información. El ganador del Premio Turing, Jim Gray, imaginó la ciencia de datos como un "cuarto paradigma" de la ciencia ( empírico , teórico , computacional y ahora basado en datos) y afirmó que "todo lo relacionado con la ciencia está cambiando debido al impacto de la tecnología de la información " y la avalancha de datos . . [7] [8]

Un científico de datos es un profesional que crea código de programación y lo combina con conocimientos estadísticos para generar conocimientos a partir de los datos. [9]

Cimientos

La ciencia de datos es un campo interdisciplinario [10] centrado en extraer conocimiento de conjuntos de datos típicamente grandes y aplicar el conocimiento y los conocimientos de esos datos para resolver problemas en una amplia gama de dominios de aplicación. El campo abarca la preparación de datos para el análisis, la formulación de problemas de ciencia de datos, el análisis de datos, el desarrollo de soluciones basadas en datos y la presentación de hallazgos para informar decisiones de alto nivel en una amplia gama de dominios de aplicación. Como tal, incorpora habilidades de informática, estadística, ciencias de la información, matemáticas, visualización de datos , visualización de información , sonificación de datos , integración de datos , diseño gráfico , sistemas complejos , comunicación y negocios . [11] [12] El estadístico Nathan Yau , basándose en Ben Fry , también vincula la ciencia de datos con la interacción persona-computadora : los usuarios deberían poder controlar y explorar los datos de manera intuitiva. [13] [14] En 2015, la Asociación Estadounidense de Estadística identificó la gestión de bases de datos , las estadísticas y el aprendizaje automático , y los sistemas distribuidos y paralelos como las tres comunidades profesionales fundamentales emergentes. [15]

Relación con las estadísticas

Muchos estadísticos, incluido Nate Silver , han argumentado que la ciencia de datos no es un campo nuevo, sino más bien otro nombre para la estadística. [16] Otros argumentan que la ciencia de datos es distinta de la estadística porque se centra en problemas y técnicas exclusivos de los datos digitales. [17] Vasant Dhar escribe que la estadística enfatiza los datos cuantitativos y la descripción. Por el contrario, la ciencia de datos se ocupa de datos cuantitativos y cualitativos (por ejemplo, de imágenes, texto, sensores, transacciones, información de clientes, etc.) y enfatiza la predicción y la acción. [18] Andrew Gelman de la Universidad de Columbia ha descrito la estadística como una parte no esencial de la ciencia de datos. [19]

El profesor de Stanford David Donoho escribe que la ciencia de datos no se distingue de la estadística por el tamaño de los conjuntos de datos o el uso de la informática y que muchos programas de posgrado anuncian engañosamente su formación en análisis y estadística como la esencia de un programa de ciencia de datos. Describe la ciencia de datos como un campo aplicado que surge de la estadística tradicional. [20]

Etimología

Uso temprano

En 1962, John Tukey describió un campo que llamó " análisis de datos ", que se asemeja a la ciencia de datos moderna. [20] En 1985, en una conferencia dada en la Academia China de Ciencias en Beijing, C. F. Jeff Wu utilizó el término "ciencia de datos" por primera vez como un nombre alternativo para la estadística. [21] Más tarde, los asistentes a un simposio de estadística celebrado en 1992 en la Universidad de Montpellier II reconocieron el surgimiento de una nueva disciplina centrada en datos de diversos orígenes y formas, que combina conceptos y principios establecidos de estadística y análisis de datos con informática. [22] [23]

El término "ciencia de datos" se remonta a 1974, cuando Peter Naur lo propuso como un nombre alternativo a la informática. [6] En 1996, la Federación Internacional de Sociedades de Clasificación se convirtió en la primera conferencia que presentó específicamente la ciencia de datos como tema. [6] Sin embargo, la definición aún estaba cambiando. Después de la conferencia de 1985 en la Academia China de Ciencias en Beijing, en 1997 C. F. Jeff Wu sugirió nuevamente que la estadística debería llamarse ciencia de datos. Razonó que un nuevo nombre ayudaría a las estadísticas a deshacerse de estereotipos inexactos, como ser sinónimo de contabilidad o limitarse a describir datos. [24] En 1998, Hayashi Chikio defendió la ciencia de datos como un concepto nuevo e interdisciplinario, con tres aspectos: diseño, recopilación y análisis de datos. [23]

Durante la década de 1990, los términos populares para el proceso de encontrar patrones en conjuntos de datos (que eran cada vez más grandes) incluían "descubrimiento de conocimiento" y " minería de datos ". [6] [25]

Uso moderno

En 2012, los tecnólogos Thomas H. Davenport y DJ Patil declararon "Científico de datos: el trabajo más sexy del siglo XXI", [26] un eslogan que fue retomado incluso por periódicos de las grandes ciudades como el New York Times [27] y el Globo de Boston . [28] Una década más tarde, lo reafirmaron, afirmando que "el trabajo tiene más demanda que nunca entre los empleadores". [29]

La concepción moderna de la ciencia de datos como una disciplina independiente se atribuye en ocasiones a William S. Cleveland . [30] En un artículo de 2001, abogó por una expansión de la estadística más allá de la teoría hacia áreas técnicas; Debido a que esto cambiaría significativamente el campo, justificaba un nuevo nombre. [25] La "ciencia de datos" se volvió más utilizada en los años siguientes: en 2002, el Comité de Datos para la Ciencia y la Tecnología lanzó el Data Science Journal . En 2003, la Universidad de Columbia lanzó The Journal of Data Science . [25] En 2014, la Sección de Aprendizaje Estadístico y Minería de Datos de la Asociación Estadounidense de Estadística cambió su nombre por el de Sección de Aprendizaje Estadístico y Ciencia de Datos, lo que refleja la creciente popularidad de la ciencia de datos. [31]

El título profesional de "científico de datos" se atribuyó a DJ Patil y Jeff Hammerbacher en 2008. [32] Aunque fue utilizado por la Junta Nacional de Ciencias en su informe de 2005 "Colecciones de datos digitales de larga duración: habilitando la investigación y la educación en el Siglo XXI", se refería en términos generales a cualquier papel clave en la gestión de una recopilación de datos digitales . [33]

Todavía no hay consenso sobre la definición de ciencia de datos y algunos la consideran una palabra de moda . [34] Big data es un término de marketing relacionado. [35] Los científicos de datos son responsables de descomponer los grandes datos en información utilizable y crear software y algoritmos que ayuden a las empresas y organizaciones a determinar las operaciones óptimas. [36]

Ciencia de datos y análisis de datos.

estadísticas resumidas y diagramas de dispersión que muestran el conjunto de datos de docenas de Datasaurus
Ejemplo de la utilidad del análisis de datos exploratorios como se demuestra utilizando el conjunto de datos de docenas de Datasaurus

La ciencia de datos y el análisis de datos son disciplinas importantes en el campo de la gestión y el análisis de datos , pero difieren en varios aspectos clave. Si bien ambos campos implican trabajar con datos, la ciencia de datos es más un campo interdisciplinario que implica la aplicación de métodos estadísticos, computacionales y de aprendizaje automático para extraer información de los datos y hacer predicciones, mientras que el análisis de datos se centra más en el examen y la interpretación de datos para identificar patrones y tendencias. [37] [38]

El análisis de datos normalmente implica trabajar con conjuntos de datos estructurados más pequeños para responder preguntas específicas o resolver problemas específicos. Esto puede implicar tareas como limpieza de datos , visualización de datos y análisis exploratorio de datos para obtener información sobre los datos y desarrollar hipótesis sobre las relaciones entre variables . Los analistas de datos suelen utilizar métodos estadísticos para probar estas hipótesis y sacar conclusiones de los datos. Por ejemplo, un analista de datos podría analizar datos de ventas para identificar tendencias en el comportamiento de los clientes y hacer recomendaciones para estrategias de marketing. [37]

La ciencia de datos, por otro lado, es un proceso más complejo e iterativo que implica trabajar con conjuntos de datos más grandes y complejos que a menudo requieren métodos computacionales y estadísticos avanzados para su análisis. Los científicos de datos suelen trabajar con datos no estructurados, como texto o imágenes, y utilizan algoritmos de aprendizaje automático para crear modelos predictivos y tomar decisiones basadas en datos. Además del análisis estadístico , la ciencia de datos a menudo implica tareas como el preprocesamiento de datos , la ingeniería de características y la selección de modelos. Por ejemplo, un científico de datos podría desarrollar un sistema de recomendación para una plataforma de comercio electrónico analizando los patrones de comportamiento del usuario y utilizando algoritmos de aprendizaje automático para predecir las preferencias del usuario. [38] [39]

Si bien el análisis de datos se centra en extraer conocimientos de los datos existentes, la ciencia de datos va más allá al incorporar el desarrollo y la implementación de modelos predictivos para tomar decisiones informadas. Los científicos de datos suelen ser responsables de recopilar y limpiar datos, seleccionar técnicas analíticas adecuadas e implementar modelos en escenarios del mundo real. Trabajan en la intersección de matemáticas, informática y experiencia en el campo para resolver problemas complejos y descubrir patrones ocultos en grandes conjuntos de datos. [38]

A pesar de estas diferencias, la ciencia de datos y el análisis de datos son campos estrechamente relacionados y, a menudo, requieren conjuntos de habilidades similares. Ambos campos requieren una base sólida en estadística, programación y visualización de datos , así como la capacidad de comunicar los hallazgos de manera efectiva a audiencias tanto técnicas como no técnicas. Ambos campos se benefician del pensamiento crítico y el conocimiento del dominio , ya que comprender el contexto y los matices de los datos es esencial para un análisis y modelado precisos. [37] [38]

En resumen, el análisis de datos y la ciencia de datos son disciplinas distintas pero interconectadas dentro del campo más amplio de la gestión y el análisis de datos . El análisis de datos se centra en extraer conocimientos y sacar conclusiones a partir de datos estructurados , mientras que la ciencia de datos implica un enfoque más integral que combina análisis estadístico , métodos computacionales y aprendizaje automático para extraer conocimientos, construir modelos predictivos e impulsar la toma de decisiones basada en datos . Ambos campos utilizan datos para comprender patrones, tomar decisiones informadas y resolver problemas complejos en varios dominios.

Historia

Ver también

Referencias

  1. ^ Donoho, David (2017). "50 años de ciencia de datos". Revista de Estadística Computacional y Gráfica . 26 (4): 745–766. doi : 10.1080/10618600.2017.1384734 . S2CID  114558008.
  2. ^ Dhar, V. (2013). "Ciencia de datos y predicción". Comunicaciones de la ACM . 56 (12): 64–73. doi :10.1145/2500499. S2CID  6107147. Archivado desde el original el 9 de noviembre de 2014 . Consultado el 2 de septiembre de 2015 .
  3. ^ Daniluk, A.; Leidig, P. (2021). Competencias informáticas para los planes de estudios de pregrado en ciencia de datos (PDF) . Informe final del grupo de trabajo de ciencia de datos de ACM (Reporte).
  4. ^ Mike, Koby; Hazzan, Orit (20 de enero de 2023). "¿Qué es la ciencia de datos?". Comunicaciones de la ACM . 66 (2): 12-13. doi : 10.1145/3575663 . ISSN  0001-0782.
  5. ^ Hayashi, Chikio (1 de enero de 1998). "¿Qué es la ciencia de datos? Conceptos fundamentales y un ejemplo heurístico". En Hayashi, Chikio; Yajima, Keiji; Bock, Hans-Hermann; Ohsumi, Noboru; Tanaka, Yutaka; Baba, Yasumasa (eds.). Ciencia de datos, clasificación y métodos relacionados . Estudios en Clasificación, Análisis de Datos y Organización del Conocimiento. Springer Japón. págs. 40–51. doi :10.1007/978-4-431-65950-1_3. ISBN 9784431702085.
  6. ^ abcd Cao, Longbing (29 de junio de 2017). "Ciencia de datos: una descripción general completa". Encuestas de Computación ACM . 50 (3): 43:1–43:42. arXiv : 2007.03606 . doi : 10.1145/3076253 . ISSN  0360-0300. S2CID  207595944.
  7. ^ Tony Hola; Stewart Tansley; Kristin Michele Tolle (2009). El cuarto paradigma: descubrimiento científico intensivo en datos. Investigación de Microsoft. ISBN 978-0-9825442-0-4. Archivado desde el original el 20 de marzo de 2017.
  8. ^ Campana, G.; Hola, T.; Szalay, A. (2009). "Ciencias de la Computación: más allá del diluvio de datos". Ciencia . 323 (5919): 1297–1298. doi : 10.1126/ciencia.1170411. ISSN  0036-8075. PMID  19265007. S2CID  9743327.
  9. ^ Davenport, Thomas H.; Patil, DJ (octubre de 2012). "Científico de datos: el trabajo más sexy del siglo XXI". Revisión de negocios de Harvard . 90 (10): 70–76, 128. PMID  23074866 . Consultado el 18 de enero de 2016 .
  10. ^ Emmert-Streib, Frank; Dehmer, Matías (2018). "Definición de la ciencia de datos mediante una cuantificación de la comunidad basada en datos". Aprendizaje automático y extracción de conocimiento . 1 : 235–251. doi : 10.3390/make1010015 .
  11. ^ "1. Introducción: ¿Qué es la ciencia de datos?". Haciendo ciencia de datos [Libro] . O'Reilly . Consultado el 3 de abril de 2020 .
  12. ^ "las tres habilidades sexys de los fanáticos de los datos". medriscoll: datos utópicos . 27 de mayo de 2009 . Consultado el 3 de abril de 2020 .
  13. ^ Yau, Nathan (4 de junio de 2009). "Ascenso del científico de datos". Datos que fluyen . Consultado el 3 de abril de 2020 .
  14. ^ "Ejemplo básico". benfry.com . Consultado el 3 de abril de 2020 .
  15. ^ "Declaración de la ASA sobre el papel de las estadísticas en la ciencia de datos". AmStatNoticias . Asociación Estadounidense de Estadística . 1 de octubre de 2015. Archivado desde el original el 20 de junio de 2019 . Consultado el 29 de mayo de 2019 .
  16. ^ "Nate Silver: lo que necesito de los estadísticos". Vistas de estadísticas . Consultado el 3 de abril de 2020 .
  17. ^ "¿Cuál es la diferencia entre ciencia de datos y estadística?". Priceonomía . 13 de octubre de 2015 . Consultado el 3 de abril de 2020 .
  18. ^ Vasant Dhar (1 de diciembre de 2013). "Ciencia de datos y predicción". Comunicaciones de la ACM . 56 (12): 64–73. doi :10.1145/2500499. S2CID  6107147.
  19. ^ "La estadística es la parte menos importante de la ciencia de datos« Modelado estadístico, inferencia causal y ciencias sociales ". statmodeling.stat.columbia.edu . Consultado el 3 de abril de 2020 .
  20. ^ ab Donoho, David (18 de septiembre de 2015). "50 años de ciencia de datos" (PDF) . Consultado el 2 de abril de 2020 .
  21. ^ Wu, CF Jeff (1986). "Direcciones futuras de la investigación estadística en China: una perspectiva histórica" ​​(PDF) . Aplicación de la Estadística y la Gestión . 1 : 1–7 . Consultado el 29 de noviembre de 2020 .
  22. ^ Escoufier, Yves; Hayashi, Chikio; Fichet, Bernard, eds. (1995). Ciencia de datos y sus aplicaciones . Tokio: Academic Press/Harcourt Brace. ISBN 0-12-241770-4. OCLC  489990740.
  23. ^ ab Murtagh, Fionn; Devlin, Keith (2018). "El desarrollo de la ciencia de datos: implicaciones para la educación, el empleo, la investigación y la revolución de los datos para el desarrollo sostenible". Big Data y Computación Cognitiva . 2 (2): 14. doi : 10.3390/bdcc2020014 .
  24. ^ Wu, CF Jeff. "¿Estadísticas = ciencia de datos?" (PDF) . Consultado el 2 de abril de 2020 .
  25. ^ Prensa abc, Gil. "Una historia muy breve de la ciencia de datos". Forbes . Consultado el 3 de abril de 2020 .
  26. ^ Davenport, Thomas (1 de octubre de 2012). "Científico de datos: el trabajo más sexy del siglo XXI". Revisión de negocios de Harvard . Consultado el 10 de octubre de 2022 .
  27. ^ Miller, Claire (4 de abril de 2013). "Ciencia de datos: los números de nuestras vidas". New York Times . Nueva York . Consultado el 10 de octubre de 2022 .
  28. ^ Borchers, Callum (11 de noviembre de 2015). "Detrás de escena del 'trabajo más sexy del siglo XXI'". Globo de Boston . Boston . Consultado el 10 de octubre de 2022 .
  29. ^ Davenport, Thomas (15 de julio de 2022). "¿Sigue siendo el científico de datos el trabajo más atractivo del siglo XXI?". Revisión de negocios de Harvard . Consultado el 10 de octubre de 2022 .
  30. ^ Gupta, Shanti (11 de diciembre de 2015). "William S. Cleveland" . Consultado el 2 de abril de 2020 .
  31. ^ Talley, Jill (1 de junio de 2016). "ASA amplía su alcance, su alcance para fomentar el crecimiento y la colaboración en la ciencia de datos". Noticias de Amstat . Asociación Estadounidense de Estadística .. En 2013, la primera Conferencia Europea sobre Análisis de Datos (ECDA2013) inició en Luxemburgo el proceso que fundó la Asociación Europea para la Ciencia de Datos (EuADS) www.euads.org en Luxemburgo en 2015.
  32. ^ Davenport, Thomas H.; Patil, DJ (1 de octubre de 2012). "Científico de datos: el trabajo más sexy del siglo XXI". Revisión de negocios de Harvard . No. Octubre de 2012. ISSN  0017-8012 . Consultado el 3 de abril de 2020 .
  33. ^ "US NSF - NSB-05-40, Colecciones de datos digitales de larga duración que permiten la investigación y la educación en el siglo XXI". www.nsf.gov . Consultado el 3 de abril de 2020 .
  34. ^ Prensa, Gil. "Ciencia de datos: ¿Cuál es la vida media de una palabra de moda?". Forbes . Consultado el 3 de abril de 2020 .
  35. ^ Pham, Pedro. "Los impactos del Big Data de los que quizás no hayas oído hablar". Forbes . Consultado el 3 de abril de 2020 .
  36. ^ Martín, Sofía (20 de septiembre de 2019). "¿Cómo afectará la ciencia de datos al futuro de las empresas?" (PDF) . Medio . Consultado el 3 de abril de 2020 .
  37. ^ a b C Gareth, Hastie; Witten, Tibshira (29 de septiembre de 2017). "Una introducción al aprendizaje estadístico: con aplicaciones en R." Saltador .
  38. ^ abcd Rector, Foster; Tom Fawcett (1 de agosto de 2013). "Ciencia de datos para empresas: lo que necesita saber sobre la minería de datos y el pensamiento analítico de datos". O'Reilly Media, Inc.
  39. ^ Han, Cámara; Pei (2011). Minería de datos: conceptos y técnicas. ISBN 9780123814791.