stringtranslate.com

Astroinformática

El proto-supercúmulo Hyperion se descubre mediante mediciones y análisis de datos de archivo [1]

La astroinformática es un campo de estudio interdisciplinario que involucra la combinación de astronomía , ciencia de datos , aprendizaje automático , informática y tecnologías de la información y las comunicaciones . [2] [3] El campo está estrechamente relacionado con la astroestadística .

La astronomía basada en datos ( DDA ) se refiere al uso de la ciencia de datos en astronomía . Se tienen en cuenta varios resultados de observaciones telescópicas y estudios del cielo y se utilizan enfoques relacionados con la minería de datos y la gestión de big data para analizar, filtrar y normalizar el conjunto de datos que se utilizan posteriormente para realizar clasificaciones, predicciones y detecciones de anomalías mediante enfoques estadísticos avanzados , procesamiento de imágenes digitales y aprendizaje automático . Los astrónomos y científicos espaciales utilizan el resultado de estos procesos para estudiar e identificar patrones, anomalías y movimientos en el espacio exterior y concluir teorías y descubrimientos en el cosmos .

Fondo

La astroinformática se centra principalmente en el desarrollo de herramientas, métodos y aplicaciones de la ciencia computacional , la ciencia de datos , el aprendizaje automático y las estadísticas para la investigación y la educación en astronomía orientada a datos. [2] Los primeros esfuerzos en esta dirección incluyeron el descubrimiento de datos , el desarrollo de estándares de metadatos , el modelado de datos , el desarrollo de diccionarios de datos astronómicos , el acceso a datos , la recuperación de información , [4] la integración de datos y la minería de datos [5] en las iniciativas del Observatorio Virtual Astronómico . [6] [7] [8] Un mayor desarrollo del campo, junto con el respaldo de la comunidad astronómica, se presentó al Consejo Nacional de Investigación (Estados Unidos) en 2009 en el documento de posición sobre el "estado de la profesión" de la astroinformática para la Encuesta Decenal de Astronomía y Astrofísica de 2010. [9] Ese documento de posición proporcionó la base para la posterior exposición más detallada del campo en el artículo Astroinformática: Investigación y educación en astronomía orientada a datos del Informatics Journal . [2]

La astroinformática como campo de investigación diferenciado se inspiró en el trabajo en los campos de la geoinformática , la quimioinformática , la bioinformática y en el trabajo de eScience [10] de Jim Gray (científico informático) en Microsoft Research , cuyo legado fue recordado y continuado a través de los Premios Jim Gray eScience. [11]

Aunque el enfoque principal de la astroinformática se centra en la gran colección distribuida mundialmente de bases de datos astronómicas digitales, archivos de imágenes y herramientas de investigación, el campo reconoce también la importancia de los conjuntos de datos heredados, utilizando tecnologías modernas para preservar y analizar observaciones astronómicas históricas. Algunos profesionales de la astroinformática ayudan a digitalizar observaciones e imágenes astronómicas históricas y recientes en una gran base de datos para su recuperación eficiente a través de interfaces basadas en la web . [3] [12] Otro objetivo es ayudar a desarrollar nuevos métodos y software para astrónomos, así como ayudar a facilitar el proceso y el análisis de la creciente cantidad de datos en el campo de la astronomía. [13]

La astroinformática se describe como el "cuarto paradigma" de la investigación astronómica. [14] Hay muchas áreas de investigación involucradas con la astroinformática, como la minería de datos, el aprendizaje automático, las estadísticas, la visualización, la gestión de datos científicos y la ciencia semántica. [7] La ​​minería de datos y el aprendizaje automático desempeñan papeles importantes en la astroinformática como disciplina de investigación científica debido a su enfoque en el "descubrimiento de conocimiento a partir de datos" (KDD) y el "aprendizaje a partir de datos". [15] [16]

La cantidad de datos recopilados a partir de los estudios astronómicos del cielo ha crecido de gigabytes a terabytes a lo largo de la última década y se prevé que crezca en la próxima década a cientos de petabytes con el Gran Telescopio para Rastreos Sinópticos y a los exabytes con el Square Kilometre Array . [17] Esta plétora de nuevos datos posibilita y desafía la investigación astronómica efectiva. Por lo tanto, se requieren nuevos enfoques. En parte debido a esto, la ciencia basada en datos se está convirtiendo en una disciplina académica reconocida. En consecuencia, la astronomía (y otras disciplinas científicas) están desarrollando subdisciplinas intensivas en información y datos hasta tal punto que estas subdisciplinas ahora se están convirtiendo (o ya se han convertido) en disciplinas de investigación independientes y programas académicos completos. Si bien muchos institutos de educación no cuentan con un programa de astroinformática, es muy probable que se desarrollen dichos programas en un futuro cercano.

La informática se ha definido recientemente como "el uso de datos digitales, información y servicios relacionados para la investigación y la generación de conocimiento". Sin embargo, la definición habitual o comúnmente utilizada es "la informática es la disciplina de organizar, acceder, integrar y extraer datos de múltiples fuentes para el descubrimiento y el apoyo a la toma de decisiones". Por lo tanto, la disciplina de la astroinformática incluye muchas especialidades naturalmente relacionadas, incluyendo el modelado de datos, la organización de datos, etc. También puede incluir métodos de transformación y normalización para la integración de datos y la visualización de información, así como la extracción de conocimiento, técnicas de indexación, recuperación de información y métodos de minería de datos. Los esquemas de clasificación (por ejemplo, taxonomías , ontologías , folksonomías y/o etiquetado colaborativo [18] ) más la astroestadística también estarán muy involucrados. Los proyectos de ciencia ciudadana (como Galaxy Zoo ) también contribuyen al descubrimiento de novedades de gran valor, el metaetiquetado de características y la caracterización de objetos dentro de grandes conjuntos de datos astronómicos. Todas estas especialidades permiten el descubrimiento científico a través de variadas colecciones de datos masivos, la investigación colaborativa y la reutilización de datos, tanto en entornos de investigación como de aprendizaje.

En 2007 se lanzó el proyecto Galaxy Zoo [19] para la clasificación morfológica [20] [21] de un gran número de galaxias . En este proyecto se consideraron para la clasificación 900.000 imágenes tomadas del Sloan Digital Sky Survey (SDSS) [22] durante los últimos 7 años. La tarea consistía en estudiar cada imagen de una galaxia, clasificarla como elíptica o espiral y determinar si giraba o no. El equipo de astrofísicos dirigido por Kevin Schawinski en la Universidad de Oxford estuvo a cargo de este proyecto y Kevin y su colega Chris Linlott calcularon que un equipo de este tipo tardaría entre 3 y 5 años en completar el trabajo. [23] Allí se les ocurrió la idea de utilizar técnicas de aprendizaje automático y ciencia de datos para analizar las imágenes y clasificarlas. [24]

En 2012, se presentaron dos documentos de posición [25] [26] al Consejo de la Sociedad Astronómica Estadounidense que llevaron al establecimiento de grupos de trabajo formales en astroinformática y astroestadística para la profesión de astronomía en los EE. UU. y en otros lugares. [27]

La astroinformática proporciona un contexto natural para la integración de la educación y la investigación. [28] La experiencia de la investigación ahora se puede implementar dentro del aula para establecer y desarrollar la alfabetización de datos a través de la fácil reutilización de datos. [29] También tiene muchos otros usos, como la reutilización de datos de archivo para nuevos proyectos, vínculos entre literatura y datos, recuperación inteligente de información y muchos otros. [30]

Metodología

Los datos recuperados de los estudios del cielo se procesan primero para su preprocesamiento . En este proceso, se eliminan y filtran las redundancias . A continuación, se realiza la extracción de características de este conjunto de datos filtrados, que luego se utiliza para los procesos. [31] A continuación, se enumeran algunos de los estudios del cielo más conocidos:

El tamaño de los datos de los estudios del cielo mencionados anteriormente varía de 3  TB a casi 4,6  EB . [31] Además, las tareas de minería de datos que están involucradas en la gestión y manipulación de los datos involucran métodos como clasificación , regresión , agrupamiento , detección de anomalías y análisis de series temporales . Varios enfoques y aplicaciones para cada uno de estos métodos están involucrados en el logro de las tareas.

Clasificación

La clasificación [40] se utiliza para la identificación y categorización específicas de datos astronómicos, como la clasificación espectral , la clasificación fotométrica, la clasificación morfológica y la clasificación de la actividad solar . Los enfoques de las técnicas de clasificación se enumeran a continuación:

Regresión

La regresión [41] se utiliza para hacer predicciones basadas en los datos recuperados a través de tendencias estadísticas y modelado estadístico. Se utilizan diferentes usos de esta técnica para obtener corrimientos al rojo fotométricos y mediciones de parámetros físicos de estrellas. [42] Los enfoques se enumeran a continuación:

Agrupamiento

La agrupación [43] consiste en clasificar objetos en función de una métrica de medida de similitud . Se utiliza en astronomía para la clasificación, así como para la detección de objetos especiales o raros . Los enfoques se enumeran a continuación:

Detección de anomalías

La detección de anomalías [45] se utiliza para detectar irregularidades en el conjunto de datos. Sin embargo, esta técnica se utiliza aquí para detectar objetos raros o especiales . Se utilizan los siguientes enfoques:

Análisis de series temporales

El análisis de series temporales [46] ayuda a analizar tendencias y predecir resultados a lo largo del tiempo. Se utiliza para la predicción de tendencias y la detección de novedades (detección de datos desconocidos). Los enfoques utilizados aquí son:

Conferencias

Conferencias adicionales y listas de conferencias:

Véase también

Referencias

  1. ^ "Descubierto el mayor proto-supercúmulo de galaxias: los astrónomos que utilizan el Very Large Telescope de ESO descubren un titán cósmico que acecha en el universo temprano". www.eso.org . Consultado el 18 de octubre de 2018 .
  2. ^ abc Borne, Kirk D. (12 de mayo de 2010). "Astroinformática: investigación y educación astronómica orientada a los datos". Informática de las ciencias de la tierra . 3 (1–2): 5–17. doi :10.1007/s12145-010-0055-2. S2CID  207393013.
  3. ^ ab Astroinformática y digitalización del patrimonio astronómico Archivado el 26 de diciembre de 2017 en Wayback Machine , Nikolay Kirov. Quinta Conferencia Internacional SEEDI Digitalización del patrimonio cultural y científico, 19 y 20 de mayo de 2010, Sarajevo. Consultado el 1 de noviembre de 2012.
  4. ^ Borne, Kirk (2000). "Escenarios de usuarios científicos para una misión de referencia de diseño de observatorio virtual: requisitos científicos para la minería de datos". arXiv : astro-ph/0008307 .
  5. ^ Borne, Kirk (2008). "Minería de datos científicos en astronomía". En Kargupta, Hillol; et al. (eds.). Próxima generación de minería de datos . Londres: CRC Press. pp. 91–114. ISBN 9781420085860.
  6. ^ Borne, Kirk D (2003). "Minería de datos distribuida en el Observatorio Virtual Nacional". En Dasarathy, Belur V (ed.). Minería de datos y descubrimiento de conocimiento: teoría, herramientas y tecnología V. Vol. 5098. págs. 211–218. doi :10.1117/12.487536. S2CID  28195520.
  7. ^ ab Borne, Kirk (2013). "Observatorios virtuales, minería de datos y astroinformática". Planetas, estrellas y sistemas estelares . págs. 403–443. doi :10.1007/978-94-007-5618-2_9. ISBN 978-94-007-5617-5.
  8. ^ Laurino, O.; D'Abrusco, R.; Longo, G.; Riccio, G. (21 de diciembre de 2011). "Astroinformática de galaxias y cuásares: un nuevo método general para la estimación de corrimientos al rojo fotométricos". Monthly Notices of the Royal Astronomical Society . 418 (4): 2165–2195. arXiv : 1107.3160 ​​. Bibcode :2011MNRAS.418.2165L. doi : 10.1111/j.1365-2966.2011.19416.x . S2CID  7115554.
  9. ^ Borne, Kirk (2009). "Astroinformática: un enfoque de la astronomía en el siglo XXI". Astro2010: The Astronomy and Astrophysics Decadal Survey . 2010 : P6. arXiv : 0909.3892 . Código Bibliográfico :2009astro2010P...6B.
  10. ^ "Ciencia en línea". Charlas de Jim Gray . Microsoft Research . Consultado el 11 de enero de 2015 .
  11. ^ "Premio Jim Gray a la e-ciencia". Investigación de Microsoft .
  12. ^ Astroinformática en Canadá, Nicholas M. Ball, David Schade. Consultado el 1 de noviembre de 2012.
  13. ^ "La 'astroinformática' ayuda a los astrónomos a explorar el cielo". Phys.org . Universidad de Heidelberg . Consultado el 11 de enero de 2015 .
  14. ^ Hola, Tony (octubre de 2009). "El cuarto paradigma: descubrimiento científico basado en datos". Microsoft Research .
  15. ^ Ball, NM; Brunner, RJ (2010). "Minería de datos y aprendizaje automático en astronomía". Revista Internacional de Física Moderna D . 19 (7): 1049–1106. arXiv : 0906.2173 . Código Bibliográfico :2010IJMPD..19.1049B. doi :10.1142/S0218271810017160. S2CID  119277652.
  16. ^ Borne, K; Becla, J; Davidson, I; Szalay, A; Tyson, J. A; Bailer-Jones, Coryn AL (2008). "La agenda de investigación en minería de datos del LSST". Actas de la conferencia AIP . págs. 347–351. arXiv : 0811.0167 . doi :10.1063/1.3059074. S2CID  118399971.
  17. ^ Ivezić, Ž; Axelrod, T; Becker, A. C; Becla, J; Borne, K; Burke, D. L; Claver, C. F; Cook, K. H; Connolly, A; Gilmore, D. K; Jones, R. L; Jurić, M; Kahn, S. M; Lim, K.-T; Lupton, R. H; Monet, D. G; Pinto, P. A; Sesar, B; Stubbs, C. W; Tyson, J. A; Bailer-Jones, Coryn AL (2008). "Parametrización y clasificación de 20 mil millones de objetos LSST: lecciones de SDSS". Actas de la conferencia AIP . Vol. 1082. págs. 359–365. arXiv : 0810.5155 . doi : 10.1063/1.3059076. S2CID  117914490. {{cite book}}: |journal=ignorado ( ayuda )
  18. ^ Borne, Kirk. "Anotación colaborativa para el descubrimiento y la reutilización de datos científicos". Boletín de la ASIS&T . Sociedad Estadounidense de Ciencias de la Información y Tecnología. Archivado desde el original el 5 de marzo de 2016. Consultado el 11 de enero de 2016 .
  19. ^ "Zooniverse". www.zooniverse.org . Consultado el 10 de mayo de 2024 .
  20. ^ Cavanagh, Mitchell K.; Bekki, Kenji; Groves, Brent A. (8 de julio de 2021). "Clasificación morfológica de galaxias con aprendizaje profundo: comparación de CNN de 3 y 4 vías". Monthly Notices of the Royal Astronomical Society . 506 (1): 659–676. arXiv : 2106.01571 . doi : 10.1093/mnras/stab1552 . ISSN  0035-8711.
  21. ^ Goyal, Lalit Mohan; Arora, Maanak; Pandey, Tushar; Mittal, Mamta (1 de diciembre de 2020). "Clasificación morfológica de galaxias utilizando redes convolucionales". Informática en Ciencias de la Tierra . 13 (4): 1427–1436. doi :10.1007/s12145-020-00526-w. ISSN  1865-0481.
  22. ^ ab "Sloan Digital Sky Survey-V: Espectroscopia panóptica pionera - SDSS-V" . Consultado el 10 de mayo de 2024 .
  23. ^ Pati, Satavisa (18 de junio de 2021). "¿Cómo se utiliza la ciencia de datos en la astronomía?". Analytics Insight . Consultado el 10 de mayo de 2024 .
  24. ^ Baron, Dalya (15 de abril de 2019), Aprendizaje automático en astronomía: una descripción práctica , arXiv : 1904.07248
  25. ^ Borne, Kirk. "Astroinformática en pocas palabras". asaip.psu.edu . El portal de astroestadística y astroinformática, Universidad Estatal de Pensilvania . Consultado el 11 de enero de 2016 .
  26. ^ Feigelson, Eric. "Astrostatistics in a Nutshell" (Astroestadística en pocas palabras). asaip.psu.edu . Portal de astroestadística y astroinformática, Universidad Estatal de Pensilvania . Consultado el 11 de enero de 2016 .
  27. ^ Feigelson, E.; Ivezić, Ž.; Hilbe, J.; Borne, K. (2013). "Nuevas organizaciones para apoyar la astroinformática y la astroestadística". Software y sistemas de análisis de datos astronómicos Xxii . 475 : 15. arXiv : 1301.3069 . Código Bibliográfico :2013ASPC..475...15F.
  28. ^ Borne, Kirk (2009). "La revolución en la educación astronómica: ciencia de datos para las masas". Astro2010: The Astronomy and Astrophysics Decadal Survey . 2010 : P7. arXiv : 0909.3895 . Código Bibliográfico :2009astro2010P...7B.
  29. ^ "Uso de datos en el aula". Centro de recursos de educación científica del Carleton College . Biblioteca digital científica nacional . Consultado el 11 de enero de 2016 .
  30. ^ Borne, Kirk. Astroinformática: Astronomía orientada a datos (PDF) . Universidad George Mason, EE. UU . . Consultado el 21 de enero de 2015 .
  31. ^ ab Zhang, Yanxia; Zhao, Yongheng (22 de mayo de 2015). "Astronomía en la era de los macrodatos". Data Science Journal . 14 : 11. Bibcode :2015DatSJ..14...11Z. doi : 10.5334/dsj-2015-011 . ISSN  1683-1470.
  32. ^ "El sondeo del cielo digital de Palomar (DPOSS)". sites.astro.caltech.edu . Consultado el 10 de mayo de 2024 .
  33. ^ "IRSA - Sondeo de todo el cielo a dos micrones (2MASS)". irsa.ipac.caltech.edu . Consultado el 10 de mayo de 2024 .
  34. ^ "GBT". Observatorio de Green Bank . 26 de junio de 2023. Consultado el 10 de mayo de 2024 .
  35. ^ "GALEX - Galaxy Evolution Explorer" (Explorador de la evolución de galaxias) www.galex.caltech.edu . Consultado el 10 de mayo de 2024 .
  36. ^ "SkyMapper Southern Sky Survey". skymapper.anu.edu.au . Consultado el 10 de mayo de 2024 .
  37. ^ "Página de inicio del archivo de datos Pan-STARRS1 - Archivo público PS1 - STScI Outerspace". outerspace.stsci.edu . Consultado el 10 de mayo de 2024 .
  38. ^ Telescopio, Gran Sondeo Sinóptico. «Observatorio Rubin». Observatorio Rubin . Consultado el 10 de mayo de 2024 .
  39. ^ "Explorar | SKAO". www.skao.int . Consultado el 10 de mayo de 2024 .
  40. ^ Chowdhury, Shovan; Schoen, Marco P. (2 de octubre de 2020). "Clasificación de artículos de investigación mediante técnicas de aprendizaje automático supervisado". 2020 Intermountain Engineering, Technology and Computing (IETC) . IEEE. págs. 1–6. doi :10.1109/IETC47856.2020.9249211. ISBN . 978-1-7281-4291-3.
  41. ^ Sarstedt, Marko; Mooi, Erik (2014), Sarstedt, Marko; Mooi, Erik (eds.), "Análisis de regresión", Una guía concisa para la investigación de mercados: el proceso, los datos y los métodos con IBM SPSS Statistics , Berlín, Heidelberg: Springer, págs. 193–233, doi :10.1007/978-3-642-53965-7_7, ISBN 978-3-642-53965-7, consultado el 10 de mayo de 2024
  42. ^ "Boletín de la Société Royale des Sciences de Liège | PoPuPS". Bulletin de la Société Royale des Sciences de Liège (en francés). ISSN  0037-9565.
  43. ^ Bindra, Kamalpreet; Mishra, Anuranjan (septiembre de 2017). "Un estudio detallado de algoritmos de agrupamiento". 2017 6th International Conference on Reliability, Infocom Technologies and Optimization (Trends and Future Directions) (ICRITO) . IEEE. págs. 371–376. doi :10.1109/ICRITO.2017.8342454. ISBN . 978-1-5090-3012-5.
  44. ^ Pizzuti, C.; Talia, D. (mayo de 2003). "P-autoclass: agrupamiento paralelo escalable para la minería de grandes conjuntos de datos". IEEE Transactions on Knowledge and Data Engineering . 15 (3): 629–641. doi :10.1109/TKDE.2003.1198395. ISSN  1041-4347.
  45. ^ Thudumu, Srikanth; Branch, Philip; Jin, Jiong; Singh, Jugdutt (Jack) (2020-07-02). "Un estudio exhaustivo de las técnicas de detección de anomalías para big data de alta dimensión". Journal of Big Data . 7 (1): 42. doi : 10.1186/s40537-020-00320-x . hdl : 10536/DRO/DU:30158643 . ISSN  2196-1115.
  46. ^ Weiner, Irving B., ed. (15 de abril de 2003). Manual de psicología (1.ª edición). Wiley. doi :10.1002/0471264385.wei0223. ISBN 978-0-471-17669-5.

Enlaces externos