La astroinformática es un campo de estudio interdisciplinario que involucra la combinación de astronomía , ciencia de datos , aprendizaje automático , informática y tecnologías de la información y las comunicaciones . [2] [3] El campo está estrechamente relacionado con la astroestadística .
La astronomía basada en datos ( DDA ) se refiere al uso de la ciencia de datos en astronomía . Se tienen en cuenta varios resultados de observaciones telescópicas y estudios del cielo y se utilizan enfoques relacionados con la minería de datos y la gestión de big data para analizar, filtrar y normalizar el conjunto de datos que se utilizan posteriormente para realizar clasificaciones, predicciones y detecciones de anomalías mediante enfoques estadísticos avanzados , procesamiento de imágenes digitales y aprendizaje automático . Los astrónomos y científicos espaciales utilizan el resultado de estos procesos para estudiar e identificar patrones, anomalías y movimientos en el espacio exterior y concluir teorías y descubrimientos en el cosmos .
La astroinformática se centra principalmente en el desarrollo de herramientas, métodos y aplicaciones de la ciencia computacional , la ciencia de datos , el aprendizaje automático y las estadísticas para la investigación y la educación en astronomía orientada a datos. [2] Los primeros esfuerzos en esta dirección incluyeron el descubrimiento de datos , el desarrollo de estándares de metadatos , el modelado de datos , el desarrollo de diccionarios de datos astronómicos , el acceso a datos , la recuperación de información , [4] la integración de datos y la minería de datos [5] en las iniciativas del Observatorio Virtual Astronómico . [6] [7] [8] Un mayor desarrollo del campo, junto con el respaldo de la comunidad astronómica, se presentó al Consejo Nacional de Investigación (Estados Unidos) en 2009 en el documento de posición sobre el "estado de la profesión" de la astroinformática para la Encuesta Decenal de Astronomía y Astrofísica de 2010. [9] Ese documento de posición proporcionó la base para la posterior exposición más detallada del campo en el artículo Astroinformática: Investigación y educación en astronomía orientada a datos del Informatics Journal . [2]
La astroinformática como campo de investigación diferenciado se inspiró en el trabajo en los campos de la geoinformática , la quimioinformática , la bioinformática y en el trabajo de eScience [10] de Jim Gray (científico informático) en Microsoft Research , cuyo legado fue recordado y continuado a través de los Premios Jim Gray eScience. [11]
Aunque el enfoque principal de la astroinformática se centra en la gran colección distribuida mundialmente de bases de datos astronómicas digitales, archivos de imágenes y herramientas de investigación, el campo reconoce también la importancia de los conjuntos de datos heredados, utilizando tecnologías modernas para preservar y analizar observaciones astronómicas históricas. Algunos profesionales de la astroinformática ayudan a digitalizar observaciones e imágenes astronómicas históricas y recientes en una gran base de datos para su recuperación eficiente a través de interfaces basadas en la web . [3] [12] Otro objetivo es ayudar a desarrollar nuevos métodos y software para astrónomos, así como ayudar a facilitar el proceso y el análisis de la creciente cantidad de datos en el campo de la astronomía. [13]
La astroinformática se describe como el "cuarto paradigma" de la investigación astronómica. [14] Hay muchas áreas de investigación involucradas con la astroinformática, como la minería de datos, el aprendizaje automático, las estadísticas, la visualización, la gestión de datos científicos y la ciencia semántica. [7] La minería de datos y el aprendizaje automático desempeñan papeles importantes en la astroinformática como disciplina de investigación científica debido a su enfoque en el "descubrimiento de conocimiento a partir de datos" (KDD) y el "aprendizaje a partir de datos". [15] [16]
La cantidad de datos recopilados a partir de los estudios astronómicos del cielo ha crecido de gigabytes a terabytes a lo largo de la última década y se prevé que crezca en la próxima década a cientos de petabytes con el Gran Telescopio para Rastreos Sinópticos y a los exabytes con el Square Kilometre Array . [17] Esta plétora de nuevos datos posibilita y desafía la investigación astronómica efectiva. Por lo tanto, se requieren nuevos enfoques. En parte debido a esto, la ciencia basada en datos se está convirtiendo en una disciplina académica reconocida. En consecuencia, la astronomía (y otras disciplinas científicas) están desarrollando subdisciplinas intensivas en información y datos hasta tal punto que estas subdisciplinas ahora se están convirtiendo (o ya se han convertido) en disciplinas de investigación independientes y programas académicos completos. Si bien muchos institutos de educación no cuentan con un programa de astroinformática, es muy probable que se desarrollen dichos programas en un futuro cercano.
La informática se ha definido recientemente como "el uso de datos digitales, información y servicios relacionados para la investigación y la generación de conocimiento". Sin embargo, la definición habitual o comúnmente utilizada es "la informática es la disciplina de organizar, acceder, integrar y extraer datos de múltiples fuentes para el descubrimiento y el apoyo a la toma de decisiones". Por lo tanto, la disciplina de la astroinformática incluye muchas especialidades naturalmente relacionadas, incluyendo el modelado de datos, la organización de datos, etc. También puede incluir métodos de transformación y normalización para la integración de datos y la visualización de información, así como la extracción de conocimiento, técnicas de indexación, recuperación de información y métodos de minería de datos. Los esquemas de clasificación (por ejemplo, taxonomías , ontologías , folksonomías y/o etiquetado colaborativo [18] ) más la astroestadística también estarán muy involucrados. Los proyectos de ciencia ciudadana (como Galaxy Zoo ) también contribuyen al descubrimiento de novedades de gran valor, el metaetiquetado de características y la caracterización de objetos dentro de grandes conjuntos de datos astronómicos. Todas estas especialidades permiten el descubrimiento científico a través de variadas colecciones de datos masivos, la investigación colaborativa y la reutilización de datos, tanto en entornos de investigación como de aprendizaje.
En 2007 se lanzó el proyecto Galaxy Zoo [19] para la clasificación morfológica [20] [21] de un gran número de galaxias . En este proyecto se consideraron para la clasificación 900.000 imágenes tomadas del Sloan Digital Sky Survey (SDSS) [22] durante los últimos 7 años. La tarea consistía en estudiar cada imagen de una galaxia, clasificarla como elíptica o espiral y determinar si giraba o no. El equipo de astrofísicos dirigido por Kevin Schawinski en la Universidad de Oxford estuvo a cargo de este proyecto y Kevin y su colega Chris Linlott calcularon que un equipo de este tipo tardaría entre 3 y 5 años en completar el trabajo. [23] Allí se les ocurrió la idea de utilizar técnicas de aprendizaje automático y ciencia de datos para analizar las imágenes y clasificarlas. [24]
En 2012, se presentaron dos documentos de posición [25] [26] al Consejo de la Sociedad Astronómica Estadounidense que llevaron al establecimiento de grupos de trabajo formales en astroinformática y astroestadística para la profesión de astronomía en los EE. UU. y en otros lugares. [27]
La astroinformática proporciona un contexto natural para la integración de la educación y la investigación. [28] La experiencia de la investigación ahora se puede implementar dentro del aula para establecer y desarrollar la alfabetización de datos a través de la fácil reutilización de datos. [29] También tiene muchos otros usos, como la reutilización de datos de archivo para nuevos proyectos, vínculos entre literatura y datos, recuperación inteligente de información y muchos otros. [30]
Los datos recuperados de los estudios del cielo se procesan primero para su preprocesamiento . En este proceso, se eliminan y filtran las redundancias . A continuación, se realiza la extracción de características de este conjunto de datos filtrados, que luego se utiliza para los procesos. [31] A continuación, se enumeran algunos de los estudios del cielo más conocidos:
El tamaño de los datos de los estudios del cielo mencionados anteriormente varía de 3 TB a casi 4,6 EB . [31] Además, las tareas de minería de datos que están involucradas en la gestión y manipulación de los datos involucran métodos como clasificación , regresión , agrupamiento , detección de anomalías y análisis de series temporales . Varios enfoques y aplicaciones para cada uno de estos métodos están involucrados en el logro de las tareas.
La clasificación [40] se utiliza para la identificación y categorización específicas de datos astronómicos, como la clasificación espectral , la clasificación fotométrica, la clasificación morfológica y la clasificación de la actividad solar . Los enfoques de las técnicas de clasificación se enumeran a continuación:
La regresión [41] se utiliza para hacer predicciones basadas en los datos recuperados a través de tendencias estadísticas y modelado estadístico. Se utilizan diferentes usos de esta técnica para obtener corrimientos al rojo fotométricos y mediciones de parámetros físicos de estrellas. [42] Los enfoques se enumeran a continuación:
La agrupación [43] consiste en clasificar objetos en función de una métrica de medida de similitud . Se utiliza en astronomía para la clasificación, así como para la detección de objetos especiales o raros . Los enfoques se enumeran a continuación:
La detección de anomalías [45] se utiliza para detectar irregularidades en el conjunto de datos. Sin embargo, esta técnica se utiliza aquí para detectar objetos raros o especiales . Se utilizan los siguientes enfoques:
El análisis de series temporales [46] ayuda a analizar tendencias y predecir resultados a lo largo del tiempo. Se utiliza para la predicción de tendencias y la detección de novedades (detección de datos desconocidos). Los enfoques utilizados aquí son:
Conferencias adicionales y listas de conferencias:
{{cite book}}
: |journal=
ignorado ( ayuda )