Preprocesamiento de datos

El preprocesamiento de datos puede referirse a la manipulación, filtración o aumento de datos antes de analizarlos ^[1] y, a menudo, es un paso importante en el proceso de extracción de datos . Los métodos de recopilación de datos suelen estar poco controlados, lo que da como resultado valores fuera de rango, combinaciones de datos imposibles y valores faltantes , entre otros problemas.

El proceso de preprocesamiento utilizado a menudo puede tener grandes efectos en las conclusiones extraídas del análisis posterior. Por lo tanto, la representación y la calidad de los datos son necesarias antes de realizar cualquier análisis. ^[2] A menudo, el preprocesamiento de datos es la fase más importante de un proyecto de aprendizaje automático , especialmente en biología computacional . ^[3] Si hay una alta proporción de información irrelevante y redundante presente o datos ruidosos y poco confiables, entonces el descubrimiento de conocimientos durante la fase de capacitación puede ser más difícil. Los pasos de preparación y filtrado de datos pueden llevar una cantidad considerable de tiempo de procesamiento. Ejemplos de métodos utilizados en el preprocesamiento de datos incluyen limpieza , selección de instancias , normalización , codificación one-hot , transformación de datos , extracción de características y selección de características .

Aplicaciones

Procesamiento de datos

El preprocesamiento de datos permite la eliminación de datos no deseados mediante el uso de limpieza de datos, lo que permite al usuario tener un conjunto de datos que contenga información más valiosa después de la etapa de preprocesamiento para la manipulación de datos más adelante en el proceso de extracción de datos. Editar dicho conjunto de datos para corregir la corrupción de datos o el error humano es un paso crucial para obtener cuantificadores precisos como verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos que se encuentran en una matriz de confusión que se usa comúnmente para un diagnóstico médico. Los usuarios pueden unir archivos de datos y utilizar el preprocesamiento para filtrar cualquier ruido innecesario de los datos, lo que puede permitir una mayor precisión. Los usuarios utilizan scripts de programación Python acompañados de la biblioteca pandas, que les brinda la capacidad de importar datos desde valores separados por comas como un marco de datos. Luego, el marco de datos se utiliza para manipular datos que, de otro modo, podrían resultar difíciles de realizar en Excel. Pandas (software) que es una poderosa herramienta que permite el análisis y manipulación de datos; lo que hace que las visualizaciones de datos, las operaciones estadísticas y mucho más sean mucho más fáciles. Muchos también utilizan el lenguaje de programación R para realizar este tipo de tareas.

La razón por la que un usuario transforma archivos existentes en uno nuevo se debe a muchas razones. Los aspectos del preprocesamiento de datos pueden incluir la imputación de valores faltantes, la agregación de cantidades numéricas y la transformación de datos continuos en categorías ( agrupación de datos ). ^[4] Técnicas más avanzadas, como el análisis de componentes principales y la selección de características , funcionan con fórmulas estadísticas y se aplican a conjuntos de datos complejos que se registran mediante rastreadores GPS y dispositivos de captura de movimiento.

Preprocesamiento de datos semánticos

La minería de datos semántica es un subconjunto de la minería de datos que busca específicamente incorporar conocimiento del dominio , como la semántica formal, en el proceso de minería de datos. El conocimiento del dominio es el conocimiento del entorno en el que se procesaron los datos. El conocimiento del dominio puede tener una influencia positiva en muchos aspectos de la minería de datos, como filtrar datos redundantes o inconsistentes durante la fase de preprocesamiento. ^[5] El conocimiento del dominio también funciona como restricción. Para ello, utiliza el trabajo como conjunto de conocimientos previos para reducir el espacio necesario para la búsqueda y actúa como guía de los datos. En pocas palabras, el preprocesamiento semántico busca filtrar datos utilizando el entorno original de dichos datos de manera más correcta y eficiente.

Hay problemas cada vez más complejos que piden ser resueltos mediante técnicas más elaboradas para analizar mejor la información existente. ^{[ ¿ hecho u opinión? ]} En lugar de crear un script simple para agregar diferentes valores numéricos en un solo valor, tiene sentido centrarse en el preprocesamiento de datos basado en la semántica. ^[6] La idea es construir una ontología dedicada , que explique en un nivel superior de qué se trata el problema. ^[7] En lo que respecta a la minería de datos semánticos y el preprocesamiento semántico, las ontologías son una forma de conceptualizar y definir formalmente el conocimiento y los datos semánticos. El Protégé (software) es la herramienta estándar para construir una ontología. ^{[ cita necesaria ]} En general, el uso de ontologías cierra las brechas entre datos, aplicaciones, algoritmos y resultados que ocurren debido a discrepancias semánticas. Como resultado, la minería de datos semánticos combinada con la ontología tiene muchas aplicaciones donde la ambigüedad semántica puede afectar la utilidad y eficiencia de los sistemas de datos. ^{[ cita necesaria ]} Las aplicaciones incluyen el campo médico, el procesamiento del lenguaje, la banca ^[8] e incluso la tutoría, ^[9] entre muchas más.

Existen varios puntos fuertes en el uso de un enfoque ontológico y de minería de datos semánticos. Como se mencionó anteriormente, estas herramientas pueden ayudar durante la fase de procesamiento al filtrar datos no deseables del conjunto de datos. Además, una semántica formal bien estructurada integrada en ontologías bien diseñadas puede generar datos potentes que las máquinas pueden leer y procesar fácilmente. ^[10] Un ejemplo específicamente útil de esto existe en el uso médico del procesamiento de datos semánticos. Por ejemplo, un paciente tiene una emergencia médica y lo llevan de urgencia al hospital. Los servicios de emergencia están tratando de encontrar la mejor medicina para administrar y ayudar al paciente. En condiciones normales de procesamiento de datos, examinar todos los datos médicos del paciente para garantizar que esté recibiendo el mejor tratamiento podría llevar demasiado tiempo y poner en riesgo la salud o incluso la vida del paciente. Sin embargo, utilizando ontologías procesadas semánticamente, los socorristas podrían salvar la vida del paciente. Herramientas como un razonador semántico pueden usar la ontología para inferir cuál es la mejor medicina para administrar al paciente en función de su historial médico, como si tiene cierto cáncer u otras afecciones, simplemente examinando el lenguaje natural utilizado en los registros médicos del paciente. . ^[11] Esto permitiría a los socorristas buscar medicamentos de forma rápida y eficiente sin tener que preocuparse por el historial médico del paciente, ya que el razonador semántico ya habría analizado estos datos y encontrado soluciones. En general, esto ilustra la increíble fortaleza del uso de ontologías y minería de datos semánticos. Permiten una extracción de datos más rápida y eficiente por parte del usuario, ya que el usuario tiene menos variables que tener en cuenta, ya que los datos semánticamente preprocesados y la ontología creada para los datos ya han tenido en cuenta muchas de estas variables. Sin embargo, este enfoque tiene algunos inconvenientes. Es decir, requiere una gran cantidad de potencia y complejidad computacional, incluso con conjuntos de datos relativamente pequeños. ^[12] Esto podría resultar en mayores costos y mayores dificultades en la construcción y mantenimiento de sistemas de procesamiento de datos semánticos. Esto se puede mitigar en cierta medida si el conjunto de datos ya está bien organizado y formateado, pero incluso así, la complejidad sigue siendo mayor en comparación con el procesamiento de datos estándar. ^{[ tono ]}

A continuación se muestra un diagrama simple que combina algunos de los procesos, en particular la minería de datos semánticos y su uso en ontología.

El diagrama muestra un conjunto de datos dividido en dos partes: las características de su dominio, o conocimiento del dominio, y luego los datos reales adquiridos. Luego, las características del dominio se procesan para convertirse en conocimiento del dominio comprendido por el usuario y que puede aplicarse a los datos. Mientras tanto, el conjunto de datos se procesa y almacena para que se le pueda aplicar el conocimiento del dominio, de modo que el proceso pueda continuar. Esta aplicación forma la ontología. A partir de ahí, la ontología se puede utilizar para analizar datos y procesar resultados.

El preprocesamiento difuso es otra técnica más avanzada para resolver problemas complejos. El preprocesamiento difuso y la minería de datos difusos utilizan conjuntos difusos . Estos conjuntos de datos se componen de dos elementos: un conjunto y una función de membresía para el conjunto que comprende 0 y 1. El preprocesamiento difuso utiliza este conjunto de datos difusos para vincular valores numéricos con información lingüística. Luego, los datos sin procesar se transforman en lenguaje natural . En última instancia, el objetivo de la minería de datos difusos es ayudar a lidiar con información inexacta, como una base de datos incompleta. Actualmente, el preprocesamiento difuso, así como otras técnicas de minería de datos basadas en difusos, se utilizan frecuentemente con redes neuronales e inteligencia artificial. ^[13]

Referencias

^ "Guía para la limpieza de datos: definición, beneficios, componentes y cómo limpiar sus datos". Cuadro . Consultado el 17 de octubre de 2021 .
^ Pyle, D., 1999. Preparación de datos para minería de datos. Editores Morgan Kaufmann, Los Altos, California .
^ Chicco D (diciembre de 2017). "Diez consejos rápidos para el aprendizaje automático en biología computacional". Minería de biodatos . 10 (35): 35. doi : 10.1186/s13040-017-0155-3 . PMC 5721660 . PMID 29234465.
^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome H. (2009). Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción. Saltador. ISBN 978-0-387-84884-6.
^ Dou, Deijing y Wang, Hao y Liu, Haishan. "Minería de datos semánticos: un estudio de enfoques basados en ontologías" (PDF) . Universidad de Oregon.{{cite web}}: CS1 maint: multiple names: authors list (link)
^ Culmone, Rosario y Falcioni, Marco y Quadrini, Michela (2014). "Un marco basado en ontología para el preprocesamiento de datos semánticos destinado al reconocimiento de la actividad humana ". SEMAPRO 2014: Octava Conferencia Internacional sobre Avances en Procesamiento Semántico. Alexey Cheptsov, Centro de Computación de Alto Rendimiento de Stuttgart (HLRS). S2CID 196091422.{{cite conference}}: CS1 maint: multiple names: authors list (link)
^ David Pérez-Rey y Alberto Anguita y José Crespo (2006). OntoDataClean: integración basada en ontologías y preprocesamiento de datos distribuidos . Análisis de datos biológicos y médicos. Springer Berlín Heidelberg. págs. 262-272. doi :10.1007/11946465_24.
^ Yerashenia, Natalia y Bolotov, Alexander y Chan, David y Pierantoni, Gabriele (2020). "Preprocesamiento de datos semánticos para el modelo computacional de predicción de quiebras basado en aprendizaje automático". 22ª Conferencia del IEEE 2020 sobre informática empresarial (CBI) (PDF) . IEEE. págs. 66–75. doi :10.1109/CBI49978.2020.00015. ISBN 978-1-7281-9926-9. S2CID 219499599.{{cite book}}: CS1 maint: multiple names: authors list (link)
^ Chang, Maiga y D'Aniello, Giuseppe y Gaeta, Matteo y Orciuoli, Franceso y Sampson, Demetrois y Simonelli, Carmine (2020). "Construcción de modelos de tutoría basados en ontologías para sistemas de tutoría inteligentes mediante minería de datos". Acceso IEEE . IEEE. 8 : 48151–48162. Código Bib : 2020IEEEA...848151C. doi : 10.1109/ACCESS.2020.2979281 . S2CID 214594754.{{cite journal}}: CS1 maint: multiple names: authors list (link)
^ Dou, Deijing y Wang, Hao y Liu, Haishan. "Minería de datos semánticos: un estudio de enfoques basados en ontologías" (PDF) . Universidad de Oregon.{{cite web}}: CS1 maint: multiple names: authors list (link)
^ Kahn, Atif y Doucette, John A. y Jin, Changjiu y Fu Lijie y Cohen, Robin. «UN ENFOQUE ONTOLÓGICO A LA MINERÍA DE DATOS PARA MEDICINA DE EMERGENCIA» (PDF) . Universidad de Waterloo.{{cite web}}: CS1 maint: multiple names: authors list (link)
^ Sirichanya, Chanmee y Kraisak Kesorn (2021). "Minería de datos semánticos en la era de la información: una revisión sistemática". Revista Internacional de Sistemas Inteligentes . 36 (8): 3880–3916. doi : 10.1002/int.22443 . S2CID 235506360.
^ Wong, Kok Wai y Fung, Chun Che y Law, Kok Way (2000). "Reglas de preprocesamiento difuso para la mejora de un modelo de interpretación de registros de pozos de una red neuronal artificial". 2000 Procedimientos TENCON. Sistemas y tecnologías inteligentes para el nuevo milenio (Cat. No.00CH37119) . vol. 1. IEEE. págs. 400–405. doi :10.1109/TENCON.2000.893697. ISBN 0-7803-6355-8. S2CID 10384426.{{cite book}}: CS1 maint: multiple names: authors list (link)

enlaces externos

Compendio de procesamiento de datos en línea
Preprocesamiento de datos en minería de datos predictivos. Conocimiento Ing. Reseña 34: e1 (2019)