El preprocesamiento de datos puede referirse a la manipulación, filtración o ampliación de datos antes de su análisis [1] y, a menudo, es un paso importante en el proceso de minería de datos . Los métodos de recopilación de datos suelen estar poco controlados, lo que da como resultado valores fuera de rango, combinaciones de datos imposibles y valores faltantes , entre otros problemas.
La secuencia de preprocesamiento utilizada a menudo puede tener grandes efectos en las conclusiones extraídas del análisis posterior. Por lo tanto, la representación y la calidad de los datos son necesarias antes de ejecutar cualquier análisis. [2] A menudo, el preprocesamiento de datos es la fase más importante de un proyecto de aprendizaje automático , especialmente en biología computacional . [3] Si hay una gran proporción de información irrelevante y redundante presente o datos ruidosos y poco confiables, entonces el descubrimiento de conocimiento durante la fase de entrenamiento puede ser más difícil. Los pasos de preparación y filtrado de datos pueden requerir una cantidad considerable de tiempo de procesamiento. Algunos ejemplos de métodos utilizados en el preprocesamiento de datos incluyen limpieza , selección de instancias , normalización , codificación one-hot , transformación de datos , extracción de características y selección de características .
El preprocesamiento de datos permite la eliminación de datos no deseados mediante el uso de la limpieza de datos, lo que permite al usuario tener un conjunto de datos que contenga información más valiosa después de la etapa de preprocesamiento para la manipulación de datos más adelante en el proceso de minería de datos. La edición de dicho conjunto de datos para corregir la corrupción de datos o el error humano es un paso crucial para obtener cuantificadores precisos como verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos que se encuentran en una matriz de confusión que se utilizan comúnmente para un diagnóstico médico. Los usuarios pueden unir archivos de datos y utilizar el preprocesamiento para filtrar cualquier ruido innecesario de los datos, lo que puede permitir una mayor precisión. Los usuarios utilizan scripts de programación de Python acompañados de la biblioteca pandas, que les da la capacidad de importar datos de valores separados por comas como un marco de datos. El marco de datos se utiliza luego para manipular datos que de otro modo podrían resultar difíciles de hacer en Excel. Pandas (software), que es una herramienta poderosa que permite el análisis y la manipulación de datos; lo que hace que las visualizaciones de datos, las operaciones estadísticas y mucho más, sean mucho más fáciles. Muchos también utilizan el lenguaje de programación R para realizar estas tareas.
La razón por la que un usuario transforma archivos existentes en uno nuevo se debe a muchas razones. Los aspectos del preprocesamiento de datos pueden incluir la imputación de valores faltantes, la agregación de cantidades numéricas y la transformación de datos continuos en categorías ( agrupamiento de datos ). [4] Las técnicas más avanzadas, como el análisis de componentes principales y la selección de características , funcionan con fórmulas estadísticas y se aplican a conjuntos de datos complejos que se registran mediante rastreadores GPS y dispositivos de captura de movimiento.
La minería de datos semántica es un subconjunto de la minería de datos que busca específicamente incorporar el conocimiento del dominio , como la semántica formal, en el proceso de minería de datos. El conocimiento del dominio es el conocimiento del entorno en el que se procesaron los datos. El conocimiento del dominio puede tener una influencia positiva en muchos aspectos de la minería de datos, como filtrar datos redundantes o inconsistentes durante la fase de preprocesamiento. [5] El conocimiento del dominio también funciona como restricción. Lo hace trabajando como un conjunto de conocimiento previo para reducir el espacio requerido para la búsqueda y actuando como una guía para los datos. En pocas palabras, el preprocesamiento semántico busca filtrar los datos utilizando el entorno original de dichos datos de manera más correcta y eficiente.
Hay problemas cada vez más complejos que piden ser resueltos por técnicas más elaboradas para analizar mejor la información existente. [ ¿hecho u opinión? ] En lugar de crear un script simple para agregar diferentes valores numéricos en un solo valor, tiene sentido centrarse en el preprocesamiento de datos basado en semántica. [6] La idea es construir una ontología dedicada , que explique en un nivel superior de qué se trata el problema. [7] En lo que respecta a la minería de datos semánticos y el preprocesamiento semántico, las ontologías son una forma de conceptualizar y definir formalmente el conocimiento semántico y los datos. El Protégé (software) es la herramienta estándar para construir una ontología. [ cita requerida ] En general, el uso de ontologías cierra las brechas entre datos, aplicaciones, algoritmos y resultados que ocurren a partir de desajustes semánticos. Como resultado, la minería de datos semánticos combinada con la ontología tiene muchas aplicaciones donde la ambigüedad semántica puede afectar la utilidad y eficiencia de los sistemas de datos. [ cita requerida ] Las aplicaciones incluyen el campo médico, el procesamiento del lenguaje, la banca, [8] e incluso la tutoría, [9] entre muchos más.
El uso de un enfoque basado en ontología y minería de datos semántica tiene varias ventajas. Como se mencionó anteriormente, estas herramientas pueden ayudar durante la fase de procesamiento previo al filtrar los datos no deseados del conjunto de datos. Además, la semántica formal bien estructurada integrada en ontologías bien diseñadas puede generar datos poderosos que las máquinas pueden leer y procesar fácilmente. [10] Un ejemplo especialmente útil de esto existe en el uso médico del procesamiento de datos semánticos. Por ejemplo, un paciente tiene una emergencia médica y es llevado de urgencia al hospital. Los servicios de emergencia están tratando de averiguar cuál es el mejor medicamento para administrarle para ayudar al paciente. Con un procesamiento de datos normal, revisar todos los datos médicos del paciente para asegurarse de que está recibiendo el mejor tratamiento podría llevar demasiado tiempo y poner en riesgo la salud o incluso la vida del paciente. Sin embargo, utilizando ontologías procesadas semánticamente, los primeros en responder podrían salvar la vida del paciente. Herramientas como un razonador semántico pueden usar la ontología para inferir cuál es el mejor medicamento para administrar al paciente en función de su historial médico, como si tiene un cierto cáncer u otras afecciones, simplemente examinando el lenguaje natural utilizado en los registros médicos del paciente. [11] Esto permitiría a los socorristas buscar medicamentos de manera rápida y eficiente sin tener que preocuparse por el historial médico del paciente, ya que el razonador semántico ya habría analizado estos datos y encontrado soluciones. En general, esto ilustra la increíble fortaleza del uso de la minería de datos semánticos y las ontologías. Permiten una extracción de datos más rápida y eficiente en el lado del usuario, ya que el usuario tiene menos variables que tener en cuenta, ya que los datos preprocesados semánticamente y la ontología construida para los datos ya han tenido en cuenta muchas de estas variables. Sin embargo, este enfoque tiene algunas desventajas. Es decir, requiere una gran cantidad de potencia computacional y complejidad, incluso con conjuntos de datos relativamente pequeños. [12] Esto podría resultar en mayores costos y mayores dificultades en la construcción y mantenimiento de sistemas de procesamiento de datos semánticos. Esto se puede mitigar un poco si el conjunto de datos ya está bien organizado y formateado, pero incluso entonces, la complejidad sigue siendo mayor en comparación con el procesamiento de datos estándar. [ tono ]
A continuación se muestra un diagrama simple que combina algunos de los procesos, en particular la minería de datos semánticos y su uso en ontología.
El diagrama muestra un conjunto de datos dividido en dos partes: las características de su dominio, o conocimiento del dominio, y luego los datos adquiridos. Las características del dominio se procesan luego para convertirse en conocimiento del dominio comprendido por el usuario que se puede aplicar a los datos. Mientras tanto, el conjunto de datos se procesa y almacena para que se le pueda aplicar el conocimiento del dominio, de modo que el proceso pueda continuar. Esta aplicación forma la ontología. A partir de allí, la ontología se puede utilizar para analizar los datos y procesar los resultados.
El preprocesamiento difuso es otra técnica más avanzada para resolver problemas complejos. El preprocesamiento difuso y la minería de datos difusos hacen uso de conjuntos difusos . Estos conjuntos de datos se componen de dos elementos: un conjunto y una función de pertenencia para el conjunto que comprende 0 y 1. El preprocesamiento difuso utiliza este conjunto de datos difusos para fundamentar valores numéricos con información lingüística. Los datos sin procesar luego se transforman en lenguaje natural . En última instancia, el objetivo de la minería de datos difusos es ayudar a lidiar con información inexacta, como una base de datos incompleta. Actualmente, el preprocesamiento difuso, así como otras técnicas de minería de datos basadas en datos difusos, se utilizan con frecuencia con redes neuronales e inteligencia artificial. [13]
{{cite web}}
: CS1 maint: multiple names: authors list (link){{cite conference}}
: CS1 maint: multiple names: authors list (link){{cite book}}
: CS1 maint: multiple names: authors list (link){{cite web}}
: CS1 maint: multiple names: authors list (link){{cite web}}
: CS1 maint: multiple names: authors list (link){{cite book}}
: CS1 maint: multiple names: authors list (link)