Los datos no estructurados (o información no estructurada ) son información que no tiene un modelo de datos predefinido o no está organizada de una manera predefinida. La información no estructurada suele contener mucho texto , pero también puede contener datos como fechas, números y hechos. Esto da como resultado irregularidades y ambigüedades que dificultan la comprensión utilizando programas tradicionales en comparación con los datos almacenados en forma de campo en bases de datos o anotados ( etiquetados semánticamente ) en documentos.
En 1998, Merrill Lynch dijo que "los datos no estructurados comprenden la gran mayoría de los datos que se encuentran en una organización; algunas estimaciones llegan hasta el 80%". [1] No está claro cuál es la fuente de este número, pero, no obstante, algunos lo aceptan. [2] Otras fuentes han informado porcentajes similares o superiores de datos no estructurados. [3] [4] [5]
A partir de 2012 [actualizar], IDC y Dell EMC proyectan que los datos crecerán a 40 zettabytes para 2020, lo que resultará en un crecimiento 50 veces mayor que a principios de 2010. [6] Más recientemente, IDC y Seagate predicen que la esfera de datos global crecerá a 163 zettabytes para 2025 [7] y la mayoría de ellos no estarán estructurados. La revista Computer World afirma que la información no estructurada puede representar más del 70% al 80% de todos los datos de las organizaciones. [1]
Las primeras investigaciones sobre inteligencia empresarial se centraron en datos textuales no estructurados, en lugar de datos numéricos. [8] Ya en 1958, investigadores en informática como HP Luhn estaban particularmente preocupados por la extracción y clasificación de texto no estructurado. [8] Sin embargo, sólo desde principios de siglo la tecnología ha alcanzado el interés de la investigación. En 2004, el Instituto SAS desarrolló SAS Text Miner, que utiliza la descomposición de valores singulares (SVD) para reducir un espacio textual hiperdimensional a dimensiones más pequeñas para un análisis automático significativamente más eficiente. [9] Los avances matemáticos y tecnológicos provocados por el análisis textual automático impulsaron a varias empresas a investigar aplicaciones, lo que llevó al desarrollo de campos como el análisis de sentimientos , la minería de la voz del cliente y la optimización de los centros de llamadas. [10] La aparición de Big Data a finales de la década de 2000 generó un mayor interés en las aplicaciones del análisis de datos no estructurados en campos contemporáneos como el análisis predictivo y el análisis de causa raíz . [11]
El término es impreciso por varias razones:
Técnicas como la minería de datos , el procesamiento del lenguaje natural (PNL) y el análisis de texto proporcionan diferentes métodos para encontrar patrones en esta información o interpretarla de otro modo. Las técnicas comunes para estructurar texto generalmente implican el etiquetado manual con metadatos o el etiquetado de parte del discurso para una estructuración adicional basada en la minería de texto . El estándar de Arquitectura de gestión de información no estructurada (UIMA) proporcionó un marco común para procesar esta información para extraer significado y crear datos estructurados sobre la información.
El software que crea una estructura procesable por máquina puede utilizar la estructura lingüística, auditiva y visual que existe en todas las formas de comunicación humana. [12] Los algoritmos pueden inferir esta estructura inherente del texto, por ejemplo, examinando la morfología de las palabras , la sintaxis de las oraciones y otros patrones a pequeña y gran escala. La información no estructurada puede luego enriquecerse y etiquetarse para abordar ambigüedades y luego utilizarse técnicas basadas en la relevancia para facilitar la búsqueda y el descubrimiento. Ejemplos de "datos no estructurados" pueden incluir libros, revistas, documentos, metadatos , registros médicos , audio , video , datos analógicos , imágenes, archivos y texto no estructurado como el cuerpo de un mensaje de correo electrónico , una página web o un texto no estructurado. documento del procesador . Si bien el contenido principal que se transmite no tiene una estructura definida, generalmente viene empaquetado en objetos (por ejemplo, en archivos o documentos,...) que en sí mismos tienen estructura y, por lo tanto, son una mezcla de datos estructurados y no estructurados, pero en conjunto esto sigue siendo denominados "datos no estructurados". [13] Por ejemplo, una página web HTML está etiquetada, pero el marcado HTML normalmente sirve únicamente para la representación. No captura el significado o la función de los elementos etiquetados de manera que admitan el procesamiento automatizado del contenido de información de la página. El etiquetado XHTML permite el procesamiento automático de elementos, aunque normalmente no captura ni transmite el significado semántico de los términos etiquetados.
Dado que los datos no estructurados suelen aparecer en los documentos electrónicos , a menudo se prefiere el uso de un sistema de gestión de contenidos o documentos que pueda categorizar documentos completos a la transferencia y manipulación de datos desde dentro de los documentos. La gestión de documentos proporciona así los medios para transmitir estructura a las colecciones de documentos .
Los motores de búsqueda se han convertido en herramientas populares para indexar y buscar dichos datos, especialmente texto.
Se han desarrollado flujos de trabajo computacionales específicos para imponer estructura a los datos no estructurados contenidos en los documentos de texto. Estos flujos de trabajo generalmente están diseñados para manejar conjuntos de miles o incluso millones de documentos, o mucho más de lo que pueden permitir los métodos manuales de anotación. Varios de estos enfoques se basan en el concepto de procesamiento analítico en línea, u OLAP , y pueden estar respaldados por modelos de datos como cubos de texto. [14] Una vez que los metadatos del documento están disponibles a través de un modelo de datos, se pueden generar resúmenes de subconjuntos de documentos (es decir, celdas dentro de un cubo de texto) con enfoques basados en frases. [15]
La investigación biomédica genera una fuente importante de datos no estructurados, ya que los investigadores suelen publicar sus hallazgos en revistas académicas. Aunque es difícil derivar elementos estructurales del lenguaje de estos documentos (por ejemplo, debido al complicado vocabulario técnico contenido en ellos y al conocimiento del dominio requerido para contextualizar completamente las observaciones), los resultados de estas actividades pueden generar vínculos entre los estudios técnicos y médicos [16 ] y pistas sobre nuevas terapias para enfermedades. [17] Los esfuerzos recientes para imponer una estructura a los documentos biomédicos incluyen enfoques de mapas autoorganizados para identificar temas entre documentos, [18] algoritmos no supervisados de propósito general , [19] y una aplicación del flujo de trabajo CaseOLAP [15] para determinar asociaciones entre proteínas nombres y temas de enfermedades cardiovasculares en la literatura. [20] CaseOLAP define las relaciones frase-categoría de manera precisa (identifica relaciones), consistente (altamente reproducible) y eficiente. Esta plataforma ofrece accesibilidad mejorada y brinda a la comunidad biomédica herramientas de extracción de frases para aplicaciones de investigación biomédica generalizadas. [20]
En Suecia (UE), antes de 2018, algunas normas de privacidad de datos no se aplicaban si se confirmaba que los datos en cuestión eran "no estructurados". [21] Esta terminología, datos no estructurados, rara vez se utiliza en la UE después de que el RGPD entró en vigor en 2018. El RGPD no menciona ni define "datos no estructurados". Sí utiliza la palabra "estructurado" de la siguiente manera (sin definirla);
Jurisprudencia del RGPD sobre lo que define un "sistema de archivo"; "el criterio específico y la forma específica en que se estructura efectivamente el conjunto de datos personales recogidos por cada uno de los miembros que se dedican a la predicación son irrelevantes, siempre que ese conjunto de datos permita que los datos relativos a una persona específica que ha sido contactado para poder recuperarlo fácilmente , lo que sin embargo corresponde comprobar al tribunal remitente a la luz de todas las circunstancias del litigio principal.» ( TJUE , Todistajat c. Tietosuojavaltuutettu, Jehovan, párrafo 61).
Si los datos personales se recuperan fácilmente, entonces se trata de un sistema de archivo y, entonces, están dentro del alcance del RGPD, independientemente de que estén "estructurados" o "no estructurados". La mayoría de los sistemas electrónicos actuales, [ ¿a partir de? ] sujeto al acceso y al software aplicado, puede permitir una fácil recuperación de datos.