En la minería de datos, un contenedor es un procedimiento que extrae subcontenido regular de una fuente de información no estructurada o poco estructurada y lo traduce a una forma relacional , de modo que pueda procesarse como datos estructurados. [1] La inducción de contenedores es el problema de diseñar procedimientos de extracción de forma automática, con una dependencia mínima de reglas elaboradas a mano.
Muchas páginas web se generan automáticamente a partir de datos estructurados (guías telefónicas, catálogos de productos, etc.) envueltos en un lenguaje de presentación de estructura flexible (normalmente alguna variante de HTML ), formateado para la navegación y la exploración humanas. Los datos estructurados suelen ser descripciones de objetos recuperados de bases de datos subyacentes y mostrados en páginas web siguiendo plantillas fijas de bajo nivel, inyectadas en páginas donde la estructura de alto nivel puede variar de una semana a otra, según la moda de rápida evolución de la apariencia de presentación del sitio. La línea divisoria precisa entre la apariencia fluida de alto nivel y las plantillas de datos estructurados menos fluidas rara vez se documenta para el consumo público, fuera del equipo de gestión de contenido de la propiedad web. Los sistemas de software que utilizan dichos recursos deben traducir el contenido HTML a una forma relacional. Los envoltorios se utilizan habitualmente como traductores de este tipo. Formalmente, un envoltorio es una función de una página al conjunto de tuplas que contiene.
Existen dos enfoques principales para la generación de contenedores: la inducción de contenedores y la extracción automática de datos . La inducción de contenedores utiliza el aprendizaje supervisado para aprender las reglas de extracción de datos a partir de ejemplos de entrenamiento etiquetados manualmente. Las desventajas de la inducción de contenedores son:
Debido al esfuerzo de etiquetado manual, es difícil extraer datos de una gran cantidad de sitios, ya que cada sitio tiene sus propias plantillas y requiere un etiquetado manual independiente para el aprendizaje de los envoltorios. El mantenimiento de los envoltorios también es un problema importante porque siempre que un sitio cambia, los envoltorios creados para el sitio se vuelven obsoletos. Debido a estas deficiencias, los investigadores han estudiado la generación automática de envoltorios mediante minería de patrones no supervisada. La extracción automática es posible porque la mayoría de los objetos de datos web siguen plantillas fijas. El descubrimiento de dichas plantillas o patrones permite que el sistema realice la extracción automáticamente. [2]
La generación de contenedores en la Web es un problema importante que afecta a una amplia gama de aplicaciones. La extracción de dichos datos permite integrar datos e información de varios sitios Web para proporcionar servicios de valor añadido, por ejemplo, comparación de precios, búsqueda de objetos e integración de información.