Extracción de conocimiento

La extracción de conocimiento es la creación de conocimiento a partir de fuentes estructuradas ( bases de datos relacionales , XML ) y no estructuradas ( texto , documentos, imágenes ). El conocimiento resultante debe estar en un formato legible e interpretable por máquina y debe representar el conocimiento de una manera que facilite la inferencia. Aunque es metódicamente similar a la extracción de información ( NLP ) y ETL (almacén de datos), el criterio principal es que el resultado de la extracción va más allá de la creación de información estructurada o la transformación en un esquema relacional . Requiere la reutilización de conocimiento formal existente (reutilización de identificadores u ontologías ) o la generación de un esquema basado en los datos de origen.

El grupo RDB2RDF del W3C ^[1] está estandarizando actualmente un lenguaje para la extracción de marcos de descripción de recursos (RDF) de bases de datos relacionales . Otro ejemplo popular de extracción de conocimiento es la transformación de Wikipedia en datos estructurados y también el mapeo al conocimiento existente (ver DBpedia y Freebase ).

Descripción general

Tras la estandarización de los lenguajes de representación del conocimiento como RDF y OWL , se han llevado a cabo muchas investigaciones en el área, especialmente en lo referente a la transformación de bases de datos relacionales en RDF, resolución de identidades , descubrimiento de conocimiento y aprendizaje de ontologías. El proceso general utiliza métodos tradicionales de extracción de información y extracción, transformación y carga (ETL), que transforman los datos de las fuentes en formatos estructurados.

Los siguientes criterios se pueden utilizar para categorizar los enfoques en este tema (algunos de ellos solo tienen en cuenta la extracción de bases de datos relacionales): ^[2]

Ejemplos

Vinculación de entidades

DBpedia Spotlight , OpenCalais , Dandelion dataTXT, la API Zemanta, Extractiv y PoolParty Extractor analizan texto libre a través del reconocimiento de entidades nombradas y luego desambiguan a los candidatos a través de la resolución de nombres y vinculan las entidades encontradas al repositorio de conocimiento de DBpedia ^[3] (demostración de Dandelion dataTXT o demostración web de DBpedia Spotlight o demostración de PoolParty Extractor).

El presidente Obama pidió el miércoles al Congreso que extienda una exención fiscal para los estudiantes incluida en el paquete de estímulo económico del año pasado, argumentando que la política proporciona una asistencia más generosa.

Como el Presidente Obama está vinculado a un recurso LinkedData de DBpedia , se puede recuperar automáticamente más información y un Razonador Semántico puede, por ejemplo, inferir que la entidad mencionada es del tipo Persona (usando FOAF (software) ) y del tipo Presidentes de los Estados Unidos (usando YAGO ). Contraejemplos: Métodos que solo reconocen entidades o vinculan a artículos de Wikipedia y otros objetivos que no proporcionan una recuperación adicional de datos estructurados y conocimiento formal.

Bases de datos relacionales a RDF

Triplify, D2R Server, Ultrawrap y Virtuoso RDF Views son herramientas que transforman bases de datos relacionales a RDF. Durante este proceso permiten reutilizar vocabularios y ontologías existentes durante el proceso de conversión. Al transformar una tabla relacional típica llamada users , una columna (por ejemplo, name ) o una agregación de columnas (por ejemplo, first_name y last_name ) tiene que proporcionar el URI de la entidad creada. Normalmente se utiliza la clave principal. Cada otra columna se puede extraer como una relación con esta entidad. ^[4] Luego, se utilizan (y reutilizan) propiedades con semántica definida formalmente para interpretar la información. Por ejemplo, una columna en una tabla user llamada marriedTo se puede definir como relación simétrica y una columna homepage se puede convertir en una propiedad del vocabulario FOAF llamada foaf:homepage, calificándola así como una propiedad funcional inversa . Luego, cada entrada de la tabla user se puede convertir en una instancia de la clase foaf:Person (Ontology Population). Además, se podría crear conocimiento de dominio (en forma de ontología) a partir de status_id , ya sea mediante reglas creadas manualmente (si status_id es 2, la entrada pertenece a la clase Teacher) o mediante métodos (semi)automatizados ( aprendizaje de ontología ). A continuación, se muestra un ejemplo de transformación:

 : Peter  : casadoCon  : Mary  .  : casadoCon  un  búho : PropiedadSimétrica  .  : Peter  foaf : página de inicio  <http://example.org/Peters_page>  .  : Peter  a  foaf : Persona  .  : Peter  a  : Estudiante  .  : Claus  a  : Profesor  .

Extracción de fuentes estructuradas a RDF

Asignación 1:1 de tablas/vistas RDB a entidades/atributos/valores RDF

Al crear una representación RDB de un dominio de problemas, el punto de partida suele ser un diagrama de relación de entidades (ERD). Normalmente, cada entidad se representa como una tabla de base de datos, cada atributo de la entidad se convierte en una columna de esa tabla y las relaciones entre entidades se indican mediante claves externas. Cada tabla suele definir una clase particular de entidad y cada columna, uno de sus atributos. Cada fila de la tabla describe una instancia de entidad, identificada de forma única mediante una clave principal. Las filas de la tabla describen colectivamente un conjunto de entidades. En una representación RDF equivalente del mismo conjunto de entidades:

Cada columna de la tabla es un atributo (es decir, un predicado)
Cada valor de columna es un valor de atributo (es decir, objeto)
Cada clave de fila representa un ID de entidad (es decir, sujeto)
Cada fila representa una instancia de entidad
Cada fila (instancia de entidad) está representada en RDF por una colección de triples con un sujeto común (ID de entidad).

Entonces, para representar una vista equivalente basada en la semántica RDF, el algoritmo de mapeo básico sería el siguiente:

crear una clase RDFS para cada tabla
convertir todas las claves primarias y claves externas en IRI
Asignar un predicado IRI a cada columna
asignar un predicado rdf:type para cada fila, vinculándolo a una IRI de clase RDFS correspondiente a la tabla
Para cada columna que no sea parte de una clave primaria o externa, construya un triple que contenga la clave primaria IRI como sujeto, la columna IRI como predicado y el valor de la columna como objeto.

Una mención temprana de este mapeo básico o directo se puede encontrar en la comparación de Tim Berners-Lee del modelo ER con el modelo RDF. ^[4]

Mapeos complejos de bases de datos relacionales a RDF

El mapeo 1:1 mencionado anteriormente expone los datos heredados como RDF de una manera sencilla, se pueden emplear refinamientos adicionales para mejorar la utilidad de la salida RDF respectiva a los Casos de Uso dados. Normalmente, la información se pierde durante la transformación de un diagrama entidad-relación (ERD) a tablas relacionales (los detalles se pueden encontrar en desajuste de impedancia objeto-relacional ) y tiene que ser sometida a ingeniería inversa . Desde un punto de vista conceptual, los enfoques para la extracción pueden provenir de dos direcciones. La primera dirección intenta extraer o aprender un esquema OWL del esquema de base de datos dado. Los primeros enfoques usaban una cantidad fija de reglas de mapeo creadas manualmente para refinar el mapeo 1:1. ^[5]^[6]^[7] Los métodos más elaborados emplean heurísticas o algoritmos de aprendizaje para inducir información esquemática (los métodos se superponen con el aprendizaje de ontología ). Mientras que algunos enfoques intentan extraer la información de la estructura inherente al esquema SQL ^[8] (analizando, por ejemplo, claves externas), otros analizan el contenido y los valores de las tablas para crear jerarquías conceptuales ^[9] (por ejemplo, las columnas con pocos valores son candidatas a convertirse en categorías). La segunda dirección intenta mapear el esquema y su contenido a una ontología de dominio preexistente (ver también: alineación de ontología ). Sin embargo, a menudo no existe una ontología de dominio adecuada y debe crearse primero.

XML

Como XML está estructurado como un árbol, cualquier dato puede representarse fácilmente en RDF, que está estructurado como un gráfico. XML2RDF es un ejemplo de un enfoque que utiliza nodos en blanco de RDF y transforma elementos y atributos XML en propiedades de RDF. Sin embargo, el tema es más complejo, como en el caso de las bases de datos relacionales. En una tabla relacional, la clave principal es una candidata ideal para convertirse en el sujeto de los triples extraídos. Sin embargo, un elemento XML puede transformarse, según el contexto, en un sujeto, un predicado o un objeto de un triple. XSLT se puede utilizar como un lenguaje de transformación estándar para convertir manualmente XML a RDF.

Estudio de métodos/herramientas

Extracción de fuentes de lenguaje natural

La mayor parte de la información contenida en los documentos comerciales (aproximadamente el 80% ^[10] ) está codificada en lenguaje natural y, por lo tanto, no está estructurada. Dado que los datos no estructurados son un desafío para la extracción de conocimiento, se requieren métodos más sofisticados, que generalmente tienden a proporcionar peores resultados en comparación con los datos estructurados. Sin embargo, el potencial para una adquisición masiva de conocimiento extraído debería compensar la mayor complejidad y la menor calidad de la extracción. En lo sucesivo, las fuentes de lenguaje natural se entienden como fuentes de información, donde los datos se proporcionan de forma no estructurada como texto simple. Si el texto proporcionado está además incrustado en un documento de marcado (por ejemplo, un documento HTML), los sistemas mencionados normalmente eliminan los elementos de marcado automáticamente.

Anotación lingüística / procesamiento del lenguaje natural (PLN)

Como paso previo al procesamiento de la extracción de conocimiento, puede ser necesario realizar anotaciones lingüísticas mediante una o varias herramientas de procesamiento del lenguaje natural . Los módulos individuales de un flujo de trabajo de procesamiento del lenguaje natural normalmente se basan en formatos específicos de la herramienta para la entrada y la salida, pero en el contexto de la extracción de conocimiento, se han aplicado formatos estructurados para representar anotaciones lingüísticas.

Las tareas típicas de PNL relevantes para la extracción de conocimiento incluyen:

etiquetado de partes del discurso (POS)
lematización (LEMMA) o derivación (STEM)
Desambiguación del sentido de las palabras (WSD, relacionada con la anotación semántica a continuación)
Reconocimiento de entidad nombrada (NER, ver también IE a continuación)
Análisis sintáctico, que a menudo adopta dependencias sintácticas (DEP)
Análisis sintáctico superficial (CHUNK): si el rendimiento es un problema, la fragmentación produce una extracción rápida de frases nominales y de otro tipo
Resolución de anáforas (ver resolución de correferencia en IE a continuación, pero vista aquí como la tarea de crear vínculos entre menciones textuales en lugar de entre la mención de una entidad y una representación abstracta de la entidad)
etiquetado de roles semánticos (SRL, relacionado con la extracción de relaciones; no debe confundirse con la anotación semántica como se describe a continuación)
Análisis del discurso (relaciones entre diferentes oraciones, rara vez utilizadas en aplicaciones del mundo real)

En el procesamiento del lenguaje natural, estos datos se representan normalmente en formatos TSV (formatos CSV con tabulaciones como separadores), a menudo denominados formatos CoNLL. Para los flujos de trabajo de extracción de conocimiento, se han creado vistas RDF de estos datos de acuerdo con los siguientes estándares comunitarios:

Formato de intercambio de NLP (NIF, para muchos tipos frecuentes de anotación) ^[11]^[12]
Anotación web (WA, a menudo utilizada para vincular entidades) ^[13]
CoNLL-RDF (para anotaciones representadas originalmente en formatos TSV) ^[14]^[15]

Otros formatos específicos de la plataforma incluyen

Formato de intercambio LAPPS (LIF, utilizado en la red LAPPS) ^[16]^[17]
Formato de anotación NLP (NAF, utilizado en el sistema de gestión de flujo de trabajo NewsReader) ^[18]^[19]

Extracción de información tradicional (IE)

La extracción de información tradicional ^[20] es una tecnología de procesamiento del lenguaje natural que extrae información de textos en lenguaje natural y la estructura de forma adecuada. Los tipos de información que se van a identificar deben especificarse en un modelo antes de comenzar el proceso, por lo que todo el proceso de extracción de información tradicional depende del dominio. La extracción de información tradicional se divide en las siguientes cinco subtareas.

Reconocimiento de entidad nombrada (NER)
Resolución de correferencia (CO)
Construcción de elementos de plantilla (TE)
Construcción de relaciones de plantilla (TR)
Producción de escenarios de plantillas (ST)

La tarea del reconocimiento de entidades con nombre es reconocer y categorizar todas las entidades con nombre contenidas en un texto (asignación de una entidad con nombre a una categoría predefinida). Esto funciona mediante la aplicación de métodos basados en gramática o modelos estadísticos.

La resolución de correferencia identifica entidades equivalentes, reconocidas por NER, dentro de un texto. Existen dos tipos relevantes de relación de equivalencia. La primera se relaciona con la relación entre dos entidades representadas de forma diferente (por ejemplo, IBM Europe e IBM) y la segunda con la relación entre una entidad y sus referencias anafóricas (por ejemplo, it e IBM). Ambos tipos se pueden reconocer mediante la resolución de correferencia.

Durante la construcción de elementos de plantilla, el sistema IE identifica propiedades descriptivas de entidades, reconocidas por NER y CO. Estas propiedades corresponden a cualidades ordinarias como rojo o grande.

La construcción de relaciones de plantilla identifica las relaciones que existen entre los elementos de la plantilla. Estas relaciones pueden ser de varios tipos, como por ejemplo, relaciones para las que se trabaja o relaciones en las que se encuentra, con la restricción de que tanto el dominio como el rango corresponden a entidades.

En el escenario de plantilla, los eventos de producción, que se describen en el texto, se identificarán y estructurarán con respecto a las entidades, reconocidas por NER y CO y las relaciones, identificadas por TR.

Extracción de información basada en ontología (OBIE)

La extracción de información basada en ontologías ^[10] es un subcampo de la extracción de información, en el que se utiliza al menos una ontología para guiar el proceso de extracción de información de un texto en lenguaje natural. El sistema OBIE utiliza métodos de extracción de información tradicionales para identificar conceptos , instancias y relaciones de las ontologías utilizadas en el texto, que se estructurarán en una ontología después del proceso. De este modo, las ontologías de entrada constituyen el modelo de información a extraer. ^[21]

Aprendizaje de ontología (OL)

El aprendizaje de ontologías es la creación automática o semiautomática de ontologías, incluida la extracción de los términos del dominio correspondiente a partir de un texto en lenguaje natural. Como la creación manual de ontologías es extremadamente laboriosa y lleva mucho tiempo, existe una gran motivación para automatizar el proceso.

Anotación semántica (SA)

Durante la anotación semántica, ^[22] el texto en lenguaje natural se amplía con metadatos (a menudo representados en RDFa ), que deberían hacer que la semántica de los términos contenidos sea comprensible para las máquinas. En este proceso, que generalmente es semiautomático, se extrae conocimiento en el sentido de que se establece un vínculo entre los términos léxicos y, por ejemplo, los conceptos de las ontologías. De este modo, se obtiene conocimiento sobre qué significado se pretendía dar a un término en el contexto procesado y, por lo tanto, el significado del texto se basa en datos legibles por máquina con la capacidad de extraer inferencias. La anotación semántica normalmente se divide en las dos subtareas siguientes.

En el nivel de extracción de terminología se extraen los términos léxicos del texto. Para ello, un tokenizador determina en primer lugar los límites de las palabras y resuelve las abreviaturas. A continuación, se extraen del texto los términos que corresponden a un concepto con la ayuda de un léxico específico del dominio para vincularlos en el enlace de entidades.

En la vinculación de entidades ^[23] se establece un vínculo entre los términos léxicos extraídos del texto fuente y los conceptos de una ontología o base de conocimiento como DBpedia . Para ello, se detectan los conceptos candidatos de forma apropiada a los diversos significados de un término con la ayuda de un léxico. Finalmente, se analiza el contexto de los términos para determinar la desambiguación más adecuada y asignar el término al concepto correcto.

Tenga en cuenta que la "anotación semántica" en el contexto de la extracción de conocimiento no debe confundirse con el análisis semántico tal como se entiende en el procesamiento del lenguaje natural (también conocido como "anotación semántica"): el análisis semántico tiene como objetivo una representación completa y legible por máquina del lenguaje natural, mientras que la anotación semántica en el sentido de extracción de conocimiento aborda solo un aspecto muy elemental de ese.

Herramientas

Los siguientes criterios se pueden utilizar para categorizar las herramientas que extraen conocimiento del texto en lenguaje natural.

La siguiente tabla caracteriza algunas herramientas para la extracción de conocimiento de fuentes de lenguaje natural.

Descubrimiento de conocimiento

El descubrimiento de conocimiento describe el proceso de búsqueda automática de grandes volúmenes de datos para encontrar patrones que puedan considerarse como conocimiento sobre los datos. ^[44] A menudo se lo describe como la obtención de conocimiento a partir de los datos de entrada. El descubrimiento de conocimiento surgió del dominio de la minería de datos y está estrechamente relacionado con él tanto en términos de metodología como de terminología. ^[45]

La rama más conocida de la minería de datos es el descubrimiento de conocimiento, también conocido como descubrimiento de conocimiento en bases de datos (KDD). Al igual que muchas otras formas de descubrimiento de conocimiento, crea abstracciones de los datos de entrada. El conocimiento obtenido a través del proceso puede convertirse en datos adicionales que se pueden utilizar para un mayor uso y descubrimiento. A menudo, los resultados del descubrimiento de conocimiento no son procesables; el descubrimiento de conocimiento procesable , también conocido como minería de datos impulsada por dominios , ^[46] tiene como objetivo descubrir y entregar conocimiento y perspectivas procesables.

Otra aplicación prometedora del descubrimiento de conocimiento se encuentra en el área de modernización de software , descubrimiento de debilidades y cumplimiento, lo que implica comprender los artefactos de software existentes. Este proceso está relacionado con un concepto de ingeniería inversa . Por lo general, el conocimiento obtenido del software existente se presenta en forma de modelos a los que se pueden realizar consultas específicas cuando sea necesario. Una relación de entidad es un formato frecuente de representación del conocimiento obtenido del software existente. Object Management Group (OMG) desarrolló la especificación Knowledge Discovery Metamodel (KDM) que define una ontología para los activos de software y sus relaciones con el fin de realizar el descubrimiento de conocimiento en el código existente. El descubrimiento de conocimiento de los sistemas de software existentes, también conocido como minería de software , está estrechamente relacionado con la minería de datos , ya que los artefactos de software existentes contienen un enorme valor para la gestión de riesgos y el valor comercial , clave para la evaluación y evolución de los sistemas de software. En lugar de extraer conjuntos de datos individuales , la minería de software se centra en los metadatos , como los flujos de procesos (por ejemplo, flujos de datos, flujos de control y mapas de llamadas), la arquitectura, los esquemas de bases de datos y las reglas/términos/procesos comerciales.

Datos de entrada

Formatos de salida

Véase también

Lectura adicional

Chicco, D; Masseroli, M (2016). "Predicción y priorización de anotaciones funcionales de genes basada en ontología". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 13 (2): 248–260. doi :10.1109/TCBB.2015.2459694. PMID 27045825. S2CID 2795344.

Referencias

^ Grupo de trabajo RDB2RDF, sitio web: http://www.w3.org/2001/sw/rdb2rdf/, estatuto: http://www.w3.org/2009/08/rdb2rdf-charter, R2RML: lenguaje de mapeo de RDB a RDF: http://www.w3.org/TR/r2rml/
^ LOD2 EU Deliverable 3.1.1 Extracción de conocimiento de fuentes estructuradas http://static.lod2.eu/Deliverables/deliverable-3.1.1.pdf Archivado el 27 de agosto de 2011 en Wayback Machine
^ "La vida en la nube de datos enlazados". www.opencalais.com. Archivado desde el original el 24 de noviembre de 2009. Consultado el 10 de noviembre de 2009. Wikipedia tiene un gemelo de datos enlazados llamado DBpedia. DBpedia tiene la misma información estructurada que Wikipedia, pero traducida a un formato legible por máquina.
^ por Tim Berners-Lee (1998), "Bases de datos relacionales en la Web semántica". Consultado el 20 de febrero de 2011.
^ Hu et al. (2007), "Descubrimiento de asignaciones simples entre esquemas de bases de datos relacionales y ontologías", en Proc. de la 6.ª Conferencia Internacional de Web Semántica (ISWC 2007), 2.ª Conferencia Asiática de Web Semántica (ASWC 2007), LNCS 4825, páginas 225-238, Busan, Corea, 11-15 de noviembre de 2007. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.97.6934&rep=rep1&type=pdf
^ R. Ghawi y N. Cullot (2007), "Generación de mapeo de base de datos a ontología para interoperabilidad semántica". En el Tercer Taller Internacional sobre Interoperabilidad de Bases de Datos (InterDB 2007). http://le2i.cnrs.fr/IMG/publications/InterDB07-Ghawi.pdf
^ Li et al. (2005) "Un método de adquisición de ontología semiautomático para la Web semántica", WAIM, volumen 3739 de Lecture Notes in Computer Science, páginas 209-220. Springer. doi :10.1007/11563952_19
^ Tirmizi et al. (2008), "Traducción de aplicaciones SQL a la Web semántica", Lecture Notes in Computer Science, Volumen 5181/2008 (Aplicaciones de bases de datos y sistemas expertos). http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=15E8AB2A37BD06DAE59255A1AC3095F0?doi=10.1.1.140.3169&rep=rep1&type=pdf
^ Farid Cerbah (2008). "Aprendizaje de repositorios semánticos altamente estructurados a partir de bases de datos relacionales", La web semántica: investigación y aplicaciones, volumen 5021 de Lecture Notes in Computer Science, Springer, Berlín/Heidelberg http://www.tao-project.eu/resources/publications/cerbah-learning-highly-structured-semantic-repositories-from-relational-databases.pdf Archivado el 20 de julio de 2011 en Wayback Machine.
^ ab Wimalasuriya, Daya C.; Dou, Dejing (2010). "Extracción de información basada en ontología: una introducción y un estudio de los enfoques actuales", Journal of Information Science , 36(3), pág. 306 - 323, http://ix.cs.uoregon.edu/~dou/research/papers/jis09.pdf (consultado: 18.06.2012).
^ "Formato de intercambio NLP (NIF) 2.0: descripción general y documentación". persistence.uni-leipzig.org . Consultado el 5 de junio de 2020 .
^ Hellmann, Sebastian; Lehmann, Jens; Auer, Sören; Brümmer, Martin (2013). "Integración de PNL mediante datos vinculados". En Alani, Harith; Kagal, Lalana; Fokoue, Achille; Groth, Paul; Biemann, Chris; Parreira, Josiane Xavier; Aroyo, Lora; Noy, Natasha; Welty, Chris (eds.). La Web semántica – ISWC 2013. Apuntes de clase en informática. Vol. 7908. Berlín, Heidelberg: Springer. págs. 98–113. doi : 10.1007/978-3-642-41338-4_7 . ISBN . 978-3-642-41338-4.
^ Verspoor, Karin; Livingston, Kevin (julio de 2012). "Hacia la adaptación de las anotaciones lingüísticas a los formalismos de anotación académica en la Web semántica". Actas del sexto taller de anotación lingüística . Jeju, República de Corea: Asociación de Lingüística Computacional: 75–84.
^ acoli-repo/conll-rdf, ACoLi, 27 de mayo de 2020 , consultado el 5 de junio de 2020
^ Chiarcos, Christian; Fäth, Christian (2017). "CoNLL-RDF: corpus enlazados realizados de una manera amigable con el procesamiento del lenguaje natural". En Gracia, Jorge; Bond, Francis; McCrae, John P.; Buitelaar, Paul; Chiarcos, Christian; Hellmann, Sebastian (eds.). Lenguaje, datos y conocimiento . Apuntes de clase en informática. Vol. 10318. Cham: Springer International Publishing. págs. 74–88. doi :10.1007/978-3-319-59888-8_6. ISBN 978-3-319-59888-8.
^ Verhagen, Marc; Suderman, Keith; Wang, Di; Ide, Nancy; Shi, Chunqi; Wright, Jonathan; Pustejovsky, James (2016). "El formato de intercambio LAPPS". En Murakami, Yohei; Lin, Donghui (eds.). Infraestructura mundial de servicios lingüísticos . Apuntes de clase en informática. Vol. 9442. Cham: Springer International Publishing. págs. 33–47. doi :10.1007/978-3-319-31468-6_3. ISBN 978-3-319-31468-6.
^ "The Language Application Grid | Una plataforma de servicios web para el desarrollo y la investigación del procesamiento del lenguaje natural" . Consultado el 5 de junio de 2020 .
^ newsreader/NAF, NewsReader, 25 de mayo de 2020 , consultado el 5 de junio de 2020
^ Vossen, Piek; Agerri, Rodrigo; Aldabe, Itziar; Cybulska, Agata; van Erp, Marieke; Fokkens, Antske; Laparra, Egoitz; Minard, Anne-Lyse; Palmero Aprosio, Alessio; Rigau, German; Rospocher, Marco (15 de octubre de 2016). "NewsReader: uso de recursos de conocimiento en una máquina de lectura multilingüe para generar más conocimiento a partir de flujos masivos de noticias". Knowledge-Based Systems . 110 : 60–85. doi : 10.1016/j.knosys.2016.07.013 . ISSN 0950-7051.
^ Cunningham, Hamish (2005). "Extracción automática de información", Enciclopedia de la lengua y la lingüística , 2, pág. 665-677, http://gate.ac.uk/sale/ell2/ie/main.pdf (consultado el 18 de junio de 2012).
^ Chicco, D; Masseroli, M (2016). "Predicción y priorización de anotaciones funcionales de genes basada en ontología". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 13 (2): 248–260. doi :10.1109/TCBB.2015.2459694. PMID 27045825. S2CID 2795344.
^ Erdmann, M.; Maedche, Alexander; Schnurr, H.-P.; Staab, Steffen (2000). "De la anotación semántica manual a la semiautomática: acerca de las herramientas de anotación de texto basadas en ontologías", Actas del COLING , http://www.ida.liu.se/ext/epa/cis/2001/002/paper.pdf (consultado: 18.06.2012).
^ Rao, Delip; McNamee, Paul; Dredze, Mark (2011). "Enlace de entidades: búsqueda de entidades extraídas en una base de conocimiento", Extracción y resumen de información multilingüe y de múltiples fuentes , http://www.cs.jhu.edu/~delip/entity-linking.pdf ^{[ enlace muerto permanente ]} (consultado: 18.06.2012).
^ Rocket Software, Inc. (2012). "Tecnología para extraer inteligencia del texto", http://www.rocketsoftware.com/products/aerotext Archivado el 21 de junio de 2013 en Wayback Machine . (consultado el 18 de junio de 2012).
^ Orchestr8 (2012): "AlchemyAPI Overview", http://www.alchemyapi.com/api Archivado el 13 de mayo de 2016 en Wayback Machine . (consultado: 18.06.2012).
^ Universidad de Sheffield (2011). "ANNIE: un sistema de extracción de información casi nuevo", http://gate.ac.uk/sale/tao/splitch6.html#chap:annie (consultado el 18 de junio de 2012).
^ Red de Excelencia ILP. "ASIUM (LRI)", http://www-ai.ijs.si/~ilpnet2/systems/asium.html (consultado: 18.06.2012).
^ Attensity (2012). "Extracción exhaustiva", http://www.attensity.com/products/technology/semantic-server/exhaustive-extraction/ Archivado el 11 de julio de 2012 en Wayback Machine (consultado el 18 de junio de 2012).
^ Mendes, Pablo N.; Jakob, Max; Garcia-Sílva, Andrés; Bizer; Christian (2011). "DBpedia Spotlight: Shedding Light on the Web of Documents", Actas de la 7ª Conferencia Internacional sobre Sistemas Semánticos , págs. 1 - 8, http://www.wiwiss.fu-berlin.de/en/institute/pwo/bizer/research/publications/Mendes-Jakob-GarciaSilva-Bizer-DBpediaSpotlight-ISEM2011.pdf Archivado el 5 de abril de 2012 en Wayback Machine (consultado el 18 de junio de 2012).
^ Gangemi, Aldo; Presutti, Valentina; Reforgiato Recupero, Diego; Nuzzolese, Andrea Giovanni; Draicchio, Francesco; Mongiovì, Misael (2016). "Lectura automática de web semántica con FRED", Semantic Web Journal , doi :10.3233/SW-160240, http://www.semantic-web-journal.net/system/files/swj1379.pdf
^ Adrian, Benjamin; Maus, Heiko; Dengel, Andreas (2009). "iDocument: uso de ontologías para extraer información de texto", http://www.dfki.uni-kl.de/~maus/dok/AdrianMausDengel09.pdf (consultado: 18.06.2012).
^ SRA International, Inc. (2012). "NetOwl Extractor", http://www.sra.com/netowl/entity-extraction/ Archivado el 24 de septiembre de 2012 en Wayback Machine (consultado el 18 de junio de 2012).
^ Fortuna, Blaz; Grobelnik, Marko; Mladenic, Dunja (2007). "OntoGen: editor de ontología semiautomático", Actas de la conferencia de 2007 sobre interfaz humana, Parte 2 , págs. 309-318, http://analytics.ijs.si/~blazf/papers/OntoGen2_HCII2007.pdf (consultado el 18 de junio de 2012).
^ Missikoff, Michele; Navigli, Roberto; Velardi, Paola (2002). "Enfoque integrado para el aprendizaje y la ingeniería de ontologías web", Computer , 35(11), pág. 60 - 63, http://wwwusers.di.uniroma1.it/~velardi/IEEE_C.pdf (consultado: 18.06.2012).
^ McDowell, Luke K.; Cafarella, Michael (2006). "Extracción de información basada en ontología con OntoSyphon", Actas de la quinta conferencia internacional sobre la Web semántica , págs. 428-444, http://turing.cs.washington.edu/papers/iswc2006McDowell-final.pdf (consultado el 18 de junio de 2012).
^ Yildiz, Burcu; Miksch, Silvia (2007). "ontoX - Un método para la extracción de información basada en ontologías", Actas de la conferencia internacional de 2007 sobre ciencia computacional y sus aplicaciones , 3, pág. 660 - 673, http://publik.tuwien.ac.at/files/pub-inf_4769.pdf (consultado: 18.06.2012).
^ semanticweb.org (2011). "PoolParty Extractor", http://semanticweb.org/wiki/Knowledge_extraction/PoolParty_Extractor Archivado el 4 de marzo de 2016 en Wayback Machine (consultado el 18 de junio de 2012).
^ Dill, Stephen; Eiron, Nadav; Gibson, David; Gruhl, Daniel; Guha, R.; Jhingran, Anant; Kanungo, Tapas; Rajagopalan, Sridhar; Tomkins, Andrew; Tomlin, John A.; Zien, Jason Y. (2003). "SemTag y Seeker: Arranque de la Web semántica mediante anotación semántica automatizada", Actas de la 12.ª conferencia internacional sobre la World Wide Web , págs. 178-186, http://www2003.org/cdrom/papers/refereed/p831/p831-dill.html (consultado: 18.06.2012).
^ Uren, Victoria; Cimiano, Philipp; Iria, José; Handschuh, Siegfried; Vargas-Vera, Maria; Motta, Enrico; Ciravegna, Fabio (2006). "Anotación semántica para la gestión del conocimiento: requisitos y un estudio del estado del arte", Web Semantics: Science, Services and Agents on the World Wide Web , 4(1), p. 14 - 28, http://staffwww.dcs.shef.ac.uk/people/J.Iria/iria_jws06.pdf ^{[ enlace muerto permanente ]} , (consultado: 18.06.2012).
^ Cimiano, Philipp; Völker, Johanna (2005). "Text2Onto - Un marco para el aprendizaje de ontologías y el descubrimiento de cambios basado en datos", Actas de la 10.ª Conferencia internacional sobre aplicaciones del lenguaje natural a los sistemas de información , 3513, pág. 227-238, http://www.cimiano.de/Publications/2005/nldb05/nldb05.pdf (consultado el 18 de junio de 2012).
^ Maedche, Alexander; Volz, Raphael (2001). "El marco de trabajo de extracción y mantenimiento de ontología Text-To-Onto", Actas de la Conferencia Internacional IEEE sobre Minería de Datos , http://users.csc.calpoly.edu/~fkurfess/Events/DM-KM-01/Volz.pdf (consultado: 18.06.2012).
^ Machine Linking. "Nos conectamos a la nube de Linked Open Data", http://thewikimachine.fbk.eu/html/index.html Archivado el 19 de julio de 2012 en Wayback Machine (consultado el 18 de junio de 2012).
^ Inxight Federal Systems (2008). "Inxight ThingFinder y ThingFinder Professional", http://inxightfedsys.com/products/sdks/tf/ Archivado el 29 de junio de 2012 en Wayback Machine (consultado el 18 de junio de 2012).
^ Frawley William F. et al. (1992), "Knowledge Discovery in Databases: An Overview", AI Magazine (Vol 13, No 3), 57-70 (versión completa en línea: http://www.aaai.org/ojs/index.php/aimagazine/article/viewArticle/1011 Archivado el 4 de marzo de 2016 en Wayback Machine )
^ Fayyad U. et al. (1996), "From Data Mining to Knowledge Discovery in Databases", AI Magazine (Vol 17, No 3), 37-54 (versión completa en línea: http://www.aaai.org/ojs/index.php/aimagazine/article/viewArticle/1230 Archivado el 4 de mayo de 2016 en Wayback Machine.
^ Cao, L. (2010). "Minería de datos impulsada por dominios: desafíos y perspectivas". IEEE Transactions on Knowledge and Data Engineering . 22 (6): 755–769. CiteSeerX 10.1.1.190.8427 . doi :10.1109/tkde.2010.32. S2CID 17904603.