Extracción de conocimiento

La extracción de conocimiento es la creación de conocimiento a partir de fuentes estructuradas ( bases de datos relacionales , XML ) y no estructuradas ( texto , documentos, imágenes ). El conocimiento resultante debe estar en un formato legible e interpretable por máquina y debe representar el conocimiento de una manera que facilite la inferencia. Aunque es metódicamente similar a la extracción de información ( NLP ) y ETL (data warehouse), el criterio principal es que el resultado de la extracción vaya más allá de la creación de información estructurada o la transformación en un esquema relacional . Requiere la reutilización del conocimiento formal existente (reutilización de identificadores u ontologías ) o la generación de un esquema basado en los datos fuente.

El grupo RDB2RDF W3C ^[1] está actualmente estandarizando un lenguaje para la extracción de marcos de descripción de recursos (RDF) de bases de datos relacionales . Otro ejemplo popular de extracción de conocimiento es la transformación de Wikipedia en datos estructurados y también el mapeo del conocimiento existente (ver DBpedia y Freebase ).

Descripción general

Después de la estandarización de los lenguajes de representación del conocimiento como RDF y OWL , se han realizado muchas investigaciones en el área, especialmente en relación con la transformación de bases de datos relacionales en RDF, la resolución de identidades , el descubrimiento de conocimientos y el aprendizaje de ontologías. El proceso general utiliza métodos tradicionales de extracción y extracción, transformación y carga de información (ETL), que transforman los datos de las fuentes a formatos estructurados.

Se pueden utilizar los siguientes criterios para categorizar los enfoques en este tema (algunos de ellos solo tienen en cuenta la extracción de bases de datos relacionales): ^[2]

Ejemplos

Vinculación de entidades

DBpedia Spotlight , OpenCalais , Dandelion dataTXT, Zemanta API, Extractiv y PoolParty Extractor analizan el texto libre mediante el reconocimiento de entidades nombradas y luego eliminan la ambigüedad de los candidatos mediante la resolución de nombres y vinculan las entidades encontradas al repositorio de conocimientos de DBpedia ^[3] (demostración de Dandelion dataTXT o DBpedia Demostración web de Spotlight o demostración de PoolParty Extractor).

El presidente Obama pidió el miércoles al Congreso que extienda una exención fiscal para los estudiantes incluida en el paquete de estímulo económico del año pasado, argumentando que la política proporciona una asistencia más generosa.

Como el presidente Obama está vinculado a un recurso de DBpedia LinkedData , se puede recuperar más información automáticamente y un razonador semántico puede, por ejemplo, inferir que la entidad mencionada es del tipo Persona (usando FOAF (software) ) y del tipo Presidentes de los Estados Unidos ( usando YAGO ). Contraejemplos: métodos que solo reconocen entidades o enlazan a artículos de Wikipedia y otros objetivos que no proporcionan una mayor recuperación de datos estructurados y conocimiento formal.

Bases de datos relacionales a RDF

Triplify, D2R Server, Ultrawrap y Virtuoso RDF Views son herramientas que transforman bases de datos relacionales a RDF. Durante este proceso permiten reutilizar vocabularios y ontologías existentes durante el proceso de conversión. Al transformar una tabla relacional típica denominada usuarios , una columna (por ejemplo, nombre ) o una agregación de columnas (por ejemplo , nombre y apellido ) debe proporcionar el URI de la entidad creada. Normalmente se utiliza la clave principal. Cualquier otra columna se puede extraer como una relación con esta entidad. ^[4] Luego, las propiedades con semántica definida formalmente se utilizan (y reutilizan) para interpretar la información. Por ejemplo, una columna en una tabla de usuario llamada casadoTo se puede definir como una relación simétrica y una página de inicio de columna se puede convertir en una propiedad del vocabulario FOAF llamada foaf:página de inicio, calificándola así como una propiedad funcional inversa . Luego, cada entrada de la tabla de usuarios se puede convertir en una instancia de la clase foaf:Persona (población de ontología). Además, se podría crear conocimiento de dominio (en forma de ontología) a partir de status_id , ya sea mediante reglas creadas manualmente (si status_id es 2, la entrada pertenece a la clase Profesor) o mediante métodos (semi) automatizados ( aprendizaje de ontología ). A continuación se muestra un ejemplo de transformación:

 : Pedro  : casado Con  : María  .  : casado con  un  búho : SymmetricProperty  .  : Peter  foaf : página de inicio  <http://example.org/Peters_page>  .  : Peter  un  foaf : Persona  .  : Peter  a  : Estudiante  .  : Claus  a  : Maestro  .

Extracción de fuentes estructuradas a RDF

Mapeo 1:1 de tablas/vistas RDB a entidades/atributos/valores RDF

Al construir una representación RDB de un dominio de problema, el punto de partida suele ser un diagrama entidad-relación (ERD). Normalmente, cada entidad se representa como una tabla de base de datos, cada atributo de la entidad se convierte en una columna de esa tabla y las relaciones entre entidades se indican mediante claves externas. Cada tabla normalmente define una clase particular de entidad, cada columna uno de sus atributos. Cada fila de la tabla describe una instancia de entidad, identificada de forma única mediante una clave principal. Las filas de la tabla describen colectivamente un conjunto de entidades. En una representación RDF equivalente del mismo conjunto de entidades:

Cada columna de la tabla es un atributo (es decir, un predicado)
Cada valor de columna es un valor de atributo (es decir, objeto)
Cada clave de fila representa un ID de entidad (es decir, asunto)
Cada fila representa una instancia de entidad
Cada fila (instancia de entidad) está representada en RDF por una colección de tripletas con un asunto común (ID de entidad).

Entonces, para representar una vista equivalente basada en la semántica RDF, el algoritmo de mapeo básico sería el siguiente:

crear una clase RDFS para cada tabla
convertir todas las claves primarias y externas en IRI
asignar un predicado IRI a cada columna
asigne un predicado rdf:type para cada fila, vinculándolo a un IRI de clase RDFS correspondiente a la tabla
para cada columna que no sea parte de una clave primaria o externa, construya un triple que contenga la clave primaria IRI como sujeto, la columna IRI como predicado y el valor de la columna como objeto.

Las primeras menciones de este mapeo básico o directo se pueden encontrar en la comparación de Tim Berners-Lee del modelo ER con el modelo RDF. ^[4]

Mapeos complejos de bases de datos relacionales a RDF

El mapeo 1:1 mencionado anteriormente expone los datos heredados como RDF de una manera sencilla; se pueden emplear mejoras adicionales para mejorar la utilidad de la salida RDF respectiva a los casos de uso dados. Normalmente, la información se pierde durante la transformación de un diagrama entidad-relación (ERD) en tablas relacionales (se pueden encontrar detalles en Discrepancia de impedancia relacional entre objetos ) y se debe aplicar ingeniería inversa . Desde una visión conceptual, los enfoques para la extracción pueden provenir de dos direcciones. La primera dirección intenta extraer o aprender un esquema OWL del esquema de base de datos dado. Los primeros enfoques utilizaban una cantidad fija de reglas de mapeo creadas manualmente para refinar el mapeo 1:1. ^[5]^[6]^[7] Los métodos más elaborados emplean heurísticas o algoritmos de aprendizaje para inducir información esquemática (los métodos se superponen con el aprendizaje de ontología ). Mientras que algunos enfoques intentan extraer la información de la estructura inherente al esquema SQL ^[8] (analizando, por ejemplo, claves externas), otros analizan el contenido y los valores de las tablas para crear jerarquías conceptuales ^[9] (por ejemplo, columnas con pocos valores). son candidatos a convertirse en categorías). La segunda dirección intenta mapear el esquema y su contenido a una ontología de dominio preexistente (ver también: alineación de ontologías ). Sin embargo, a menudo no existe una ontología de dominio adecuada y primero debe crearse.

XML

Como XML está estructurado en forma de árbol, cualquier dato se puede representar fácilmente en RDF, que está estructurado como un gráfico. XML2RDF es un ejemplo de un enfoque que utiliza nodos en blanco RDF y transforma elementos y atributos XML en propiedades RDF. Sin embargo, el tema es más complejo como en el caso de las bases de datos relacionales. En una tabla relacional, la clave primaria es una candidata ideal para convertirse en el tema de las tripletas extraídas. Un elemento XML, sin embargo, puede transformarse -según el contexto- en sujeto, predicado u objeto de un triplete. XSLT se puede utilizar como lenguaje de transformación estándar para convertir manualmente XML a RDF.

Estudio de métodos/herramientas

Extracción de fuentes de lenguaje natural.

La mayor parte de la información contenida en los documentos comerciales (alrededor del 80% ^[10] ) está codificada en lenguaje natural y, por lo tanto, no está estructurada. Debido a que los datos no estructurados representan un desafío para la extracción de conocimiento, se requieren métodos más sofisticados, que generalmente tienden a proporcionar peores resultados en comparación con los datos estructurados. Sin embargo, el potencial de una adquisición masiva de conocimiento extraído debería compensar la mayor complejidad y la menor calidad de la extracción. En lo sucesivo, se entenderán como fuentes de información fuentes en lenguaje natural, en las que los datos se proporcionan de forma no estructurada como texto plano. Si el texto indicado además está incrustado en un documento de marcado (p. ej., un documento HTML), los sistemas mencionados normalmente eliminan los elementos de marcado automáticamente.

Anotación lingüística/procesamiento del lenguaje natural (PLN)

Como paso de preprocesamiento para la extracción de conocimiento, puede ser necesario realizar anotaciones lingüísticas mediante una o varias herramientas de PNL . Los módulos individuales en un flujo de trabajo de PNL normalmente se basan en formatos específicos de herramientas para entrada y salida, pero en el contexto de la extracción de conocimiento, se han aplicado formatos estructurados para representar anotaciones lingüísticas.

Las tareas típicas de PNL relevantes para la extracción de conocimiento incluyen:

etiquetado de parte del discurso (POS)
lematización (LEMMA) o derivación (STEM)
desambiguación del sentido de la palabra (WSD, relacionado con la anotación semántica a continuación)
reconocimiento de entidad nombrada (NER, ver también IE a continuación)
análisis sintáctico, a menudo adoptando dependencias sintácticas (DEP)
análisis sintáctico superficial (CHUNK): si el rendimiento es un problema, la fragmentación produce una extracción rápida de frases nominales y de otro tipo.
resolución de anáfora (ver resolución de correferencia en IE a continuación, pero vista aquí como la tarea de crear vínculos entre menciones textuales en lugar de entre la mención de una entidad y una representación abstracta de la entidad)
etiquetado de roles semánticos (SRL, relacionado con la extracción de relaciones; no debe confundirse con la anotación semántica como se describe a continuación)
análisis del discurso (relaciones entre diferentes oraciones, rara vez utilizadas en aplicaciones del mundo real)

En PNL, estos datos normalmente se representan en formatos TSV (formatos CSV con TAB como separadores), a menudo denominados formatos CoNLL. Para los flujos de trabajo de extracción de conocimientos, las vistas RDF de dichos datos se han creado de acuerdo con los siguientes estándares comunitarios:

Formato de intercambio de PNL (NIF, para muchos tipos frecuentes de anotaciones) ^[11]^[12]
Anotación web (WA, utilizada a menudo para vincular entidades) ^[13]
CoNLL-RDF (para anotaciones originalmente representadas en formatos TSV) ^[14]^[15]

Otros formatos específicos de la plataforma incluyen

Formato de intercambio LAPPS (LIF, utilizado en LAPPS Grid) ^[16]^[17]
Formato de anotación NLP (NAF, utilizado en el sistema de gestión de flujo de trabajo NewsReader) ^[18]^[19]

Extracción de información tradicional (IE)

La extracción de información tradicional ^[20] es una tecnología de procesamiento del lenguaje natural, que extrae información de textos típicamente en lenguaje natural y los estructura de manera adecuada. Los tipos de información a identificar deben especificarse en un modelo antes de comenzar el proceso, razón por la cual todo el proceso de Extracción de Información tradicional depende del dominio. La IE se divide en las siguientes cinco subtareas.

Reconocimiento de entidad nombrada (NER)
Resolución de correferencia (CO)
Construcción de elementos de plantilla (TE)
Construcción de relación de plantilla (TR)
Producción de escenarios de plantilla (ST)

La tarea del reconocimiento de entidades nombradas es reconocer y categorizar todas las entidades nombradas contenidas en un texto (asignación de una entidad nombrada a una categoría predefinida). Esto funciona mediante la aplicación de métodos basados en gramática o modelos estadísticos.

La resolución de correferencia identifica entidades equivalentes, que fueron reconocidas por NER, dentro de un texto. Hay dos tipos relevantes de relación de equivalencia. El primero se relaciona con la relación entre dos entidades representadas diferentes (por ejemplo, IBM Europa e IBM) y el segundo con la relación entre una entidad y sus referencias anafóricas (por ejemplo, ella e IBM). Ambos tipos pueden reconocerse mediante resolución de correferencia.

Durante la construcción de elementos de plantilla, el sistema IE identifica propiedades descriptivas de entidades, reconocidas por NER y CO. Estas propiedades corresponden a cualidades ordinarias como rojo o grande.

La construcción de relaciones de plantilla identifica las relaciones que existen entre los elementos de la plantilla. Estas relaciones pueden ser de varios tipos, como de trabajo para o ubicado en, con la restricción de que tanto el dominio como el rango corresponden a entidades.

En el escenario de plantilla, los eventos de producción, que se describen en el texto, se identificarán y estructurarán con respecto a las entidades reconocidas por NER y CO y las relaciones identificadas por TR.

Extracción de información basada en ontologías (OBIE)

La extracción de información basada en ontologías ^[10] es un subcampo de la extracción de información, en el que se utiliza al menos una ontología para guiar el proceso de extracción de información del texto en lenguaje natural. El sistema OBIE utiliza métodos de extracción de información tradicionales para identificar conceptos , instancias y relaciones de las ontologías utilizadas en el texto, las cuales serán estructuradas en una ontología después del proceso. Así, las ontologías de entrada constituyen el modelo de información a extraer. ^[21]

Aprendizaje ontológico (OL)

El aprendizaje de ontologías es la creación automática o semiautomática de ontologías, incluida la extracción de los términos del dominio correspondiente a partir de texto en lenguaje natural. Como crear ontologías manualmente requiere mucho trabajo y mucho tiempo, existe una gran motivación para automatizar el proceso.

Anotación semántica (SA)

Durante la anotación semántica, ^[22] el texto en lenguaje natural se complementa con metadatos (a menudo representados en RDFa ), lo que debería hacer que la semántica de los términos contenidos sea comprensible para las máquinas. En este proceso, generalmente semiautomático, se extrae conocimiento, en el sentido de que se establece un vínculo entre términos léxicos y, por ejemplo, conceptos de ontologías. De este modo, se obtiene conocimiento sobre qué significado se pretendía de un término en el contexto procesado y, por lo tanto, el significado del texto se basa en datos legibles por máquina con la capacidad de hacer inferencias. La anotación semántica normalmente se divide en las dos subtareas siguientes.

En el nivel de extracción terminológica, se extraen términos léxicos del texto. Para ello, un tokenizador determina primero los límites de las palabras y resuelve las abreviaturas. Posteriormente, los términos del texto que corresponden a un concepto se extraen con la ayuda de un léxico específico de dominio para vincularlos en la vinculación de entidades.

En el enlace de entidades ^[23] se establece un vínculo entre los términos léxicos extraídos del texto fuente y los conceptos de una ontología o base de conocimiento como DBpedia . Para ello, los conceptos candidatos se detectan de forma adecuada a los diferentes significados de un término con la ayuda de un léxico. Finalmente, se analiza el contexto de los términos para determinar la desambiguación más adecuada y asignar el término al concepto correcto.

Tenga en cuenta que la "anotación semántica" en el contexto de la extracción de conocimientos no debe confundirse con el análisis semántico tal como se entiende en el procesamiento del lenguaje natural (también conocido como "anotación semántica"): el análisis semántico tiene como objetivo una representación completa y legible por máquina del lenguaje natural. , mientras que la anotación semántica en el sentido de extracción de conocimiento aborda sólo un aspecto muy elemental de eso.

Herramientas

Los siguientes criterios se pueden utilizar para categorizar herramientas que extraen conocimiento de texto en lenguaje natural.

La siguiente tabla caracteriza algunas herramientas para la Extracción de Conocimiento de fuentes de lenguaje natural.

Descubrimiento del conocimiento

El descubrimiento de conocimiento describe el proceso de buscar automáticamente grandes volúmenes de datos en busca de patrones que puedan considerarse conocimiento sobre los datos. ^[44] A menudo se describe como la obtención de conocimiento a partir de los datos de entrada. El descubrimiento de conocimiento se desarrolló a partir del dominio de la minería de datos y está estrechamente relacionado con él tanto en términos de metodología como de terminología. ^[45]

La rama más conocida de la minería de datos es el descubrimiento de conocimientos, también conocido como descubrimiento de conocimientos en bases de datos (KDD). Al igual que muchas otras formas de descubrimiento de conocimiento, crea abstracciones de los datos de entrada. El conocimiento obtenido a través del proceso puede convertirse en datos adicionales que pueden usarse para un mayor uso y descubrimiento. A menudo, los resultados del descubrimiento de conocimientos no son procesables; el descubrimiento de conocimientos procesables , también conocido como minería de datos impulsada por dominios , ^[46] tiene como objetivo descubrir y entregar conocimientos e ideas procesables.

Otra aplicación prometedora del descubrimiento de conocimientos se encuentra en el área de modernización del software , descubrimiento de debilidades y cumplimiento, lo que implica comprender los artefactos de software existentes. Este proceso está relacionado con un concepto de ingeniería inversa . Normalmente, el conocimiento obtenido del software existente se presenta en forma de modelos a los que se pueden realizar consultas específicas cuando sea necesario. Una relación de entidad es un formato frecuente para representar el conocimiento obtenido del software existente. Object Management Group (OMG) desarrolló la especificación Knowledge Discovery Metamodel (KDM) que define una ontología para los activos de software y sus relaciones con el fin de realizar el descubrimiento de conocimientos en el código existente. El descubrimiento de conocimiento a partir de sistemas de software existentes, también conocido como minería de software , está estrechamente relacionado con la minería de datos , ya que los artefactos de software existentes contienen un enorme valor para la gestión de riesgos y el valor empresarial , clave para la evaluación y evolución de los sistemas de software. En lugar de extraer conjuntos de datos individuales , la minería de software se centra en metadatos , como flujos de procesos (por ejemplo, flujos de datos, flujos de control y mapas de llamadas), arquitectura, esquemas de bases de datos y reglas/términos/procesos comerciales.

Datos de entrada

Formatos de salida

Ver también

Otras lecturas

Chicco, D; Masseroli, M (2016). "Predicción basada en ontologías y priorización de anotaciones funcionales genéticas". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 13 (2): 248–260. doi :10.1109/TCBB.2015.2459694. PMID 27045825. S2CID 2795344.

Referencias

^ Grupo de trabajo RDB2RDF, sitio web: http://www.w3.org/2001/sw/rdb2rdf/, estatuto: http://www.w3.org/2009/08/rdb2rdf-charter, R2RML: Mapeo de RDB a RDF Idioma: http://www.w3.org/TR/r2rml/
^ LOD2 EU Deliverable 3.1.1 Extracción de conocimientos de fuentes estructuradas http://static.lod2.eu/Deliverables/deliverable-3.1.1.pdf Archivado el 27 de agosto de 2011 en Wayback Machine.
^ "La vida en la nube de datos vinculados". www.opencalais.com. Archivado desde el original el 24 de noviembre de 2009 . Consultado el 10 de noviembre de 2009 . Wikipedia tiene un gemelo de datos vinculados llamado DBpedia. DBpedia tiene la misma información estructurada que Wikipedia, pero traducida a un formato legible por máquina.
^ ab Tim Berners-Lee (1998), "Bases de datos relacionales en la web semántica". Recuperado: 20 de febrero de 2011.
^ Hu y col. (2007), "Descubrimiento de asignaciones simples entre ontologías y esquemas de bases de datos relacionales", en Proc. de la 6.ª Conferencia Internacional sobre la Web Semántica (ISWC 2007), 2.ª Conferencia Asiática sobre la Web Semántica (ASWC 2007), LNCS 4825, páginas 225-238, Busan, Corea, 11-15 de noviembre de 2007. http://citeseerx.ist.psu.edu /viewdoc/download?doi=10.1.1.97.6934&rep=rep1&type=pdf
^ R. Ghawi y N. Cullot (2007), "Generación de mapeo de base de datos a ontología para la interoperabilidad semántica". En Tercer Taller Internacional sobre Interoperabilidad de Bases de Datos (InterDB 2007). http://le2i.cnrs.fr/IMG/publications/InterDB07-Ghawi.pdf
^ Li y col. (2005) "Un método semiautomático de adquisición de ontologías para la web semántica", WAIM, volumen 3739 de Lecture Notes in Computer Science, páginas 209-220. Saltador. doi :10.1007/11563952_19
^ Tirmizi y col. (2008), "Traducción de aplicaciones SQL a la web semántica", Apuntes de conferencias sobre informática, volumen 5181/2008 (Aplicaciones de sistemas expertos y bases de datos). http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=15E8AB2A37BD06DAE59255A1AC3095F0?doi=10.1.1.140.3169&rep=rep1&type=pdf
^ Farid Cerbah (2008). "Aprendizaje de repositorios semánticos altamente estructurados a partir de bases de datos relacionales", The Semantic Web: Research and Applications, volumen 5021 de Lecture Notes in Computer Science, Springer, Berlín/Heidelberg http://www.tao-project.eu/resources/publications/cerbah -aprendizaje-de-repositorios-semánticos-altamente-estructurados-de-bases-de-datos-relacionales.pdf Archivado el 20 de julio de 2011 en Wayback Machine.
^ ab Wimalasuriya, Daya C.; Dou, Dejing (2010). "Extracción de información basada en ontologías: una introducción y un estudio de los enfoques actuales", Journal of Information Science , 36(3), p. 306 - 323, http://ix.cs.uoregon.edu/~dou/research/papers/jis09.pdf (consultado: 18.06.2012).
^ "Formato de intercambio de PNL (NIF) 2.0: descripción general y documentación". persistencia.uni-leipzig.org . Consultado el 5 de junio de 2020 .
^ Hellmann, Sebastián; Lehmann, Jens; Auer, Sören; Brümmer, Martín (2013). Alani, Harith; Kagal, Lalana; Fokoue, Aquiles; Groth, Pablo; Biemann, Chris; Parreira, Josiane Xavier; Aroyo, Lora; No, Natasha; Welty, Chris (eds.). "Integración de PNL mediante datos vinculados". La Web Semántica - ISWC 2013 . Apuntes de conferencias sobre informática. Berlín, Heidelberg: Springer. 7908 : 98-113. doi : 10.1007/978-3-642-41338-4_7 . ISBN 978-3-642-41338-4.
^ Verspoor, Karin; Livingston, Kevin (julio de 2012). "Hacia la adaptación de las anotaciones lingüísticas a los formalismos de anotación académica en la web semántica". Actas del Sexto Taller de Anotación Lingüística . Jeju, República de Corea: Asociación de Lingüística Computacional: 75–84.
^ acoli-repo/conll-rdf, ACoLi, 27 de mayo de 2020 , consultado el 5 de junio de 2020
^ Chiarcos, cristiano; Fäth, Christian (2017). Gracia, Jorge; Vínculo, Francisco; McCrae, John P.; Buitelaar, Paul; Chiarcos, Cristiano; Hellmann, Sebastián (eds.). "CoNLL-RDF: corpus vinculados realizados de forma compatible con la PNL". Lenguaje, datos y conocimiento . Apuntes de conferencias sobre informática. Cham: Editorial Internacional Springer. 10318 : 74–88. doi :10.1007/978-3-319-59888-8_6. ISBN 978-3-319-59888-8.
^ Verhagen, Marc; Suderman, Keith; Wang, Di; Ide, Nancy; Shi, Chunqi; Wright, Jonathan; Pustejovsky, James (2016). Murakami, Yohei; Lin, Donghui (eds.). "El formato de intercambio LAPPS". Infraestructura mundial de servicios lingüísticos . Apuntes de conferencias sobre informática. Cham: Editorial Internacional Springer. 9442 : 33–47. doi :10.1007/978-3-319-31468-6_3. ISBN 978-3-319-31468-6.
^ "The Language Application Grid | Una plataforma de servicios web para el desarrollo y la investigación del procesamiento del lenguaje natural" . Consultado el 5 de junio de 2020 .
^ lector de noticias / NAF, NewsReader, 25 de mayo de 2020 , consultado el 5 de junio de 2020
^ Vossen, Piek; Agerri, Rodrigo; Aldabe, Itziar; Cybulska, Ágata; van Erp, Marieke; Fokkens, Antske; Laparra, Egoitz; Minard, Anne-Lyse; Palmero Aprosio, Alessio; Rigau, alemán; Rospocher, Marco (15 de octubre de 2016). "NewsReader: uso de recursos de conocimiento en una máquina de lectura multilingüe para generar más conocimiento a partir de flujos masivos de noticias". Sistemas basados en el conocimiento . 110 : 60–85. doi : 10.1016/j.knosys.2016.07.013 . ISSN 0950-7051.
^ Cunningham, Hamish (2005). "Extracción de información automática", Enciclopedia de la Lengua y la Lingüística , 2, p. 665 - 677, http://gate.ac.uk/sale/ell2/ie/main.pdf (consultado el 18 de junio de 2012).
^ Chicco, D; Masseroli, M (2016). "Predicción basada en ontologías y priorización de anotaciones funcionales genéticas". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 13 (2): 248–260. doi :10.1109/TCBB.2015.2459694. PMID 27045825. S2CID 2795344.
^ Erdmann, M.; Maedche, Alejandro; Schnurr, HP; Staab, Steffen (2000). "De la anotación semántica manual a la semiautomática: acerca de las herramientas de anotación de texto basadas en ontologías", Actas de COLING , http://www.ida.liu.se/ext/epa/cis/2001/002/paper.pdf ( consultado: 18.06.2012).
^ Rao, Delip; McNamee, Pablo; Dredze, Mark (2011). "Vínculo de entidades: búsqueda de entidades extraídas en una base de conocimientos", extracción y resumen de información multilingüe y de múltiples fuentes , http://www.cs.jhu.edu/~delip/entity-linking.pdf ^{[ enlace muerto permanente ]} (consultado: 18.06.2012).
^ Cohete Software, Inc. (2012). "tecnología para extraer inteligencia de texto", http://www.rocketsoftware.com/products/aerotext Archivado el 21 de junio de 2013 en Wayback Machine (consultado: 18 de junio de 2012).
^ Orchestr8 (2012): "Descripción general de AlchemyAPI", http://www.alchemyapi.com/api Archivado el 13 de mayo de 2016 en Wayback Machine (consultado: 18 de junio de 2012).
^ La Universidad de Sheffield (2011). "ANNIE: un sistema de extracción de información casi nuevo", http://gate.ac.uk/sale/tao/splitch6.html#chap:annie (consultado el 18 de junio de 2012).
^ Red de Excelencia ILP. "ASIUM (LRI)", http://www-ai.ijs.si/~ilpnet2/systems/asium.html (consultado: 18.06.2012).
^ Atención (2012). "Extracción exhaustiva", http://www.attensity.com/products/technology/semantic-server/exhaustive-extraction/ Archivado el 11 de julio de 2012 en Wayback Machine (consultado: 18 de junio de 2012).
^ Mendes, Pablo N.; Jacob, Max; García-Sílva, Andrés; Bizer; Cristiano (2011). "DBpedia Spotlight: arrojando luz sobre la red de documentos", Actas de la 7ª Conferencia Internacional sobre Sistemas Semánticos , p. 1 - 8, http://www.wiwiss.fu-berlin.de/en/institute/pwo/bizer/research/publications/Mendes-Jakob-GarciaSilva-Bizer-DBpediaSpotlight-ISEM2011.pdf Archivado el 5 de abril de 2012 en la Wayback Machine (consultado el 18 de junio de 2012).
^ Gangemi, Aldo; Presutti, Valentina; Reforgiato Recupero, Diego; Nuzzolese, Andrea Giovanni; Draicchio, Francesco; Mongiovì, Misael (2016). "Lectura automática de web semántica con FRED", Semantic Web Journal , doi :10.3233/SW-160240, http://www.semantic-web-journal.net/system/files/swj1379.pdf
^ Adrián, Benjamín; Maus, Heiko; Dengel, Andreas (2009). "iDocument: uso de ontologías para extraer información de texto", http://www.dfki.uni-kl.de/~maus/dok/AdrianMausDengel09.pdf (consultado: 18.06.2012).
^ SRA Internacional, Inc. (2012). "NetOwl Extractor", http://www.sra.com/netowl/entity-extraction/ Archivado el 24 de septiembre de 2012 en Wayback Machine (consultado: 18 de junio de 2012).
^ Fortuna, Blaz; Grobelnik, Marko; Mladenic, Dunja (2007). "OntoGen: Editor de ontologías semiautomático", Actas de la conferencia de 2007 sobre interfaz humana, Parte 2 , p. 309 - 318, http://analytics.ijs.si/~blazf/papers/OntoGen2_HCII2007.pdf (consultado: 18.06.2012).
^ Missikoff, Michele; Navigli, Roberto; Velardi, Paola (2002). "Enfoque integrado para el aprendizaje y la ingeniería de ontologías web", Computadora , 35 (11), pág. 60 - 63, http://wwwusers.di.uniroma1.it/~velardi/IEEE_C.pdf (consultado: 18.06.2012).
^ McDowell, Lucas K.; Cafarella, Michael (2006). "Extracción de información basada en ontologías con OntoSyphon", Actas de la quinta conferencia internacional sobre la web semántica , p. 428 - 444, http://turing.cs.washington.edu/papers/iswc2006McDowell-final.pdf (consultado: 18 de junio de 2012).
^ Yildiz, Burcu; Miksch, Silvia (2007). "ontoX: un método para la extracción de información basada en ontologías", Actas de la conferencia internacional de 2007 sobre ciencia computacional y sus aplicaciones , 3, p. 660 - 673, http://publik.tuwien.ac.at/files/pub-inf_4769.pdf (consultado: 18.06.2012).
^ semanticweb.org (2011). "PoolParty Extractor", http://semanticweb.org/wiki/Knowledge_extraction/PoolParty_Extractor Archivado el 4 de marzo de 2016 en Wayback Machine (consultado: 18 de junio de 2012).
^ Eneldo, Stephen; Eirón, Nadav; Gibson, David; Gruhl, Daniel; Guha, R.; Jhingran, Anant; Kanungo, Tapas; Rajagopalan, Sridhar; Tomkins, Andrés; Tomlin, John A.; Zien, Jason Y. (2003). "SemTag and Seeker: Arranque de la Web Semántica mediante Anotación Semántica Automatizada", Actas de la 12ª conferencia internacional sobre la World Wide Web , p. 178 - 186, http://www2003.org/cdrom/papers/refereed/p831/p831-dill.html (consultado: 18 de junio de 2012).
^ Urén, Victoria; Cimiano, Philipp; Iría, José; Handschuh, Sigfrido; Vargas-Vera, María; Motta, Enrico; Ciravegna, Fabio (2006). "Anotación semántica para la gestión del conocimiento: requisitos y un estudio del estado del arte", Semántica web: ciencia, servicios y agentes en la World Wide Web , 4(1), p. 14 - 28, http://staffwww.dcs.shef.ac.uk/people/J.Iria/iria_jws06.pdf ^{[ enlace muerto permanente ]} , (consultado: 18.06.2012).
^ Cimiano, Philipp; Völker, Johanna (2005). "Text2Onto: un marco para el aprendizaje de ontologías y el descubrimiento de cambios basados en datos", Actas de la décima conferencia internacional de aplicaciones del lenguaje natural a los sistemas de información , 3513, p. 227 - 238, http://www.cimiano.de/Publications/2005/nldb05/nldb05.pdf (consultado: 18.06.2012).
^ Maedche, Alejandro; Volz, Rafael (2001). "The Ontology Extraction & Maintenance Framework Text-To-Onto", Actas de la Conferencia Internacional IEEE sobre Minería de Datos , http://users.csc.calpoly.edu/~fkurfess/Events/DM-KM-01/Volz.pdf (consultado: 18.06.2012).
^ Vinculación de máquinas. "Nos conectamos a la nube Linked Open Data", http://thewikimachine.fbk.eu/html/index.html Archivado el 19 de julio de 2012 en Wayback Machine (consultado: 18 de junio de 2012).
^ Sistemas federales Inxight (2008). "Inxight ThingFinder y ThingFinder Professional", http://inxightfedsys.com/products/sdks/tf/ Archivado el 29 de junio de 2012 en Wayback Machine (consultado el 18 de junio de 2012).
^ William Frawley. F. et al. (1992), "Knowledge Discovery in Databases: An Overview", AI Magazine (Vol 13, No 3), 57-70 (versión completa en línea: http://www.aaai.org/ojs/index.php/aimagazine/ artículo/viewArticle/1011 Archivado el 4 de marzo de 2016 en Wayback Machine )
^ Fayyad U. et al. (1996), "From Data Mining to Knowledge Discovery in Databases", AI Magazine (Vol 17, No 3), 37-54 (versión completa en línea: http://www.aaai.org/ojs/index.php/aimagazine /article/viewArticle/1230 Archivado el 4 de mayo de 2016 en Wayback Machine.
^ Cao, L. (2010). "Minería de datos impulsada por dominios: desafíos y perspectivas". Transacciones IEEE sobre conocimiento e ingeniería de datos . 22 (6): 755–769. CiteSeerX 10.1.1.190.8427 . doi :10.1109/tkde.2010.32. S2CID 17904603.