Extracción de textos

La minería de texto , minería de datos de texto ( TDM ) o análisis de texto es el proceso de derivar información de alta calidad a partir de un texto . Implica "el descubrimiento por computadora de información nueva, previamente desconocida, extrayendo automáticamente información de diferentes recursos escritos". ^[1] Los recursos escritos pueden incluir sitios web , libros , correos electrónicos , reseñas y artículos. La información de alta calidad generalmente se obtiene diseñando patrones y tendencias mediante medios como el aprendizaje de patrones estadísticos . Según Hotho et al. (2005) podemos distinguir entre tres perspectivas diferentes de la minería de textos: extracción de información , minería de datos y proceso de descubrimiento de conocimiento en bases de datos (KDD). ^[2] La minería de texto generalmente implica el proceso de estructurar el texto de entrada (normalmente analizarlo , junto con la adición de algunas características lingüísticas derivadas y la eliminación de otras, y la posterior inserción en una base de datos ), derivar patrones dentro de los datos estructurados y, finalmente, evaluación e interpretación del resultado. La "alta calidad" en la minería de textos generalmente se refiere a alguna combinación de relevancia , novedad e interés. Las tareas típicas de minería de textos incluyen categorización de textos , agrupamiento de textos , extracción de conceptos/entidades, producción de taxonomías granulares, análisis de sentimientos , resumen de documentos y modelado de relaciones entre entidades ( es decir , aprendizaje de relaciones entre entidades nombradas ).

El análisis de texto implica recuperación de información , análisis léxico para estudiar distribuciones de frecuencia de palabras, reconocimiento de patrones , etiquetado / anotación , extracción de información , técnicas de extracción de datos que incluyen análisis de enlaces y asociaciones, visualización y análisis predictivo . El objetivo general es, esencialmente, convertir texto en datos para su análisis, mediante la aplicación de procesamiento del lenguaje natural (PLN), diferentes tipos de algoritmos y métodos analíticos. Una fase importante de este proceso es la interpretación de la información recopilada.

Una aplicación típica es escanear un conjunto de documentos escritos en un lenguaje natural y modelar el conjunto de documentos con fines de clasificación predictiva o completar una base de datos o un índice de búsqueda con la información extraída. El documento es el elemento básico a la hora de iniciarse en la minería de textos. Aquí definimos un documento como una unidad de datos textuales, que normalmente existe en muchos tipos de colecciones. ^[3]

Análisis de texto

El análisis de texto describe un conjunto de técnicas lingüísticas , estadísticas y de aprendizaje automático que modelan y estructuran el contenido de información de fuentes textuales para inteligencia empresarial , análisis exploratorio de datos , investigación o investigación. ^[4] El término es aproximadamente sinónimo de minería de textos; de hecho, Ronen Feldman modificó una descripción de 2000 de "minería de textos" ^[5] en 2004 para describir "análisis de textos". ^[6] Este último término se utiliza ahora con mayor frecuencia en entornos empresariales, mientras que "minería de textos" se utiliza en algunas de las primeras áreas de aplicación, que datan de la década de 1980, ^[7] en particular la investigación en ciencias biológicas y la inteligencia gubernamental.

El término análisis de texto también describe la aplicación del análisis de texto para responder a problemas comerciales, ya sea de forma independiente o junto con consultas y análisis de datos numéricos de campo. Es una perogrullada que el 80 por ciento de la información relevante para los negocios se origina en forma no estructurada , principalmente texto. ^[8] Estas técnicas y procesos descubren y presentan conocimientos (hechos, reglas comerciales y relaciones) que de otro modo estarían encerrados en forma textual, impenetrables al procesamiento automatizado.

Procesos de análisis de texto

Las subtareas (componentes de un esfuerzo más amplio de análisis de texto) suelen incluir:

La reducción de dimensionalidad es una técnica importante para el preprocesamiento de datos. La técnica se utiliza para identificar la raíz de palabras reales y reducir el tamaño de los datos del texto. ^{[ cita necesaria ]}
La recuperación de información o identificación de un corpus es un paso preparatorio: recopilar o identificar un conjunto de materiales textuales, en la Web o mantenidos en un sistema de archivos , base de datos o administrador de corpus de contenido , para su análisis.
Aunque algunos sistemas de análisis de texto aplican exclusivamente métodos estadísticos avanzados, muchos otros aplican un procesamiento del lenguaje natural más extenso , como el etiquetado de partes del discurso , el análisis sintáctico y otros tipos de análisis lingüístico. ^[9]
El reconocimiento de entidades nombradas es el uso de nomenclátores o técnicas estadísticas para identificar características de texto nombradas: personas, organizaciones, nombres de lugares, símbolos bursátiles, ciertas abreviaturas, etc.
Puede ser necesaria la desambiguación (el uso de pistas contextuales ) para decidir, por ejemplo, dónde puede referirse "Ford" a un ex presidente de Estados Unidos, un fabricante de vehículos, una estrella de cine, un cruce de río o alguna otra entidad. ^[10]
Reconocimiento de entidades identificadas con patrones: características como números de teléfono, direcciones de correo electrónico, cantidades (con unidades) se pueden discernir mediante expresiones regulares u otras coincidencias de patrones .
Agrupación de documentos : identificación de conjuntos de documentos de texto similares. ^[11]
Correferencia : identificación de sintagmas nominales y otros términos que hacen referencia a un mismo objeto.
Relación, hecho y evento Extracción: identificación de asociaciones entre entidades y otra información en textos.
El análisis de sentimientos implica discernir material subjetivo (a diferencia de los hechos) y extraer diversas formas de información actitudinal: sentimiento, opinión, estado de ánimo y emoción. Las técnicas de análisis de texto ayudan a analizar el sentimiento a nivel de entidad, concepto o tema y distinguir a los partidarios de la opinión y los objetos. ^[12]
El análisis de texto cuantitativo es un conjunto de técnicas derivadas de las ciencias sociales en las que un juez humano o una computadora extraen relaciones semánticas o gramaticales entre palabras para descubrir el significado o los patrones estilísticos de, generalmente, un texto personal informal con el propósito de perfiles psicológicos , etc. ^[13]
El preprocesamiento generalmente implica tareas como tokenización, filtrado y derivación.

Aplicaciones

La tecnología de minería de textos ahora se aplica ampliamente a una amplia variedad de necesidades gubernamentales, de investigación y comerciales. Todos estos grupos pueden utilizar la minería de textos para la gestión de registros y la búsqueda de documentos relevantes para sus actividades diarias. Los profesionales del derecho pueden utilizar la minería de textos para el descubrimiento electrónico , por ejemplo. Los gobiernos y los grupos militares utilizan la minería de textos con fines de inteligencia y seguridad nacional . Los investigadores científicos incorporan enfoques de minería de texto en los esfuerzos por organizar grandes conjuntos de datos de texto (es decir, abordar el problema de los datos no estructurados ), para determinar ideas comunicadas a través del texto (por ejemplo, análisis de sentimientos en las redes sociales ^[14]^[15]^[16] ). y apoyar los descubrimientos científicos en campos como las ciencias biológicas y la bioinformática . En los negocios, las aplicaciones se utilizan para respaldar la inteligencia competitiva y la colocación automatizada de anuncios , entre muchas otras actividades.

Aplicaciones de seguridad

Muchos paquetes de software de minería de texto se comercializan para aplicaciones de seguridad , especialmente para monitoreo y análisis de fuentes de texto sin formato en línea, como noticias de Internet , blogs , etc., con fines de seguridad nacional . ^[17] También participa en el estudio del cifrado / descifrado de texto .

Aplicaciones biomédicas

Se ha descrito una variedad de aplicaciones de minería de textos en la literatura biomédica, ^[19] que incluyen enfoques computacionales para ayudar con estudios sobre acoplamiento de proteínas , ^[20] interacciones de proteínas , ^[21]^[22] y asociaciones entre proteínas y enfermedades. ^[23] Además, con grandes conjuntos de datos textuales de pacientes en el campo clínico, conjuntos de datos de información demográfica en estudios de población e informes de eventos adversos, la minería de textos puede facilitar los estudios clínicos y la medicina de precisión. Los algoritmos de minería de texto pueden facilitar la estratificación e indexación de eventos clínicos específicos en grandes conjuntos de datos textuales de pacientes sobre síntomas, efectos secundarios y comorbilidades de registros médicos electrónicos, informes de eventos e informes de pruebas de diagnóstico específicas. ^[24] Una aplicación de minería de textos en línea en la literatura biomédica es PubGene , un motor de búsqueda de acceso público que combina la minería de textos biomédicos con visualización de redes. ^[25]^[26] GoPubMed es un motor de búsqueda de textos biomédicos basado en el conocimiento. Las técnicas de minería de textos también nos permiten extraer conocimientos desconocidos de documentos no estructurados en el ámbito clínico ^[27]

Aplicaciones de software

Los métodos y software de minería de textos también están siendo investigados y desarrollados por grandes empresas, incluidas IBM y Microsoft , para automatizar aún más los procesos de minería y análisis, y por diferentes empresas que trabajan en el área de búsqueda e indexación en general como una forma de mejorar sus resultados. . Dentro del sector público, se han concentrado muchos esfuerzos en crear software para rastrear y monitorear actividades terroristas . ^[28] Para fines de estudio, el software Weka es una de las opciones más populares en el mundo científico y actúa como un excelente punto de entrada para principiantes. Para los programadores de Python, existe un excelente conjunto de herramientas llamado NLTK para propósitos más generales. Para programadores más avanzados, también existe la biblioteca Gensim , que se centra en representaciones de texto basadas en incrustaciones de palabras.

Aplicaciones de medios en línea

La minería de texto está siendo utilizada por grandes empresas de medios, como Tribune Company , para aclarar información y brindar a los lectores mejores experiencias de búsqueda, lo que a su vez aumenta la "fiabilidad" del sitio y los ingresos. Además, en el back-end, los editores se benefician al poder compartir, asociar y empaquetar noticias entre propiedades, lo que aumenta significativamente las oportunidades de monetizar el contenido.

Aplicaciones comerciales y de marketing.

El análisis de texto se utiliza en los negocios, particularmente en marketing, como en la gestión de relaciones con los clientes . ^[29] Coussement y Van den Poel (2008) ^[30]^[31] lo aplican para mejorar los modelos de análisis predictivo de la pérdida de clientes ( customer attrition ). ^[30] La minería de textos también se está aplicando en la predicción de la rentabilidad de las acciones. ^[32]

Análisis de los sentimientos

El análisis de sentimientos puede implicar el análisis de productos como películas, libros o reseñas de hoteles para estimar qué tan favorable es una reseña para el producto. ^[33] Un análisis de este tipo puede necesitar un conjunto de datos etiquetados o un etiquetado de la afectividad de las palabras. Se han creado recursos para la afectividad de palabras y conceptos para WordNet ^[34] y ConceptNet , ^[35] respectivamente.

El texto se ha utilizado para detectar emociones en el área relacionada de la informática afectiva. ^[36] Los enfoques basados en texto para la computación afectiva se han utilizado en múltiples corpus, como evaluaciones de estudiantes, historias de niños y noticias.

Minería de literatura científica y aplicaciones académicas.

La cuestión de la minería de textos es importante para los editores que mantienen grandes bases de datos de información que necesitan indexación para su recuperación. Esto es especialmente cierto en las disciplinas científicas, en las que el texto escrito suele contener información muy específica. Por lo tanto, se han tomado iniciativas como la propuesta de Nature para una interfaz de minería de texto abierta (OTMI) y la definición de tipo de documento de publicación de revistas (DTD) común de los Institutos Nacionales de Salud que proporcionaría pistas semánticas a las máquinas para responder consultas específicas contenidas en el texto sin eliminar las barreras de los editores al acceso público.

Las instituciones académicas también se han involucrado en la iniciativa de minería de textos:

El Centro Nacional de Minería de Textos (NaCTeM) es el primer centro de minería de textos financiado con fondos públicos del mundo. NaCTeM es operado por la Universidad de Manchester ^[37] en estrecha colaboración con el Laboratorio Tsujii, ^[38] Universidad de Tokio . ^[39] NaCTeM proporciona herramientas personalizadas, instalaciones de investigación y ofrece asesoramiento a la comunidad académica. Están financiados por el Comité Conjunto de Sistemas de Información (JISC) y dos de los consejos de investigación del Reino Unido ( EPSRC y BBSRC ). Con un enfoque inicial en la minería de textos en las ciencias biológicas y biomédicas , desde entonces la investigación se ha expandido a las áreas de las ciencias sociales .
En Estados Unidos, la Escuela de Información de la Universidad de California en Berkeley está desarrollando un programa llamado BioText para ayudar a los investigadores de biología en la extracción y análisis de textos.
El Portal de Análisis de Texto para la Investigación (TAPoR), actualmente ubicado en la Universidad de Alberta , es un proyecto académico para catalogar aplicaciones de análisis de texto y crear una puerta de entrada para investigadores nuevos en la práctica.

Métodos para la extracción de literatura científica.

Se han desarrollado métodos computacionales para ayudar con la recuperación de información de la literatura científica. Los enfoques publicados incluyen métodos para buscar, ^[40] determinar la novedad, ^[41] y aclarar homónimos ^[42] entre informes técnicos.

Humanidades digitales y sociología computacional.

El análisis automático de vastos corpus textuales ha creado la posibilidad para que los académicos analicen millones de documentos en múltiples idiomas con una intervención manual muy limitada. Las tecnologías habilitadoras clave han sido el análisis, la traducción automática , la categorización de temas y el aprendizaje automático.

Red narrativa de las elecciones estadounidenses de 2012 ^[43]

El análisis automático de corpus textuales ha permitido la extracción de actores y sus redes relacionales a gran escala, convirtiendo datos textuales en datos de red. Las redes resultantes, que pueden contener miles de nodos, se analizan utilizando herramientas de la teoría de redes para identificar los actores clave, las comunidades o partes clave y propiedades generales como la robustez o la estabilidad estructural de la red general, o la centralidad de ciertos nodos. ^[44] Esto automatiza el enfoque introducido por el análisis narrativo cuantitativo, ^[45] mediante el cual los tripletes sujeto-verbo-objeto se identifican con pares de actores vinculados por una acción, o pares formados por actor-objeto. ^[43]

El análisis de contenido ha sido una parte tradicional de las ciencias sociales y los estudios de medios durante mucho tiempo. La automatización del análisis de contenidos ha permitido que se produzca una revolución del " big data " en ese campo, con estudios en redes sociales y contenidos periodísticos que incluyen millones de noticias. El sesgo de género , la legibilidad , la similitud de contenido, las preferencias del lector e incluso el estado de ánimo se han analizado basándose en métodos de extracción de texto en millones de documentos. ^[46]^[47]^[48]^[49]^[50] El análisis de legibilidad, sesgo de género y sesgo de tema se demostró en Flaounas et al. ^[51] muestra cómo diferentes temas tienen diferentes sesgos de género y niveles de legibilidad; También se demostró la posibilidad de detectar patrones de humor en una gran población analizando el contenido de Twitter. ^[52]^[53]

Software

Los programas informáticos de minería de textos están disponibles en muchas empresas y fuentes comerciales y de código abierto . Ver Lista de software de minería de texto .

Ley de Propiedad Intelectual

Situación en Europa

Vídeo de la campaña Fix Copyright que explica TDM y sus problemas de derechos de autor en la UE, 2016 [3:51]

Según las leyes europeas de derechos de autor y bases de datos , la extracción de obras con derechos de autor (como la minería web ) sin el permiso del propietario de los derechos de autor es ilegal. En el Reino Unido, en 2014, por recomendación de la revisión de Hargreaves, el gobierno modificó la ley de derechos de autor ^[54] para permitir la minería de textos como limitación y excepción . Fue el segundo país del mundo en hacerlo, después de Japón , que introdujo una excepción específica para la minería en 2009. Sin embargo, debido a la restricción de la Directiva sobre la Sociedad de la Información (2001), la excepción del Reino Unido sólo permite la minería de contenidos para personas no relacionadas con la minería. propósitos comerciales. La ley de derechos de autor del Reino Unido no permite que esta disposición sea anulada por términos y condiciones contractuales.

La Comisión Europea facilitó el debate entre las partes interesadas sobre la minería de textos y datos en 2013, bajo el título Licencias para Europa. ^[55] El hecho de que la solución a esta cuestión jurídica se centrara en las licencias, y no en las limitaciones y excepciones a la ley de derechos de autor, llevó a representantes de universidades, investigadores, bibliotecas, grupos de la sociedad civil y editores de acceso abierto a abandonar el diálogo con las partes interesadas en mayo. 2013. ^[56]

Situación en los Estados Unidos

La ley de derechos de autor de EE. UU ., y en particular sus disposiciones sobre uso legítimo , significa que la minería de textos en Estados Unidos, así como en otros países de uso legítimo como Israel, Taiwán y Corea del Sur, se considera legal. Como la minería de textos es transformadora, lo que significa que no reemplaza el trabajo original, se considera legal bajo uso legítimo. Por ejemplo, como parte del acuerdo sobre Google Books, el juez que presidió el caso dictaminó que el proyecto de digitalización de libros con derechos de autor de Google era legal, en parte debido a los usos transformadores que mostraba el proyecto de digitalización; uno de esos usos era la minería de textos y datos. . ^[57]

Situación en Australia

No existe ninguna excepción en la ley de derechos de autor australiana para la extracción de textos o datos dentro de la Ley de derechos de autor de 1968 . La Comisión de Reforma Legislativa de Australia ha señalado que es poco probable que la excepción de "investigación y estudio" en el trato justo se extienda para cubrir ese tema, dado que estaría más allá del requisito de la "porción razonable". ^[58]

Trascendencia

Hasta hace poco, los sitios web utilizaban con mayor frecuencia búsquedas basadas en texto, que sólo encontraban documentos que contenían palabras o frases específicas definidas por el usuario. Ahora, mediante el uso de una web semántica , la minería de textos puede encontrar contenido basado en el significado y el contexto (en lugar de solo por una palabra específica). Además, el software de minería de textos se puede utilizar para crear grandes expedientes de información sobre personas y eventos específicos. Por ejemplo, se pueden construir grandes conjuntos de datos basados en datos extraídos de informes de noticias para facilitar el análisis de redes sociales o la contrainteligencia . En efecto, el software de minería de textos puede actuar en una capacidad similar a la de un analista de inteligencia o un bibliotecario de investigación, aunque con un alcance de análisis más limitado. La minería de texto también se utiliza en algunos filtros de spam de correo electrónico como una forma de determinar las características de los mensajes que probablemente sean anuncios u otro material no deseado. La minería de textos juega un papel importante en la determinación del sentimiento del mercado financiero .

Ver también

Minería conceptual
Procesamiento de documentos
Búsqueda de texto completo
Lista de software de minería de texto
El sentimiento del mercado
Resolución de nombres (semántica y extracción de texto)
Reconocimiento de entidad nombrada
Análisis de noticias
Aprendizaje de ontología
Vinculación de registros
Minería de patrones secuenciales (minería de cadenas y secuencias)
w-tejas
Minería web , una tarea que puede implicar minería de texto (por ejemplo, primero encontrar páginas web apropiadas clasificando las páginas web rastreadas y luego extraer la información deseada del contenido de texto de estas páginas consideradas relevantes)

Referencias

Citas

^ "Marti Hearst: ¿Qué es la minería de textos?".
^ Hotho, A., Nürnberger, A. y Paaß, G. (2005). "Un breve estudio sobre la minería de textos". En Foro Ldv, vol. 20(1), pág. 19-62
^ Feldman, R. y Sanger, J. (2007). El manual de minería de textos. Prensa de la Universidad de Cambridge. Nueva York
^ [1] Archivado el 29 de noviembre de 2009 en Wayback Machine .
^ "Taller KDD-2000 sobre minería de textos - Convocatoria de ponencias". Cs.cmu.edu . Consultado el 23 de febrero de 2015 .
^ [2] Archivado el 3 de marzo de 2012 en Wayback Machine .
^ Hobbs, Jerry R.; Walker, Donald E.; Amsler, Robert A. (1982). "Acceso en lenguaje natural a texto estructurado". Actas de la novena conferencia sobre lingüística computacional . vol. 1. págs. 127–32. doi :10.3115/991813.991833. S2CID 6433117.
^ "Datos no estructurados y la regla del 80 por ciento". Análisis de avances. Agosto de 2008 . Consultado el 23 de febrero de 2015 .
^ Antunes, João (14 de noviembre de 2018). Exploração de informações contextuais para enriquecimento semântico em representações de textos (tesis Mestrado em Ciências de Computação e Matemática Computacional) (en portugues). São Carlos: Universidad de São Paulo. doi : 10.11606/d.55.2019.tde-03012019-103253 .
^ Moro, Andrea; Raganato, Alessandro; Navigli, Roberto (diciembre de 2014). "La vinculación de entidades se une a la desambiguación del sentido de las palabras: un enfoque unificado". Transacciones de la Asociación de Lingüística Computacional . 2 : 231–244. doi : 10.1162/tacl_a_00179 . ISSN 2307-387X.
^ Chang, Wui Lee; Tay, Kai Meng; Lim, Chee Peng (6 de febrero de 2017). "Un nuevo modelo basado en árboles en evolución con reaprendizaje local para visualización y agrupación de documentos". Cartas de procesamiento neuronal . 46 (2): 379–409. doi :10.1007/s11063-017-9597-3. ISSN 1370-4621. S2CID 9100902.
^ Benchimol, Jonathan; Kazinnik, Sofía; Saadon, Yossi (2022). "Metodologías de minería de textos con R: una aplicación a los textos del banco central". Aprendizaje automático con aplicaciones . 8 : 100286. doi : 10.1016/j.mlwa.2022.100286 . S2CID 243798160.
^ Mehl, Matías R. (2006). "Análisis de texto cuantitativo". Manual de medición multimétodo en psicología . pag. 141. doi :10.1037/11383-011. ISBN 978-1-59147-318-3.
^ Pang, Bo; Lee, Lilian (2008). "Minería de opiniones y análisis de sentimientos". Fundamentos y tendencias en la recuperación de información . 2 (1–2): 1–135. CiteSeerX 10.1.1.147.2755 . doi :10.1561/1500000011. ISSN 1554-0669. S2CID 207178694.
^ Paltoglou, Georgios; Thelwall, Mike (1 de septiembre de 2012). "Twitter, MySpace, Digg: análisis de sentimientos no supervisado en las redes sociales". Transacciones ACM sobre tecnología y sistemas inteligentes . 3 (4): 66. doi :10.1145/2337542.2337551. ISSN 2157-6904. S2CID 16600444.
^ "Análisis de sentimiento en Twitter <SemEval-2017 Tarea 4". alt.qcri.org . Consultado el 2 de octubre de 2018 .
^ Zanasi, Alessandro (2009). "Armas virtuales para guerras reales: minería de textos para la seguridad nacional". Actas del Taller Internacional sobre Inteligencia Computacional en Seguridad de Sistemas de Información CISIS'08 . Avances en Soft Computing. vol. 53. pág. 53. doi :10.1007/978-3-540-88181-0_7. ISBN 978-3-540-88180-3.
^ Badal, Varsha D.; Kundrotas, Petras J.; Vakser, Ilya A. (9 de diciembre de 2015). "Minería de textos para acoplamiento de proteínas". PLOS Biología Computacional . 11 (12): e1004630. Código Bib : 2015PLSCB..11E4630B. doi : 10.1371/journal.pcbi.1004630 . ISSN 1553-7358. PMC 4674139 . PMID 26650466.
^ Cohen, K. Bretonnel; Cazador, Lawrence (2008). "Introducción a la minería de textos". PLOS Biología Computacional . 4 (1): e20. Código Bib : 2008PLSCB...4...20C. doi : 10.1371/journal.pcbi.0040020 . PMC 2217579 . PMID 18225946.
^ Badal, VD; Kundrotas, PJ; Vakser, IA (2015). "Minería de textos para acoplamiento de proteínas". PLOS Biología Computacional . 11 (12): e1004630. Código Bib : 2015PLSCB..11E4630B. doi : 10.1371/journal.pcbi.1004630 . PMC 4674139 . PMID 26650466.
^ Papanikolaou, Nikolas; Pavlopoulos, Georgios A.; Teodosiou, Teodosio; Iliopoulos, Ioannis (2015). "Predicciones de interacción proteína-proteína utilizando métodos de minería de texto". Métodos . 74 : 47–53. doi :10.1016/j.ymeth.2014.10.026. ISSN 1046-2023. PMID 25448298.
^ Szklarczyk, Damián; Morris, John H; Cocinera, Helena; Kuhn, Michael; Wyder, Stefan; Simonovic, Milán; Santos, Alberto; Doncheva, Nadezhda T; Roth, Alejandro (18 de octubre de 2016). "La base de datos STRING en 2017: redes de asociación proteína-proteína con control de calidad, ampliamente accesibles". Investigación de ácidos nucleicos . 45 (D1): D362-D368. doi :10.1093/nar/gkw937. ISSN 0305-1048. PMC 5210637 . PMID 27924014.
^ Liem, David A.; Murali, Sanjana; Sigdel, Dibakar; Shi, Yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H.; Wang, Wei; Ping, Peipei; Han, Jiawei (1 de octubre de 2018). "Minería de frases de datos textuales para analizar patrones de proteínas de la matriz extracelular en enfermedades cardiovasculares". Revista americana de fisiología. Corazón y Fisiología Circulatoria . 315 (4): H910–H924. doi :10.1152/ajpheart.00175.2018. ISSN 1522-1539. PMC 6230912 . PMID 29775406.
^ Van Le, D; Montgomery, J; Kirkby, Kansas; Scanlan, J (10 de agosto de 2018). "Predicción de riesgos mediante el procesamiento del lenguaje natural de registros electrónicos de salud mental en un entorno de psiquiatría forense para pacientes hospitalizados". Revista de Informática Biomédica . 86 : 49–58. doi : 10.1016/j.jbi.2018.08.007 . PMID 30118855.
^ Jenssen, Tor-Kristian; Laegreid, Astrid; Komorowski, enero; Hovig, Eivind (2001). "Una red bibliográfica de genes humanos para el análisis de alto rendimiento de la expresión génica". Genética de la Naturaleza . 28 (1): 21–8. doi :10.1038/ng0501-21. PMID 11326270. S2CID 8889284.
^ Masys, Daniel R. (2001). "Vinculación de datos de microarrays con la literatura". Genética de la Naturaleza . 28 (1): 9–10. doi :10.1038/ng0501-9. PMID 11326264. S2CID 52848745.
^ Renganathan, Vinaitheerthan (2017). "Minería de textos en el ámbito biomédico con énfasis en la agrupación de documentos". Investigación en Informática Sanitaria . 23 (3): 141-146. doi :10.4258/hir.2017.23.3.141. ISSN 2093-3681. PMC 5572517 . PMID 28875048.
^ [3] Archivado el 4 de octubre de 2013 en Wayback Machine .
^ "Análisis de texto". Medallia . Consultado el 23 de febrero de 2015 .
^ ab Coussement, Kristof; Van Den Poel, Dirk (2008). "Integrar la voz de los clientes a través de los correos electrónicos del call center en un sistema de soporte a la toma de decisiones para la predicción de la deserción". Gestión de la información . 45 (3): 164–74. CiteSeerX 10.1.1.113.3238 . doi :10.1016/j.im.2008.01.005.
^ Coussement, Kristof; Van Den Poel, Dirk (2008). "Mejora de la gestión de quejas de los clientes mediante la clasificación automática de correos electrónicos utilizando funciones de estilo lingüístico como predictores". Sistemas de Soporte a la Decisión . 44 (4): 870–82. doi :10.1016/j.dss.2007.10.010.
^ Ramiro H. Gálvez; Agustín Gravano (2017). "Evaluación de la utilidad de la minería de foros de mensajes en línea en sistemas automáticos de predicción de acciones". Revista de ciencia computacional . 19 : 1877–7503. doi :10.1016/j.jocs.2017.01.001.
^ Pang, Bo; Lee, Lilian; Vaithyanathan, Shivakumar (2002). "¿Pulgares hacia arriba?". Actas de la conferencia ACL-02 sobre métodos empíricos en el procesamiento del lenguaje natural . vol. 10. págs. 79–86. doi :10.3115/1118693.1118704. S2CID 7105713.
^ Alessandro Valitutti; Carlo Strapparava; Valores de Oliviero (2005). "Desarrollo de recursos léxicos afectivos" (PDF) . Revista de PsicNología . 2 (1): 61–83.
^ Erik Cambria; Robert Speer; Catalina Havasi; Amir Hussain (2010). "SenticNet: un recurso semántico disponible públicamente para la minería de opiniones" (PDF) . Actas de AAAI CSK . págs. 14-18.
^ Calvo, Rafael A; d'Mello, Sidney (2010). "Detección de efectos: una revisión interdisciplinaria de modelos, métodos y sus aplicaciones". Transacciones IEEE sobre informática afectiva . 1 (1): 18–37. doi :10.1109/T-AFFC.2010.1. S2CID 753606.
^ "La Universidad de Manchester". Manchester.ac.uk . Consultado el 23 de febrero de 2015 .
^ "Laboratorio Tsujii". Tsujii.is.su-tokyo.ac.jp. Archivado desde el original el 7 de marzo de 2012 . Consultado el 23 de febrero de 2015 .
^ "La Universidad de Tokio". UTokio . Consultado el 23 de febrero de 2015 .
^ Shen, Jiaming; Xiao, Jinfeng; Él, Xinwei; Shang, Jingbo; Sinha, Saurabh; Han, Jiawei (27 de junio de 2018). Búsqueda de conjuntos de entidades de literatura científica: un enfoque de clasificación no supervisado . ACM. págs. 565–574. doi :10.1145/3209978.3210055. ISBN 978-1-4503-5657-2. S2CID 13748283.
^ Walter, Lotario; Radauer, Alfred; Moehrle, Martín G. (6 de febrero de 2017). "La belleza de la mariposa de azufre: novedad de patentes identificadas mediante análisis del entorno cercano basado en minería de textos". Cienciometría . 111 (1): 103-115. doi :10.1007/s11192-017-2267-4. ISSN 0138-9130. S2CID 11174676.
^ Rollo, Uri; Correia, Ricardo A.; Berger-Tal, Oded (10 de marzo de 2018). "Uso del aprendizaje automático para desenredar homónimos en grandes corpus de texto". Biología de la Conservación . 32 (3): 716–724. doi :10.1111/cobi.13044. ISSN 0888-8892. PMID 29086438. S2CID 3783779.
^ ab Análisis automatizado de las elecciones presidenciales de EE. UU. utilizando Big Data y análisis de red; Sudhahar S, Veltri GA, Cristianini N; Big Data y sociedad 2 (1), 1-28, 2015
^ Análisis de red de contenido narrativo en grandes corpus; Sudhahar S, De Fazio G, Franzosi R, Cristianini N; Ingeniería del lenguaje natural, 1-32, 2013
^ Lansdall-Bienestar, Thomas; Sudhahar, Saatviga; Thompson, James; Lewis, Justino; Equipo, periódico FindMyPast; Cristianini, Nello (9 de enero de 2017). "Análisis de contenido de 150 años de publicaciones periódicas británicas". Procedimientos de la Academia Nacional de Ciencias . 114 (4): E457-E465. Código Bib : 2017PNAS..114E.457L. doi : 10.1073/pnas.1606380114 . ISSN 0027-8424. PMC 5278459 . PMID 28069962.
^ I. Flaounas, M. Turchi, O. Ali, N. Fyson, T. De Bie, N. Mosdell, J. Lewis, N. Cristianini, La estructura de la mediaesfera de la UE, PLoS ONE, vol. 5(12), págs. e14243, 2010.
^ Eventos de Nowcasting desde la Web Social con Aprendizaje Estadístico V Lampos, N Cristianini; Transacciones ACM sobre sistemas y tecnología inteligentes (TIST) 3 (4), 72
^ NOAM: sistema de análisis y seguimiento de medios informativos; I Flaounas, O Ali, M Turchi, T Snowsill, F Nicart, T De Bie, N Cristianini Proc. de la conferencia internacional ACM SIGMOD 2011 sobre Gestión de datos
^ Descubrimiento automático de patrones en el contenido multimedia, N Cristianini, Combinatorial Pattern Matching, 2-13, 2011
^ I. Flaounas, O. Ali, T. Lansdall-Welfare, T. De Bie, N. Mosdell, J. Lewis, N. Cristianini, MÉTODOS DE INVESTIGACIÓN EN LA ERA DEL PERIODISMO DIGITAL, Periodismo digital, Routledge, 2012
^ Variaciones circadianas del estado de ánimo en el contenido de Twitter; Fabon Dzogang, Stafford Lightman, Nello Cristianini. Avances en el cerebro y la neurociencia, 1, 2398212817744501.
^ Efectos de la recesión sobre el estado de ánimo público en el Reino Unido; Lansdall-Welfare T, Lampos V, Cristianini N; Sesión Mining Social Network Dynamics (MSND) sobre aplicaciones de redes sociales
^ A los investigadores se les otorga el derecho de extracción de datos según las nuevas leyes de derechos de autor del Reino Unido. Archivado el 9 de junio de 2014 en Wayback Machine.
^ "Licencias para Europa: diálogo estructurado entre las partes interesadas 2013". Comisión Europea . Consultado el 14 de noviembre de 2014 .
^ "Minería de datos y textos: su importancia y la necesidad de cambio en Europa". Asociación de Bibliotecas Europeas de Investigación . 2013-04-25. Archivado desde el original el 29 de noviembre de 2014 . Consultado el 14 de noviembre de 2014 .
^ "El juez otorga un juicio sumario a favor de Google Books: una victoria por uso legítimo". Lexología . Antonelli Law Ltd. 19 de noviembre de 2013 . Consultado el 14 de noviembre de 2014 .
^ "Minería de datos y textos". Comisión Australiana de Reforma Legal . 4 de junio de 2013 . Consultado el 10 de febrero de 2023 .

Fuentes

Ananiadou, S. y McNaught, J. (Editores) (2006). Minería de Textos para Biología y Biomedicina . Libros de la casa Artech. ISBN 978-1-58053-984-5
Bilisoly, R. (2008). Minería de textos práctica con Perl . Nueva York: John Wiley & Sons. ISBN 978-0-470-17643-6
Feldman, R. y Sanger, J. (2006). El manual de minería de textos . Nueva York: Cambridge University Press. ISBN 978-0-521-83657-9
Hotho, A., Nürnberger, A. y Paaß, G. (2005). "Un breve estudio sobre la minería de textos". En Foro Ldv, vol. 20(1), pág. 19-62
Indurkhya, N. y Damerau, F. (2010). Manual de procesamiento del lenguaje natural , segunda edición. Boca Ratón, FL: CRC Press. ISBN 978-1-4200-8592-1
Kao, A. y Poteet, S. (Editores). Procesamiento del lenguaje natural y minería de textos . Saltador. ISBN 1-84628-175-X
Konchady, M. Programación de aplicaciones de minería de textos (serie de programación) . Medios de Charles River. ISBN 1-58450-460-9
Manning, C. y Schutze, H. (1999). Fundamentos del procesamiento estadístico del lenguaje natural . Cambridge, MA: MIT Press. ISBN 978-0-262-13360-9
Miner, G., Elder, J., Hill. T, Nisbet, R., Delen, D. y Fast, A. (2012). Minería de textos práctica y análisis estadístico para aplicaciones de datos de texto no estructurados . Prensa académica de Elsevier. ISBN 978-0-12-386979-1
McKnight, W. (2005). "Construcción de inteligencia empresarial: minería de datos de texto en inteligencia empresarial". Revisión de DM , 21-22.
Srivastava, A. y Sahami. M. (2009). Minería de textos: clasificación, agrupación y aplicaciones . Boca Ratón, FL: CRC Press. ISBN 978-1-4200-5940-3
Zanasi, A. (Editor) (2007). Minería de textos y sus aplicaciones a la inteligencia, CRM y gestión del conocimiento . Prensa INGENIO. ISBN 978-1-84564-131-3

enlaces externos

Marti Hearst: ¿Qué es la minería de textos? (octubre de 2003)
Extracción automática de contenido, Consorcio de datos lingüísticos Archivado el 25 de septiembre de 2013 en Wayback Machine.
Extracción automática de contenido, NIST