Minería de texto

La minería de texto , minería de datos de texto ( TDM ) o análisis de texto es el proceso de derivar información de alta calidad del texto . Implica "el descubrimiento por computadora de información nueva, previamente desconocida, extrayendo automáticamente información de diferentes recursos escritos". ^[1] Los recursos escritos pueden incluir sitios web , libros , correos electrónicos , reseñas y artículos. La información de alta calidad generalmente se obtiene ideando patrones y tendencias por medios como el aprendizaje de patrones estadísticos . Según Hotho et al. (2005), hay tres perspectivas de minería de texto: extracción de información , minería de datos y descubrimiento de conocimiento en bases de datos (KDD). ^[2] La minería de texto generalmente implica el proceso de estructuración del texto de entrada (generalmente análisis , junto con la adición de algunas características lingüísticas derivadas y la eliminación de otras, y la posterior inserción en una base de datos ), derivación de patrones dentro de los datos estructurados y, finalmente, evaluación e interpretación del resultado. "Alta calidad" en minería de texto generalmente se refiere a alguna combinación de relevancia , novedad e interés. Las tareas típicas de minería de texto incluyen categorización de texto , agrupamiento de texto , extracción de conceptos/entidades, producción de taxonomías granulares, análisis de sentimientos , resumen de documentos y modelado de relaciones entre entidades ( es decir , aprendizaje de relaciones entre entidades nombradas ).

El análisis de textos implica la recuperación de información , el análisis léxico para estudiar las distribuciones de frecuencia de las palabras, el reconocimiento de patrones , el etiquetado / anotación , la extracción de información , las técnicas de minería de datos que incluyen el análisis de enlaces y asociaciones, la visualización y el análisis predictivo . El objetivo general es, esencialmente, convertir el texto en datos para su análisis, mediante la aplicación del procesamiento del lenguaje natural (PLN), diferentes tipos de algoritmos y métodos analíticos. Una fase importante de este proceso es la interpretación de la información recopilada.

Una aplicación típica es escanear un conjunto de documentos escritos en un lenguaje natural y, o bien modelar el conjunto de documentos con fines de clasificación predictiva , o bien rellenar una base de datos o un índice de búsqueda con la información extraída. El documento es el elemento básico cuando se comienza con la minería de texto. Aquí, definimos un documento como una unidad de datos textuales, que normalmente existe en muchos tipos de colecciones. ^[3]

Análisis de texto

El análisis de texto describe un conjunto de técnicas lingüísticas , estadísticas y de aprendizaje automático que modelan y estructuran el contenido de información de fuentes textuales para inteligencia empresarial , análisis exploratorio de datos , investigación o investigación. ^[4] El término es aproximadamente sinónimo de minería de texto; de hecho, Ronen Feldman modificó una descripción de 2000 de "minería de texto" ^[5] en 2004 para describir "análisis de texto". ^[6] El último término ahora se usa con más frecuencia en entornos comerciales, mientras que "minería de texto" se usa en algunas de las primeras áreas de aplicación, que datan de la década de 1980, ^[7] en particular la investigación en ciencias de la vida y la inteligencia gubernamental.

El término análisis de texto también describe la aplicación de análisis de texto para responder a problemas empresariales, ya sea de forma independiente o en combinación con la consulta y el análisis de datos numéricos en campos. Es una verdad de Perogrullo que el 80% de la información relevante para los negocios se origina en forma no estructurada , principalmente texto. ^[8] Estas técnicas y procesos descubren y presentan conocimiento (hechos, reglas empresariales y relaciones) que de otro modo quedaría encerrado en forma textual, impenetrable para el procesamiento automatizado.

Procesos de análisis de texto

Las subtareas (componentes de un esfuerzo de análisis de texto más amplio) suelen incluir:

La reducción de la dimensionalidad es una técnica importante para el preprocesamiento de datos. Se utiliza para identificar la raíz de las palabras reales y reducir el tamaño de los datos de texto. ^{[ cita requerida ]}
La recuperación de información o identificación de un corpus es un paso preparatorio: recopilar o identificar un conjunto de materiales textuales, en la Web o almacenados en un sistema de archivos , base de datos o administrador de corpus de contenido , para su análisis.
Aunque algunos sistemas de análisis de texto aplican exclusivamente métodos estadísticos avanzados, muchos otros aplican un procesamiento del lenguaje natural más amplio , como el etiquetado de partes del discurso , el análisis sintáctico y otros tipos de análisis lingüístico. ^[9]
El reconocimiento de entidades con nombre es el uso de nomenclátores o técnicas estadísticas para identificar características de textos con nombre: personas, organizaciones, nombres de lugares, símbolos bursátiles, ciertas abreviaturas, etc.
Puede ser necesaria la desambiguación (el uso de pistas contextuales ) para decidir dónde, por ejemplo, "Ford" puede referirse a un expresidente estadounidense, a un fabricante de vehículos, a una estrella de cine, a un cruce de río o a alguna otra entidad. ^[10]
Reconocimiento de entidades identificadas por patrones: Se pueden discernir características como números de teléfono, direcciones de correo electrónico y cantidades (con unidades) mediante expresiones regulares u otras coincidencias de patrones .
Agrupamiento de documentos : identificación de conjuntos de documentos de texto similares. ^[11]
Resolución de correferencia : identificación de frases nominales y otros términos que se refieren al mismo objeto.
Extracción de relaciones, hechos y eventos: identificación de asociaciones entre entidades y otra información en textos.
Análisis de sentimientos : discernimiento de material subjetivo y extracción de información sobre actitudes: sentimientos, opiniones, estados de ánimo y emociones. Esto se realiza a nivel de entidad, concepto o tema y tiene como objetivo distinguir entre los poseedores de opiniones y los objetos. ^[12]
Análisis cuantitativo de texto: un conjunto de técnicas derivadas de las ciencias sociales donde un juez humano o una computadora extrae relaciones semánticas o gramaticales entre palabras para descubrir el significado o patrones estilísticos de, generalmente, un texto personal casual con el propósito de crear perfiles psicológicos , etc. ^[13]
El preprocesamiento generalmente implica tareas como tokenización, filtrado y derivación.

Aplicaciones

La tecnología de minería de texto ahora se aplica ampliamente a una amplia variedad de necesidades gubernamentales, de investigación y comerciales. Todos estos grupos pueden usar la minería de texto para la gestión de registros y la búsqueda de documentos relevantes para sus actividades diarias. Los profesionales legales pueden usar la minería de texto para el descubrimiento electrónico , por ejemplo. Los gobiernos y los grupos militares usan la minería de texto para fines de seguridad nacional e inteligencia. Los investigadores científicos incorporan enfoques de minería de texto en esfuerzos para organizar grandes conjuntos de datos de texto (es decir, abordar el problema de los datos no estructurados ), para determinar ideas comunicadas a través del texto (por ejemplo, análisis de sentimientos en las redes sociales ^[14]^[15]^[16] ) y para respaldar el descubrimiento científico en campos como las ciencias de la vida y la bioinformática . En los negocios, las aplicaciones se utilizan para respaldar la inteligencia competitiva y la colocación automática de anuncios , entre muchas otras actividades.

Aplicaciones de seguridad

Muchos paquetes de software de minería de texto se comercializan para aplicaciones de seguridad , especialmente monitoreo y análisis de fuentes de texto simple en línea, como noticias de Internet , blogs , etc., para fines de seguridad nacional . ^[17] También está involucrado en el estudio del cifrado / descifrado de texto .

Aplicaciones biomédicas

Se ha descrito una variedad de aplicaciones de minería de texto en la literatura biomédica, ^[19] incluyendo enfoques computacionales para ayudar con estudios en acoplamiento de proteínas , ^[20] interacciones de proteínas , ^[21]^[22] y asociaciones proteína-enfermedad. ^[23] Además, con grandes conjuntos de datos textuales de pacientes en el campo clínico, conjuntos de datos de información demográfica en estudios de población e informes de eventos adversos, la minería de texto puede facilitar los estudios clínicos y la medicina de precisión. Los algoritmos de minería de texto pueden facilitar la estratificación e indexación de eventos clínicos específicos en grandes conjuntos de datos textuales de pacientes de síntomas, efectos secundarios y comorbilidades de registros médicos electrónicos, informes de eventos e informes de pruebas diagnósticas específicas. ^[24] Una aplicación de minería de texto en línea en la literatura biomédica es PubGene , un motor de búsqueda de acceso público que combina la minería de texto biomédico con la visualización de red. ^[25]^[26] GoPubMed es un motor de búsqueda basado en conocimiento para textos biomédicos. Las técnicas de minería de texto también nos permiten extraer conocimiento desconocido de documentos no estructurados en el ámbito clínico ^[27]

Aplicaciones de software

Los métodos y software de minería de texto también están siendo investigados y desarrollados por importantes empresas, incluidas IBM y Microsoft , para automatizar aún más los procesos de minería y análisis, y por diferentes empresas que trabajan en el área de búsqueda e indexación en general como una forma de mejorar sus resultados. Dentro del sector público, se ha concentrado mucho esfuerzo en la creación de software para rastrear y monitorear actividades terroristas . ^[28] Para fines de estudio, el software Weka es una de las opciones más populares en el mundo científico, actuando como un excelente punto de entrada para principiantes. Para los programadores de Python, existe un excelente kit de herramientas llamado NLTK para fines más generales. Para programadores más avanzados, también existe la biblioteca Gensim , que se enfoca en representaciones de texto basadas en incrustaciones de palabras.

Aplicaciones de medios en línea

Las grandes empresas de medios, como Tribune Company , están utilizando la minería de texto para aclarar la información y ofrecer a los lectores mejores experiencias de búsqueda, lo que a su vez aumenta la "fidelidad" del sitio y los ingresos. Además, en el back-end, los editores se benefician al poder compartir, asociar y empaquetar noticias entre propiedades, lo que aumenta significativamente las oportunidades de monetizar el contenido.

Aplicaciones empresariales y de marketing

El análisis de texto se está utilizando en los negocios, particularmente en el marketing, como en la gestión de relaciones con los clientes . ^[29] Coussement y Van den Poel (2008) ^[30]^[31] lo aplican para mejorar los modelos de análisis predictivo para la pérdida de clientes ( deserción de clientes ). ^[30] La minería de texto también se está aplicando en la predicción de retornos de acciones. ^[32]

Análisis de sentimientos

El análisis de sentimientos puede implicar el análisis de productos como películas, libros o reseñas de hoteles para estimar qué tan favorable es una reseña para el producto. ^[33] Tal análisis puede necesitar un conjunto de datos etiquetados o el etiquetado de la afectividad de las palabras. Se han creado recursos para la afectividad de las palabras y los conceptos para WordNet ^[34] y ConceptNet ^[35] respectivamente.

El texto se ha utilizado para detectar emociones en el área relacionada de la computación afectiva. ^[36] Los enfoques basados en texto para la computación afectiva se han utilizado en múltiples corpus, como evaluaciones de estudiantes, historias de niños y noticias.

Minería de literatura científica y aplicaciones académicas

La cuestión de la minería de textos es importante para los editores que poseen grandes bases de datos de información que necesitan indexar para su recuperación. Esto es especialmente cierto en las disciplinas científicas, en las que la información muy específica suele estar contenida en el texto escrito. Por lo tanto, se han tomado iniciativas como la propuesta de Nature para una Interfaz de Minería de Texto Abierta (OTMI, por sus siglas en inglés) y la Definición de Tipo de Documento de Publicación de Revistas (DTD, por sus siglas en inglés) común de los Institutos Nacionales de Salud que proporcionaría pistas semánticas a las máquinas para responder a consultas específicas contenidas en el texto sin eliminar las barreras de los editores al acceso público.

Las instituciones académicas también se han involucrado en la iniciativa de minería de texto:

El Centro Nacional de Minería de Textos (NaCTeM) es el primer centro de minería de textos financiado con fondos públicos del mundo. NaCTeM es operado por la Universidad de Manchester ^[37] en estrecha colaboración con el Laboratorio Tsujii, ^[38] la Universidad de Tokio . ^[39] NaCTeM proporciona herramientas personalizadas, instalaciones de investigación y ofrece asesoramiento a la comunidad académica. Están financiados por el Comité Conjunto de Sistemas de Información (JISC) y dos de los consejos de investigación del Reino Unido ( EPSRC y BBSRC ). Con un enfoque inicial en la minería de textos en las ciencias biológicas y biomédicas , la investigación se ha expandido desde entonces a las áreas de las ciencias sociales .
En Estados Unidos, la Escuela de Información de la Universidad de California en Berkeley está desarrollando un programa llamado BioText para ayudar a los investigadores de biología en la extracción y análisis de textos.
El Portal de Análisis de Texto para Investigación (TAPoR), actualmente alojado en la Universidad de Alberta , es un proyecto académico para catalogar aplicaciones de análisis de texto y crear una puerta de entrada para investigadores nuevos en la práctica.

Métodos para la minería de literatura científica

Se han desarrollado métodos computacionales para ayudar a recuperar información de la literatura científica. Los enfoques publicados incluyen métodos para buscar ^[40] , determinar la novedad ^[41] y aclarar homónimos ^[42] entre informes técnicos.

Humanidades digitales y sociología computacional

El análisis automático de grandes corpus textuales ha creado la posibilidad de que los académicos analicen millones de documentos en varios idiomas con una intervención manual muy limitada. Las tecnologías facilitadoras clave han sido el análisis sintáctico, la traducción automática , la categorización de temas y el aprendizaje automático.

Red narrativa de las elecciones estadounidenses de 2012 ^[43]

El análisis automático de corpus textuales ha permitido la extracción de actores y sus redes relacionales a gran escala, convirtiendo los datos textuales en datos de red. Las redes resultantes, que pueden contener miles de nodos, se analizan luego utilizando herramientas de la teoría de redes para identificar los actores clave, las comunidades o partes clave y las propiedades generales como la robustez o la estabilidad estructural de la red general, o la centralidad de ciertos nodos. ^[44] Esto automatiza el enfoque introducido por el análisis narrativo cuantitativo, ^[45] mediante el cual los tripletes sujeto-verbo-objeto se identifican con pares de actores vinculados por una acción, o pares formados por actor-objeto. ^[43]

El análisis de contenido ha sido una parte tradicional de las ciencias sociales y los estudios de medios durante mucho tiempo. La automatización del análisis de contenido ha permitido que se produzca una revolución de " big data " en ese campo, con estudios en redes sociales y contenido de periódicos que incluyen millones de noticias. El sesgo de género , la legibilidad , la similitud de contenido, las preferencias del lector e incluso el estado de ánimo se han analizado con base en métodos de minería de texto en millones de documentos. ^[46]^[47]^[48]^[49]^[50] El análisis de legibilidad, sesgo de género y sesgo de tema se demostró en Flaounas et al. ^[51] mostrando cómo diferentes temas tienen diferentes sesgos de género y niveles de legibilidad; también se demostró la posibilidad de detectar patrones de estado de ánimo en una vasta población analizando el contenido de Twitter. ^[52]^[53]

Software

Los programas informáticos de minería de texto están disponibles en muchas empresas y fuentes comerciales y de código abierto .

Derecho de propiedad intelectual

Situación en Europa

Vídeo de la campaña Fix Copyright que explica el TDM y sus problemas de derechos de autor en la UE, 2016 [3:51]

Según las leyes europeas de derechos de autor y bases de datos , la minería de obras protegidas por derechos de autor (como la minería web ) sin el permiso del propietario de los derechos de autor es ilegal. En el Reino Unido, en 2014, por recomendación de la revisión de Hargreaves, el gobierno modificó la ley de derechos de autor ^[54] para permitir la minería de texto como una limitación y excepción . Fue el segundo país del mundo en hacerlo, después de Japón , que introdujo una excepción específica para la minería en 2009. Sin embargo, debido a la restricción de la Directiva de la Sociedad de la Información (2001), la excepción del Reino Unido solo permite la minería de contenido con fines no comerciales. La ley de derechos de autor del Reino Unido no permite que esta disposición sea anulada por los términos y condiciones contractuales.

En 2013, la Comisión Europea facilitó el debate entre las partes interesadas sobre la minería de textos y datos , bajo el título Licencias para Europa. ^[55] El hecho de que la solución a esta cuestión jurídica se centrara en las licencias, y no en las limitaciones y excepciones a la legislación sobre derechos de autor, llevó a los representantes de universidades, investigadores, bibliotecas, grupos de la sociedad civil y editores de acceso abierto a abandonar el diálogo con las partes interesadas en mayo de 2013. ^[56]

Situación en Estados Unidos

La ley de derechos de autor de los Estados Unidos , y en particular sus disposiciones sobre el uso justo , implica que la minería de textos en los Estados Unidos, así como en otros países donde se practica el uso justo, como Israel, Taiwán y Corea del Sur, se considera legal. Como la minería de textos es transformadora, es decir, no reemplaza la obra original, se considera legal en virtud del uso justo. Por ejemplo, como parte del acuerdo sobre Google Books, el juez que presidía el caso dictaminó que el proyecto de digitalización de libros protegidos por derechos de autor de Google era legal, en parte debido a los usos transformadores que mostraba el proyecto de digitalización, uno de los cuales era la minería de textos y datos. ^[57]

Situación en Australia

En la legislación sobre derechos de autor de Australia no existe ninguna excepción para la extracción de textos o datos en el marco de la Ley de Derechos de Autor de 1968. La Comisión de Reforma Jurídica de Australia ha señalado que es poco probable que la excepción de uso justo para "investigación y estudio" se extienda para cubrir ese tema, dado que iría más allá del requisito de la "porción razonable". ^[58]

Trascendencia

Hasta hace poco, los sitios web utilizaban con mayor frecuencia búsquedas basadas en texto, que solo encontraban documentos que contenían palabras o frases específicas definidas por el usuario. Ahora, mediante el uso de una web semántica , la minería de texto puede encontrar contenido en función del significado y el contexto (en lugar de solo por una palabra específica). Además, el software de minería de texto se puede utilizar para crear grandes dossiers de información sobre personas y eventos específicos. Por ejemplo, se pueden crear grandes conjuntos de datos basados en datos extraídos de informes de noticias para facilitar el análisis de redes sociales o la contrainteligencia . En efecto, el software de minería de texto puede actuar en una capacidad similar a un analista de inteligencia o bibliotecario de investigación, aunque con un alcance de análisis más limitado. La minería de texto también se utiliza en algunos filtros de correo no deseado como una forma de determinar las características de los mensajes que probablemente sean anuncios u otro material no deseado. La minería de texto juega un papel importante en la determinación del sentimiento del mercado financiero .

Véase también

Minería de conceptos
Procesamiento de documentos
Búsqueda de texto completo
Lista de software de minería de texto
Sentimiento del mercado
Resolución de nombres (semántica y extracción de texto)
Reconocimiento de entidades nombradas
Análisis de noticias
Aprendizaje de ontología
Vinculación de registros
Minería de patrones secuenciales (minería de cadenas y secuencias)
tejas w
Minería web , una tarea que puede implicar minería de texto (por ejemplo, primero encontrar páginas web apropiadas clasificando las páginas web rastreadas, luego extraer la información deseada del contenido de texto de estas páginas consideradas relevantes)

Referencias

Citas

^ "Marti Hearst: ¿Qué es la minería de texto?".
^ Hotho, A., Nürnberger, A. y Paaß, G. (2005). "Un breve estudio de la minería de textos". En Ldv Forum, vol. 20(1), págs. 19-62
^ Feldman, R. y Sanger, J. (2007). Manual de minería de textos. Cambridge University Press. Nueva York
^ [1] Archivado el 29 de noviembre de 2009 en Wayback Machine .
^ "Taller KDD-2000 sobre minería de textos: convocatoria de artículos". Cs.cmu.edu . Consultado el 23 de febrero de 2015 .
^ [2] Archivado el 3 de marzo de 2012 en Wayback Machine.
^ Hobbs, Jerry R.; Walker, Donald E.; Amsler, Robert A. (1982). "Acceso al texto estructurado mediante lenguaje natural". Actas de la 9.ª conferencia sobre lingüística computacional . Vol. 1. págs. 127–32. doi :10.3115/991813.991833. S2CID 6433117.
^ "Datos no estructurados y la regla del 80 por ciento". Breakthrough Analysis. Agosto de 2008. Consultado el 23 de febrero de 2015 .
^ Antunes, João (14 de noviembre de 2018). Exploração de informações contextuais para enriquecimento semântico em representações de textos (tesis Mestrado em Ciências de Computação e Matemática Computacional) (en portugues). São Carlos: Universidad de São Paulo. doi : 10.11606/d.55.2019.tde-03012019-103253 .
^ Moro, Andrea; Raganato, Alessandro; Navigli, Roberto (diciembre de 2014). "Entity Linking meets Word Sense Disambiguation: a Unified Approach". Transacciones de la Asociación de Lingüística Computacional . 2 : 231–244. doi : 10.1162/tacl_a_00179 . ISSN 2307-387X.
^ Chang, Wui Lee; Tay, Kai Meng; Lim, Chee Peng (6 de febrero de 2017). "Un nuevo modelo evolutivo basado en árboles con reaprendizaje local para la agrupación y visualización de documentos". Neural Processing Letters . 46 (2): 379–409. doi :10.1007/s11063-017-9597-3. ISSN 1370-4621. S2CID 9100902.
^ Benchimol, Jonathan; Kazinnik, Sophia; Saadon, Yossi (2022). "Metodologías de minería de texto con R: una aplicación a textos de bancos centrales". Aprendizaje automático con aplicaciones . 8 : 100286. doi : 10.1016/j.mlwa.2022.100286 . S2CID 243798160.
^ Mehl, Matthias R. (2006). "Análisis cuantitativo de textos". Manual de medición multimétodo en psicología . p. 141. doi :10.1037/11383-011. ISBN 978-1-59147-318-3.
^ Pang, Bo; Lee, Lillian (2008). "Minería de opiniones y análisis de sentimientos". Fundamentos y tendencias en la recuperación de información . 2 (1–2): 1–135. CiteSeerX 10.1.1.147.2755 . doi :10.1561/1500000011. ISSN 1554-0669. S2CID 207178694.
^ Paltoglou, Georgios; Thelwall, Mike (1 de septiembre de 2012). "Twitter, MySpace, Digg: análisis de sentimientos no supervisado en las redes sociales". ACM Transactions on Intelligent Systems and Technology . 3 (4): 66. doi :10.1145/2337542.2337551. ISSN 2157-6904. S2CID 16600444.
^ "Análisis de sentimientos en Twitter < SemEval-2017 Tarea 4". alt.qcri.org . Consultado el 2 de octubre de 2018 .
^ Zanasi, Alessandro (2009). "Armas virtuales para guerras reales: minería de textos para la seguridad nacional". Actas del Taller internacional sobre inteligencia computacional en seguridad para sistemas de información CISIS'08 . Avances en computación blanda. Vol. 53. p. 53. doi :10.1007/978-3-540-88181-0_7. ISBN 978-3-540-88180-3.
^ Badal, Varsha D.; Kundrotas, Petras J.; Vakser, Ilya A. (9 de diciembre de 2015). "Minería de texto para acoplamiento de proteínas". PLOS Computational Biology . 11 (12): e1004630. Bibcode :2015PLSCB..11E4630B. doi : 10.1371/journal.pcbi.1004630 . ISSN 1553-7358. PMC 4674139 . PMID 26650466.
^ Cohen, K. Bretonnel; Hunter, Lawrence (2008). "Introducción a la minería de texto". PLOS Computational Biology . 4 (1): e20. Bibcode :2008PLSCB...4...20C. doi : 10.1371/journal.pcbi.0040020 . PMC 2217579 . PMID 18225946.
^ Badal, V. D; Kundrotas, P. J; Vakser, I. A (2015). "Minería de texto para acoplamiento de proteínas". PLOS Computational Biology . 11 (12): e1004630. Bibcode :2015PLSCB..11E4630B. doi : 10.1371/journal.pcbi.1004630 . PMC 4674139 . PMID 26650466.
^ Papanikolaou, Nikolas; Pavlopoulos, Georgios A.; Teodosiou, Teodosio; Iliopoulos, Ioannis (2015). "Predicciones de la interacción proteína-proteína utilizando métodos de minería de texto". Métodos . 74 : 47–53. doi :10.1016/j.ymeth.2014.10.026. ISSN 1046-2023. PMID 25448298.
^ Szklarczyk, Damian; Morris, John H; Cook, Helen; Kuhn, Michael; Wyder, Stefan; Simonovic, Milan; Santos, Alberto; Doncheva, Nadezhda T; Roth, Alexander (18 de octubre de 2016). "La base de datos STRING en 2017: redes de asociación proteína-proteína con control de calidad, ampliamente accesibles". Investigación de ácidos nucleicos . 45 (D1): D362–D368. doi :10.1093/nar/gkw937. ISSN 0305-1048. PMC 5210637 . PMID 27924014.
^ Liem, David A.; Murali, Sanjana; Sigdel, Dibakar; Shi, Yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H.; Wang, Wei; Ping, Peipei; Han, Jiawei (1 de octubre de 2018). "Minería de frases de datos textuales para analizar patrones de proteínas de la matriz extracelular en enfermedades cardiovasculares". Revista estadounidense de fisiología. Fisiología cardíaca y circulatoria . 315 (4): H910–H924. doi :10.1152/ajpheart.00175.2018. ISSN 1522-1539. PMC 6230912. PMID 29775406 .
^ Van Le, D; Montgomery, J; Kirkby, KC; Scanlan, J (10 de agosto de 2018). "Predicción de riesgos mediante el procesamiento del lenguaje natural de registros electrónicos de salud mental en un entorno de psiquiatría forense para pacientes hospitalizados". Journal of Biomedical Informatics . 86 : 49–58. doi : 10.1016/j.jbi.2018.08.007 . PMID 30118855.
^ Jenssen, Tor-Kristian; Laegreid, Astrid; Komorowski, enero; Hovig, Eivind (2001). "Una red bibliográfica de genes humanos para el análisis de alto rendimiento de la expresión génica". Genética de la Naturaleza . 28 (1): 21–8. doi :10.1038/ng0501-21. PMID 11326270. S2CID 8889284.
^ Masys, Daniel R. (2001). "Vinculación de los datos de microarrays con la literatura". Nature Genetics . 28 (1): 9–10. doi :10.1038/ng0501-9. PMID 11326264. S2CID 52848745.
^ Renganathan, Vinaitheerthan (2017). "Minería de texto en el dominio biomédico con énfasis en la agrupación de documentos". Investigación en informática sanitaria . 23 (3): 141–146. doi :10.4258/hir.2017.23.3.141. ISSN 2093-3681. PMC 5572517. PMID 28875048 .
^ [3] Archivado el 4 de octubre de 2013 en Wayback Machine.
^ "Text Analytics". Medallia . Consultado el 23 de febrero de 2015 .
^ ab Coussement, Kristof; Van Den Poel, Dirk (2008). "Integración de la voz de los clientes a través de correos electrónicos de centros de llamadas en un sistema de soporte de decisiones para la predicción de la pérdida de clientes". Información y gestión . 45 (3): 164–74. CiteSeerX 10.1.1.113.3238 . doi :10.1016/j.im.2008.01.005.
^ Coussement, Kristof; Van Den Poel, Dirk (2008). "Mejora de la gestión de quejas de clientes mediante la clasificación automática de correos electrónicos utilizando características de estilo lingüístico como predictores". Decision Support Systems . 44 (4): 870–82. doi :10.1016/j.dss.2007.10.010.
^ Ramiro H. Gálvez; Agustín Gravano (2017). "Evaluación de la utilidad de la minería de mensajes en línea en sistemas automáticos de predicción de acciones". Journal of Computational Science . 19 : 1877–7503. doi :10.1016/j.jocs.2017.01.001. hdl : 11336/60065 .
^ Pang, Bo; Lee, Lillian; Vaithyanathan, Shivakumar (2002). "¿Pulgar hacia arriba?". Actas de la conferencia ACL-02 sobre métodos empíricos en el procesamiento del lenguaje natural . Vol. 10. págs. 79–86. doi :10.3115/1118693.1118704. S2CID 7105713.
^ Alessandro Valitutti; Carlo Strapparava; Oliviero Stock (2005). "Desarrollo de recursos léxicos afectivos" (PDF) . PsychNology Journal . 2 (1): 61–83.
^ Erik Cambria; Robert Speer; Catalina Havasi; Amir Hussain (2010). "SenticNet: un recurso semántico disponible públicamente para la minería de opiniones" (PDF) . Actas de AAAI CSK . págs. 14-18.
^ Calvo, Rafael A; d'Mello, Sidney (2010). "Detección de afectos: una revisión interdisciplinaria de modelos, métodos y sus aplicaciones". IEEE Transactions on Affective Computing . 1 (1): 18–37. doi :10.1109/T-AFFC.2010.1. S2CID 753606.
^ "La Universidad de Manchester". Manchester.ac.uk . Consultado el 23 de febrero de 2015 .
^ "Laboratorio Tsujii". Tsujii.is.su-tokyo.ac.jp. Archivado desde el original el 7 de marzo de 2012. Consultado el 23 de febrero de 2015 .
^ "La Universidad de Tokio". UTokyo . Consultado el 23 de febrero de 2015 .
^ Shen, Jiaming; Xiao, Jinfeng; Él, Xinwei; Shang, Jingbo; Sinha, Saurabh; Han, Jiawei (27 de junio de 2018). Búsqueda de conjuntos de entidades de literatura científica: un enfoque de clasificación no supervisado . ACM. págs. 565–574. doi :10.1145/3209978.3210055. ISBN 978-1-4503-5657-2. Número de identificación del sujeto 13748283.
^ Walter, Lothar; Radauer, Alfred; Moehrle, Martin G. (6 de febrero de 2017). "La belleza de la mariposa azufrada: novedad de las patentes identificadas mediante análisis del entorno cercano basado en minería de texto". Cienciometría . 111 (1): 103–115. doi :10.1007/s11192-017-2267-4. ISSN 0138-9130. S2CID 11174676.
^ Roll, Uri; Correia, Ricardo A.; Berger-Tal, Oded (10 de marzo de 2018). "Uso del aprendizaje automático para desenredar homónimos en corpus de textos grandes". Biología de la conservación . 32 (3): 716–724. doi :10.1111/cobi.13044. ISSN 0888-8892. PMID 29086438. S2CID 3783779.
^ ab Análisis automatizado de las elecciones presidenciales de Estados Unidos mediante Big Data y análisis de redes; S Sudhahar, GA Veltri, N Cristianini; Big Data & Society 2 (1), 1-28, 2015
^ Análisis de redes de contenido narrativo en grandes corpus; S Sudhahar, G De Fazio, R Franzosi, N Cristianini; Natural Language Engineering, 1-32, 2013
^ Lansdall-Welfare, Thomas; Sudhahar, Saatviga; Thompson, James; Lewis, Justin; Equipo, FindMyPast Newspaper; Cristianini, Nello (9 de enero de 2017). "Análisis de contenido de 150 años de publicaciones periódicas británicas". Actas de la Academia Nacional de Ciencias . 114 (4): E457–E465. Bibcode :2017PNAS..114E.457L. doi : 10.1073/pnas.1606380114 . ISSN 0027-8424. PMC 5278459 . PMID 28069962.
^ I. Flaounas, M. Turchi, O. Ali, N. Fyson, T. De Bie, N. Mosdell, J. Lewis, N. Cristianini, La estructura de la mediasfera de la UE, PLoS ONE, vol. 5(12), págs. e14243, 2010.
^ Predicción de eventos de la Web social con aprendizaje estadístico V Lampos, N Cristianini; ACM Transactions on Intelligent Systems and Technology (TIST) 3 (4), 72
^ NOAM: sistema de análisis y seguimiento de medios de comunicación; I Flaounas, O Ali, M Turchi, T Snowsill, F Nicart, T De Bie, N Cristianini Actas de la conferencia internacional ACM SIGMOD 2011 sobre gestión de datos
^ Descubrimiento automático de patrones en contenidos multimedia, N Cristianini, Combinatorial Pattern Matching, 2-13, 2011
^ I. Flaounas, O. Ali, T. Lansdall-Welfare, T. De Bie, N. Mosdell, J. Lewis, N. Cristianini, MÉTODOS DE INVESTIGACIÓN EN LA ERA DEL PERIODISMO DIGITAL, Periodismo digital, Routledge, 2012
^ Variaciones del estado de ánimo circadiano en el contenido de Twitter; Fabon Dzogang, Stafford Lightman, Nello Cristianini. Brain and Neuroscience Advances, 1, 2398212817744501.
^ Efectos de la recesión en el estado de ánimo público en el Reino Unido; T Lansdall-Welfare, V Lampos, N Cristianini; Sesión de Mining Social Network Dynamics (MSND) sobre aplicaciones de redes sociales
^ Los investigadores obtienen el derecho a la minería de datos según las nuevas leyes de derechos de autor del Reino Unido Archivado el 9 de junio de 2014 en Wayback Machine
^ "Licencias para Europa – Diálogo estructurado con las partes interesadas 2013". Comisión Europea . Consultado el 14 de noviembre de 2014 .
^ "Text and Data Mining: Its importance and the need for change in Europe" (Minería de textos y datos: su importancia y la necesidad de cambio en Europa). Asociación de Bibliotecas de Investigación Europeas . 25 de abril de 2013. Archivado desde el original el 29 de noviembre de 2014. Consultado el 14 de noviembre de 2014 .
^ "El juez concede sentencia sumaria a favor de Google Books: una victoria en materia de uso justo". Lexology . Antonelli Law Ltd. 19 de noviembre de 2013 . Consultado el 14 de noviembre de 2014 .
^ "Text and data mining". Comisión Australiana de Reforma Jurídica . 4 de junio de 2013. Consultado el 10 de febrero de 2023 .

Fuentes

Ananiadou, S. y McNaught, J. (Editores) (2006). Minería de textos para biología y biomedicina . Artech House Books. ISBN 978-1-58053-984-5
Bilisoly, R. (2008). Minería de texto práctica con Perl . Nueva York: John Wiley & Sons. ISBN 978-0-470-17643-6
Feldman, R. y Sanger, J. (2006). Manual de minería de textos . Nueva York: Cambridge University Press. ISBN 978-0-521-83657-9
Hotho, A., Nürnberger, A. y Paaß, G. (2005). "Un breve estudio de la minería de textos". En Ldv Forum, vol. 20(1), págs. 19-62
Indurkhya, N. y Damerau, F. (2010). Manual de procesamiento del lenguaje natural , 2.ª edición. Boca Raton, FL: CRC Press. ISBN 978-1-4200-8592-1
Kao, A., y Poteet, S. (Editores). Procesamiento del lenguaje natural y minería de texto . Springer. ISBN 1-84628-175-X
Konchady, M. Programación de aplicaciones de minería de texto (serie de programación) . Charles River Media. ISBN 1-58450-460-9
Manning, C., y Schutze, H. (1999). Fundamentos del procesamiento estadístico del lenguaje natural . Cambridge, MA: MIT Press. ISBN 978-0-262-13360-9
Miner, G., Elder, J., Hill. T., Nisbet, R., Delen, D. y Fast, A. (2012). Minería de texto práctica y análisis estadístico para aplicaciones de datos de texto no estructurados . Elsevier Academic Press. ISBN 978-0-12-386979-1
McKnight, W. (2005). "Construcción de inteligencia empresarial: minería de datos de texto en inteligencia empresarial". DM Review , 21–22.
Srivastava, A., y Sahami. M. (2009). Minería de texto: clasificación, agrupamiento y aplicaciones . Boca Raton, FL: CRC Press. ISBN 978-1-4200-5940-3
Zanasi, A. (Editor) (2007). Minería de texto y sus aplicaciones a la inteligencia, la gestión de relaciones con los clientes y la gestión del conocimiento . WIT Press. ISBN 978-1-84564-131-3

Enlaces externos

Marti Hearst: ¿Qué es la minería de texto? (octubre de 2003)
Extracción automática de contenido, Consorcio de datos lingüísticos Archivado el 25 de septiembre de 2013 en Wayback Machine
Extracción automática de contenido, NIST