stringtranslate.com

Extracción de textos

La minería de texto , minería de datos de texto ( TDM ) o análisis de texto es el proceso de derivar información de alta calidad a partir de un texto . Implica "el descubrimiento por computadora de información nueva, previamente desconocida, extrayendo automáticamente información de diferentes recursos escritos". [1] Los recursos escritos pueden incluir sitios web , libros , correos electrónicos , reseñas y artículos. La información de alta calidad generalmente se obtiene diseñando patrones y tendencias mediante medios como el aprendizaje de patrones estadísticos . Según Hotho et al. (2005) podemos distinguir entre tres perspectivas diferentes de la minería de textos: extracción de información , minería de datos y proceso de descubrimiento de conocimiento en bases de datos (KDD). [2] La minería de texto generalmente implica el proceso de estructurar el texto de entrada (normalmente analizarlo , junto con la adición de algunas características lingüísticas derivadas y la eliminación de otras, y la posterior inserción en una base de datos ), derivar patrones dentro de los datos estructurados y, finalmente, evaluación e interpretación del resultado. La "alta calidad" en la minería de textos generalmente se refiere a alguna combinación de relevancia , novedad e interés. Las tareas típicas de minería de textos incluyen categorización de textos , agrupamiento de textos , extracción de conceptos/entidades, producción de taxonomías granulares, análisis de sentimientos , resumen de documentos y modelado de relaciones entre entidades ( es decir , aprendizaje de relaciones entre entidades nombradas ).

El análisis de texto implica recuperación de información , análisis léxico para estudiar distribuciones de frecuencia de palabras, reconocimiento de patrones , etiquetado / anotación , extracción de información , técnicas de extracción de datos que incluyen análisis de enlaces y asociaciones, visualización y análisis predictivo . El objetivo general es, esencialmente, convertir texto en datos para su análisis, mediante la aplicación de procesamiento del lenguaje natural (PLN), diferentes tipos de algoritmos y métodos analíticos. Una fase importante de este proceso es la interpretación de la información recopilada.

Una aplicación típica es escanear un conjunto de documentos escritos en un lenguaje natural y modelar el conjunto de documentos con fines de clasificación predictiva o completar una base de datos o un índice de búsqueda con la información extraída. El documento es el elemento básico a la hora de iniciarse en la minería de textos. Aquí definimos un documento como una unidad de datos textuales, que normalmente existe en muchos tipos de colecciones. [3]

Análisis de texto

El análisis de texto describe un conjunto de técnicas lingüísticas , estadísticas y de aprendizaje automático que modelan y estructuran el contenido de información de fuentes textuales para inteligencia empresarial , análisis exploratorio de datos , investigación o investigación. [4] El término es aproximadamente sinónimo de minería de textos; de hecho, Ronen Feldman modificó una descripción de 2000 de "minería de textos" [5] en 2004 para describir "análisis de textos". [6] Este último término se utiliza ahora con mayor frecuencia en entornos empresariales, mientras que "minería de textos" se utiliza en algunas de las primeras áreas de aplicación, que datan de la década de 1980, [7] en particular la investigación en ciencias biológicas y la inteligencia gubernamental.

El término análisis de texto también describe la aplicación del análisis de texto para responder a problemas comerciales, ya sea de forma independiente o junto con consultas y análisis de datos numéricos de campo. Es una perogrullada que el 80 por ciento de la información relevante para los negocios se origina en forma no estructurada , principalmente texto. [8] Estas técnicas y procesos descubren y presentan conocimientos (hechos, reglas comerciales y relaciones) que de otro modo estarían encerrados en forma textual, impenetrables al procesamiento automatizado.

Procesos de análisis de texto

Las subtareas (componentes de un esfuerzo más amplio de análisis de texto) suelen incluir:

Aplicaciones

La tecnología de minería de textos ahora se aplica ampliamente a una amplia variedad de necesidades gubernamentales, de investigación y comerciales. Todos estos grupos pueden utilizar la minería de textos para la gestión de registros y la búsqueda de documentos relevantes para sus actividades diarias. Los profesionales del derecho pueden utilizar la minería de textos para el descubrimiento electrónico , por ejemplo. Los gobiernos y los grupos militares utilizan la minería de textos con fines de inteligencia y seguridad nacional . Los investigadores científicos incorporan enfoques de minería de texto en los esfuerzos por organizar grandes conjuntos de datos de texto (es decir, abordar el problema de los datos no estructurados ), para determinar ideas comunicadas a través del texto (por ejemplo, análisis de sentimientos en las redes sociales [14] [15] [16] ). y apoyar los descubrimientos científicos en campos como las ciencias biológicas y la bioinformática . En los negocios, las aplicaciones se utilizan para respaldar la inteligencia competitiva y la colocación automatizada de anuncios , entre muchas otras actividades.

Aplicaciones de seguridad

Muchos paquetes de software de minería de texto se comercializan para aplicaciones de seguridad , especialmente para monitoreo y análisis de fuentes de texto sin formato en línea, como noticias de Internet , blogs , etc., con fines de seguridad nacional . [17] También participa en el estudio del cifrado / descifrado de texto .

Aplicaciones biomédicas

Un diagrama de flujo de un protocolo de minería de texto.
Un ejemplo de un protocolo de minería de textos utilizado en un estudio de complejos proteína-proteína, o acoplamiento de proteínas . [18]

Se ha descrito una variedad de aplicaciones de minería de textos en la literatura biomédica, [19] que incluyen enfoques computacionales para ayudar con estudios sobre acoplamiento de proteínas , [20] interacciones de proteínas , [21] [22] y asociaciones entre proteínas y enfermedades. [23] Además, con grandes conjuntos de datos textuales de pacientes en el campo clínico, conjuntos de datos de información demográfica en estudios de población e informes de eventos adversos, la minería de textos puede facilitar los estudios clínicos y la medicina de precisión. Los algoritmos de minería de texto pueden facilitar la estratificación e indexación de eventos clínicos específicos en grandes conjuntos de datos textuales de pacientes sobre síntomas, efectos secundarios y comorbilidades de registros médicos electrónicos, informes de eventos e informes de pruebas de diagnóstico específicas. [24] Una aplicación de minería de textos en línea en la literatura biomédica es PubGene , un motor de búsqueda de acceso público que combina la minería de textos biomédicos con visualización de redes. [25] [26] GoPubMed es un motor de búsqueda de textos biomédicos basado en el conocimiento. Las técnicas de minería de textos también nos permiten extraer conocimientos desconocidos de documentos no estructurados en el ámbito clínico [27]

Aplicaciones de software

Los métodos y software de minería de textos también están siendo investigados y desarrollados por grandes empresas, incluidas IBM y Microsoft , para automatizar aún más los procesos de minería y análisis, y por diferentes empresas que trabajan en el área de búsqueda e indexación en general como una forma de mejorar sus resultados. . Dentro del sector público, se han concentrado muchos esfuerzos en crear software para rastrear y monitorear actividades terroristas . [28] Para fines de estudio, el software Weka es una de las opciones más populares en el mundo científico y actúa como un excelente punto de entrada para principiantes. Para los programadores de Python, existe un excelente conjunto de herramientas llamado NLTK para propósitos más generales. Para programadores más avanzados, también existe la biblioteca Gensim , que se centra en representaciones de texto basadas en incrustaciones de palabras.

Aplicaciones de medios en línea

La minería de texto está siendo utilizada por grandes empresas de medios, como Tribune Company , para aclarar información y brindar a los lectores mejores experiencias de búsqueda, lo que a su vez aumenta la "fiabilidad" del sitio y los ingresos. Además, en el back-end, los editores se benefician al poder compartir, asociar y empaquetar noticias entre propiedades, lo que aumenta significativamente las oportunidades de monetizar el contenido.

Aplicaciones comerciales y de marketing.

El análisis de texto se utiliza en los negocios, particularmente en marketing, como en la gestión de relaciones con los clientes . [29] Coussement y Van den Poel (2008) [30] [31] lo aplican para mejorar los modelos de análisis predictivo de la pérdida de clientes ( customer attrition ). [30] La minería de textos también se está aplicando en la predicción de la rentabilidad de las acciones. [32]

Análisis de los sentimientos

El análisis de sentimientos puede implicar el análisis de productos como películas, libros o reseñas de hoteles para estimar qué tan favorable es una reseña para el producto. [33] Un análisis de este tipo puede necesitar un conjunto de datos etiquetados o un etiquetado de la afectividad de las palabras. Se han creado recursos para la afectividad de palabras y conceptos para WordNet [34] y ConceptNet , [35] respectivamente.

El texto se ha utilizado para detectar emociones en el área relacionada de la informática afectiva. [36] Los enfoques basados ​​en texto para la computación afectiva se han utilizado en múltiples corpus, como evaluaciones de estudiantes, historias de niños y noticias.

Minería de literatura científica y aplicaciones académicas.

La cuestión de la minería de textos es importante para los editores que mantienen grandes bases de datos de información que necesitan indexación para su recuperación. Esto es especialmente cierto en las disciplinas científicas, en las que el texto escrito suele contener información muy específica. Por lo tanto, se han tomado iniciativas como la propuesta de Nature para una interfaz de minería de texto abierta (OTMI) y la definición de tipo de documento de publicación de revistas (DTD) común de los Institutos Nacionales de Salud que proporcionaría pistas semánticas a las máquinas para responder consultas específicas contenidas en el texto sin eliminar las barreras de los editores al acceso público.

Las instituciones académicas también se han involucrado en la iniciativa de minería de textos:

Métodos para la extracción de literatura científica.

Se han desarrollado métodos computacionales para ayudar con la recuperación de información de la literatura científica. Los enfoques publicados incluyen métodos para buscar, [40] determinar la novedad, [41] y aclarar homónimos [42] entre informes técnicos.

Humanidades digitales y sociología computacional.

El análisis automático de vastos corpus textuales ha creado la posibilidad para que los académicos analicen millones de documentos en múltiples idiomas con una intervención manual muy limitada. Las tecnologías habilitadoras clave han sido el análisis, la traducción automática , la categorización de temas y el aprendizaje automático.

Red narrativa de las elecciones estadounidenses de 2012 [43]

El análisis automático de corpus textuales ha permitido la extracción de actores y sus redes relacionales a gran escala, convirtiendo datos textuales en datos de red. Las redes resultantes, que pueden contener miles de nodos, se analizan utilizando herramientas de la teoría de redes para identificar los actores clave, las comunidades o partes clave y propiedades generales como la robustez o la estabilidad estructural de la red general, o la centralidad de ciertos nodos. [44] Esto automatiza el enfoque introducido por el análisis narrativo cuantitativo, [45] mediante el cual los tripletes sujeto-verbo-objeto se identifican con pares de actores vinculados por una acción, o pares formados por actor-objeto. [43]

El análisis de contenido ha sido una parte tradicional de las ciencias sociales y los estudios de medios durante mucho tiempo. La automatización del análisis de contenidos ha permitido que se produzca una revolución del " big data " en ese campo, con estudios en redes sociales y contenidos periodísticos que incluyen millones de noticias. El sesgo de género , la legibilidad , la similitud de contenido, las preferencias del lector e incluso el estado de ánimo se han analizado basándose en métodos de extracción de texto en millones de documentos. [46] [47] [48] [49] [50] El análisis de legibilidad, sesgo de género y sesgo de tema se demostró en Flaounas et al. [51] muestra cómo diferentes temas tienen diferentes sesgos de género y niveles de legibilidad; También se demostró la posibilidad de detectar patrones de humor en una gran población analizando el contenido de Twitter. [52] [53]

Software

Los programas informáticos de minería de textos están disponibles en muchas empresas y fuentes comerciales y de código abierto . Ver Lista de software de minería de texto .

Ley de Propiedad Intelectual

Situación en Europa

Vídeo de la campaña Fix Copyright que explica TDM y sus problemas de derechos de autor en la UE, 2016 [3:51]

Según las leyes europeas de derechos de autor y bases de datos , la extracción de obras con derechos de autor (como la minería web ) sin el permiso del propietario de los derechos de autor es ilegal. En el Reino Unido, en 2014, por recomendación de la revisión de Hargreaves, el gobierno modificó la ley de derechos de autor [54] para permitir la minería de textos como limitación y excepción . Fue el segundo país del mundo en hacerlo, después de Japón , que introdujo una excepción específica para la minería en 2009. Sin embargo, debido a la restricción de la Directiva sobre la Sociedad de la Información (2001), la excepción del Reino Unido sólo permite la minería de contenidos para personas no relacionadas con la minería. propósitos comerciales. La ley de derechos de autor del Reino Unido no permite que esta disposición sea anulada por términos y condiciones contractuales.

La Comisión Europea facilitó el debate entre las partes interesadas sobre la minería de textos y datos en 2013, bajo el título Licencias para Europa. [55] El hecho de que la solución a esta cuestión jurídica se centrara en las licencias, y no en las limitaciones y excepciones a la ley de derechos de autor, llevó a representantes de universidades, investigadores, bibliotecas, grupos de la sociedad civil y editores de acceso abierto a abandonar el diálogo con las partes interesadas en mayo. 2013. [56]

Situación en los Estados Unidos

La ley de derechos de autor de EE. UU ., y en particular sus disposiciones sobre uso legítimo , significa que la minería de textos en Estados Unidos, así como en otros países de uso legítimo como Israel, Taiwán y Corea del Sur, se considera legal. Como la minería de textos es transformadora, lo que significa que no reemplaza el trabajo original, se considera legal bajo uso legítimo. Por ejemplo, como parte del acuerdo sobre Google Books, el juez que presidió el caso dictaminó que el proyecto de digitalización de libros con derechos de autor de Google era legal, en parte debido a los usos transformadores que mostraba el proyecto de digitalización; uno de esos usos era la minería de textos y datos. . [57]

Situación en Australia

No existe ninguna excepción en la ley de derechos de autor australiana para la extracción de textos o datos dentro de la Ley de derechos de autor de 1968 . La Comisión de Reforma Legislativa de Australia ha señalado que es poco probable que la excepción de "investigación y estudio" en el trato justo se extienda para cubrir ese tema, dado que estaría más allá del requisito de la "porción razonable". [58]

Trascendencia

Hasta hace poco, los sitios web utilizaban con mayor frecuencia búsquedas basadas en texto, que sólo encontraban documentos que contenían palabras o frases específicas definidas por el usuario. Ahora, mediante el uso de una web semántica , la minería de textos puede encontrar contenido basado en el significado y el contexto (en lugar de solo por una palabra específica). Además, el software de minería de textos se puede utilizar para crear grandes expedientes de información sobre personas y eventos específicos. Por ejemplo, se pueden construir grandes conjuntos de datos basados ​​en datos extraídos de informes de noticias para facilitar el análisis de redes sociales o la contrainteligencia . En efecto, el software de minería de textos puede actuar en una capacidad similar a la de un analista de inteligencia o un bibliotecario de investigación, aunque con un alcance de análisis más limitado. La minería de texto también se utiliza en algunos filtros de spam de correo electrónico como una forma de determinar las características de los mensajes que probablemente sean anuncios u otro material no deseado. La minería de textos juega un papel importante en la determinación del sentimiento del mercado financiero .

Ver también

Referencias

Citas

  1. ^ "Marti Hearst: ¿Qué es la minería de textos?".
  2. ^ Hotho, A., Nürnberger, A. y Paaß, G. (2005). "Un breve estudio sobre la minería de textos". En Foro Ldv, vol. 20(1), pág. 19-62
  3. ^ Feldman, R. y Sanger, J. (2007). El manual de minería de textos. Prensa de la Universidad de Cambridge. Nueva York
  4. ^ [1] Archivado el 29 de noviembre de 2009 en Wayback Machine .
  5. ^ "Taller KDD-2000 sobre minería de textos - Convocatoria de ponencias". Cs.cmu.edu . Consultado el 23 de febrero de 2015 .
  6. ^ [2] Archivado el 3 de marzo de 2012 en Wayback Machine .
  7. ^ Hobbs, Jerry R.; Walker, Donald E.; Amsler, Robert A. (1982). "Acceso en lenguaje natural a texto estructurado". Actas de la novena conferencia sobre lingüística computacional . vol. 1. págs. 127–32. doi :10.3115/991813.991833. S2CID  6433117.
  8. ^ "Datos no estructurados y la regla del 80 por ciento". Análisis de avances. Agosto de 2008 . Consultado el 23 de febrero de 2015 .
  9. ^ Antunes, João (14 de noviembre de 2018). Exploração de informações contextuais para enriquecimento semântico em representações de textos (tesis Mestrado em Ciências de Computação e Matemática Computacional) (en portugues). São Carlos: Universidad de São Paulo. doi : 10.11606/d.55.2019.tde-03012019-103253 .
  10. ^ Moro, Andrea; Raganato, Alessandro; Navigli, Roberto (diciembre de 2014). "La vinculación de entidades se une a la desambiguación del sentido de las palabras: un enfoque unificado". Transacciones de la Asociación de Lingüística Computacional . 2 : 231–244. doi : 10.1162/tacl_a_00179 . ISSN  2307-387X.
  11. ^ Chang, Wui Lee; Tay, Kai Meng; Lim, Chee Peng (6 de febrero de 2017). "Un nuevo modelo basado en árboles en evolución con reaprendizaje local para visualización y agrupación de documentos". Cartas de procesamiento neuronal . 46 (2): 379–409. doi :10.1007/s11063-017-9597-3. ISSN  1370-4621. S2CID  9100902.
  12. ^ Benchimol, Jonathan; Kazinnik, Sofía; Saadon, Yossi (2022). "Metodologías de minería de textos con R: una aplicación a los textos del banco central". Aprendizaje automático con aplicaciones . 8 : 100286. doi : 10.1016/j.mlwa.2022.100286 . S2CID  243798160.
  13. ^ Mehl, Matías R. (2006). "Análisis de texto cuantitativo". Manual de medición multimétodo en psicología . pag. 141. doi :10.1037/11383-011. ISBN 978-1-59147-318-3.
  14. ^ Pang, Bo; Lee, Lilian (2008). "Minería de opiniones y análisis de sentimientos". Fundamentos y tendencias en la recuperación de información . 2 (1–2): 1–135. CiteSeerX 10.1.1.147.2755 . doi :10.1561/1500000011. ISSN  1554-0669. S2CID  207178694. 
  15. ^ Paltoglou, Georgios; Thelwall, Mike (1 de septiembre de 2012). "Twitter, MySpace, Digg: análisis de sentimientos no supervisado en las redes sociales". Transacciones ACM sobre tecnología y sistemas inteligentes . 3 (4): 66. doi :10.1145/2337542.2337551. ISSN  2157-6904. S2CID  16600444.
  16. ^ "Análisis de sentimiento en Twitter <SemEval-2017 Tarea 4". alt.qcri.org . Consultado el 2 de octubre de 2018 .
  17. ^ Zanasi, Alessandro (2009). "Armas virtuales para guerras reales: minería de textos para la seguridad nacional". Actas del Taller Internacional sobre Inteligencia Computacional en Seguridad de Sistemas de Información CISIS'08 . Avances en Soft Computing. vol. 53. pág. 53. doi :10.1007/978-3-540-88181-0_7. ISBN 978-3-540-88180-3.
  18. ^ Badal, Varsha D.; Kundrotas, Petras J.; Vakser, Ilya A. (9 de diciembre de 2015). "Minería de textos para acoplamiento de proteínas". PLOS Biología Computacional . 11 (12): e1004630. Código Bib : 2015PLSCB..11E4630B. doi : 10.1371/journal.pcbi.1004630 . ISSN  1553-7358. PMC 4674139 . PMID  26650466. 
  19. ^ Cohen, K. Bretonnel; Cazador, Lawrence (2008). "Introducción a la minería de textos". PLOS Biología Computacional . 4 (1): e20. Código Bib : 2008PLSCB...4...20C. doi : 10.1371/journal.pcbi.0040020 . PMC 2217579 . PMID  18225946. 
  20. ^ Badal, VD; Kundrotas, PJ; Vakser, IA (2015). "Minería de textos para acoplamiento de proteínas". PLOS Biología Computacional . 11 (12): e1004630. Código Bib : 2015PLSCB..11E4630B. doi : 10.1371/journal.pcbi.1004630 . PMC 4674139 . PMID  26650466. 
  21. ^ Papanikolaou, Nikolas; Pavlopoulos, Georgios A.; Teodosiou, Teodosio; Iliopoulos, Ioannis (2015). "Predicciones de interacción proteína-proteína utilizando métodos de minería de texto". Métodos . 74 : 47–53. doi :10.1016/j.ymeth.2014.10.026. ISSN  1046-2023. PMID  25448298.
  22. ^ Szklarczyk, Damián; Morris, John H; Cocinera, Helena; Kuhn, Michael; Wyder, Stefan; Simonovic, Milán; Santos, Alberto; Doncheva, Nadezhda T; Roth, Alejandro (18 de octubre de 2016). "La base de datos STRING en 2017: redes de asociación proteína-proteína con control de calidad, ampliamente accesibles". Investigación de ácidos nucleicos . 45 (D1): D362-D368. doi :10.1093/nar/gkw937. ISSN  0305-1048. PMC 5210637 . PMID  27924014. 
  23. ^ Liem, David A.; Murali, Sanjana; Sigdel, Dibakar; Shi, Yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H.; Wang, Wei; Ping, Peipei; Han, Jiawei (1 de octubre de 2018). "Minería de frases de datos textuales para analizar patrones de proteínas de la matriz extracelular en enfermedades cardiovasculares". Revista americana de fisiología. Corazón y Fisiología Circulatoria . 315 (4): H910–H924. doi :10.1152/ajpheart.00175.2018. ISSN  1522-1539. PMC 6230912 . PMID  29775406. 
  24. ^ Van Le, D; Montgomery, J; Kirkby, Kansas; Scanlan, J (10 de agosto de 2018). "Predicción de riesgos mediante el procesamiento del lenguaje natural de registros electrónicos de salud mental en un entorno de psiquiatría forense para pacientes hospitalizados". Revista de Informática Biomédica . 86 : 49–58. doi : 10.1016/j.jbi.2018.08.007 . PMID  30118855.
  25. ^ Jenssen, Tor-Kristian; Laegreid, Astrid; Komorowski, enero; Hovig, Eivind (2001). "Una red bibliográfica de genes humanos para el análisis de alto rendimiento de la expresión génica". Genética de la Naturaleza . 28 (1): 21–8. doi :10.1038/ng0501-21. PMID  11326270. S2CID  8889284.
  26. ^ Masys, Daniel R. (2001). "Vinculación de datos de microarrays con la literatura". Genética de la Naturaleza . 28 (1): 9–10. doi :10.1038/ng0501-9. PMID  11326264. S2CID  52848745.
  27. ^ Renganathan, Vinaitheerthan (2017). "Minería de textos en el ámbito biomédico con énfasis en la agrupación de documentos". Investigación en Informática Sanitaria . 23 (3): 141-146. doi :10.4258/hir.2017.23.3.141. ISSN  2093-3681. PMC 5572517 . PMID  28875048. 
  28. ^ [3] Archivado el 4 de octubre de 2013 en Wayback Machine .
  29. ^ "Análisis de texto". Medallia . Consultado el 23 de febrero de 2015 .
  30. ^ ab Coussement, Kristof; Van Den Poel, Dirk (2008). "Integrar la voz de los clientes a través de los correos electrónicos del call center en un sistema de soporte a la toma de decisiones para la predicción de la deserción". Gestión de la información . 45 (3): 164–74. CiteSeerX 10.1.1.113.3238 . doi :10.1016/j.im.2008.01.005. 
  31. ^ Coussement, Kristof; Van Den Poel, Dirk (2008). "Mejora de la gestión de quejas de los clientes mediante la clasificación automática de correos electrónicos utilizando funciones de estilo lingüístico como predictores". Sistemas de Soporte a la Decisión . 44 (4): 870–82. doi :10.1016/j.dss.2007.10.010.
  32. ^ Ramiro H. Gálvez; Agustín Gravano (2017). "Evaluación de la utilidad de la minería de foros de mensajes en línea en sistemas automáticos de predicción de acciones". Revista de ciencia computacional . 19 : 1877–7503. doi :10.1016/j.jocs.2017.01.001.
  33. ^ Pang, Bo; Lee, Lilian; Vaithyanathan, Shivakumar (2002). "¿Pulgares hacia arriba?". Actas de la conferencia ACL-02 sobre métodos empíricos en el procesamiento del lenguaje natural . vol. 10. págs. 79–86. doi :10.3115/1118693.1118704. S2CID  7105713.
  34. ^ Alessandro Valitutti; Carlo Strapparava; Valores de Oliviero (2005). "Desarrollo de recursos léxicos afectivos" (PDF) . Revista de PsicNología . 2 (1): 61–83.
  35. ^ Erik Cambria; Robert Speer; Catalina Havasi; Amir Hussain (2010). "SenticNet: un recurso semántico disponible públicamente para la minería de opiniones" (PDF) . Actas de AAAI CSK . págs. 14-18.
  36. ^ Calvo, Rafael A; d'Mello, Sidney (2010). "Detección de efectos: una revisión interdisciplinaria de modelos, métodos y sus aplicaciones". Transacciones IEEE sobre informática afectiva . 1 (1): 18–37. doi :10.1109/T-AFFC.2010.1. S2CID  753606.
  37. ^ "La Universidad de Manchester". Manchester.ac.uk . Consultado el 23 de febrero de 2015 .
  38. ^ "Laboratorio Tsujii". Tsujii.is.su-tokyo.ac.jp. Archivado desde el original el 7 de marzo de 2012 . Consultado el 23 de febrero de 2015 .
  39. ^ "La Universidad de Tokio". UTokio . Consultado el 23 de febrero de 2015 .
  40. ^ Shen, Jiaming; Xiao, Jinfeng; Él, Xinwei; Shang, Jingbo; Sinha, Saurabh; Han, Jiawei (27 de junio de 2018). Búsqueda de conjuntos de entidades de literatura científica: un enfoque de clasificación no supervisado . ACM. págs. 565–574. doi :10.1145/3209978.3210055. ISBN 978-1-4503-5657-2. S2CID  13748283.
  41. ^ Walter, Lotario; Radauer, Alfred; Moehrle, Martín G. (6 de febrero de 2017). "La belleza de la mariposa de azufre: novedad de patentes identificadas mediante análisis del entorno cercano basado en minería de textos". Cienciometría . 111 (1): 103-115. doi :10.1007/s11192-017-2267-4. ISSN  0138-9130. S2CID  11174676.
  42. ^ Rollo, Uri; Correia, Ricardo A.; Berger-Tal, Oded (10 de marzo de 2018). "Uso del aprendizaje automático para desenredar homónimos en grandes corpus de texto". Biología de la Conservación . 32 (3): 716–724. doi :10.1111/cobi.13044. ISSN  0888-8892. PMID  29086438. S2CID  3783779.
  43. ^ ab Análisis automatizado de las elecciones presidenciales de EE. UU. utilizando Big Data y análisis de red; Sudhahar S, Veltri GA, Cristianini N; Big Data y sociedad 2 (1), 1-28, 2015
  44. ^ Análisis de red de contenido narrativo en grandes corpus; Sudhahar S, De Fazio G, Franzosi R, Cristianini N; Ingeniería del lenguaje natural, 1-32, 2013
  45. ^ Análisis narrativo cuantitativo; Roberto Franzosi; Universidad Emory © 2010
  46. ^ Lansdall-Bienestar, Thomas; Sudhahar, Saatviga; Thompson, James; Lewis, Justino; Equipo, periódico FindMyPast; Cristianini, Nello (9 de enero de 2017). "Análisis de contenido de 150 años de publicaciones periódicas británicas". Procedimientos de la Academia Nacional de Ciencias . 114 (4): E457-E465. Código Bib : 2017PNAS..114E.457L. doi : 10.1073/pnas.1606380114 . ISSN  0027-8424. PMC 5278459 . PMID  28069962. 
  47. ^ I. Flaounas, M. Turchi, O. Ali, N. Fyson, T. De Bie, N. Mosdell, J. Lewis, N. Cristianini, La estructura de la mediaesfera de la UE, PLoS ONE, vol. 5(12), págs. e14243, 2010.
  48. ^ Eventos de Nowcasting desde la Web Social con Aprendizaje Estadístico V Lampos, N Cristianini; Transacciones ACM sobre sistemas y tecnología inteligentes (TIST) 3 (4), 72
  49. ^ NOAM: sistema de análisis y seguimiento de medios informativos; I Flaounas, O Ali, M Turchi, T Snowsill, F Nicart, T De Bie, N Cristianini Proc. de la conferencia internacional ACM SIGMOD 2011 sobre Gestión de datos
  50. ^ Descubrimiento automático de patrones en el contenido multimedia, N Cristianini, Combinatorial Pattern Matching, 2-13, 2011
  51. ^ I. Flaounas, O. Ali, T. Lansdall-Welfare, T. De Bie, N. Mosdell, J. Lewis, N. Cristianini, MÉTODOS DE INVESTIGACIÓN EN LA ERA DEL PERIODISMO DIGITAL, Periodismo digital, Routledge, 2012
  52. ^ Variaciones circadianas del estado de ánimo en el contenido de Twitter; Fabon Dzogang, Stafford Lightman, Nello Cristianini. Avances en el cerebro y la neurociencia, 1, 2398212817744501.
  53. ^ Efectos de la recesión sobre el estado de ánimo público en el Reino Unido; Lansdall-Welfare T, Lampos V, Cristianini N; Sesión Mining Social Network Dynamics (MSND) sobre aplicaciones de redes sociales
  54. ^ A los investigadores se les otorga el derecho de extracción de datos según las nuevas leyes de derechos de autor del Reino Unido. Archivado el 9 de junio de 2014 en Wayback Machine.
  55. ^ "Licencias para Europa: diálogo estructurado entre las partes interesadas 2013". Comisión Europea . Consultado el 14 de noviembre de 2014 .
  56. ^ "Minería de datos y textos: su importancia y la necesidad de cambio en Europa". Asociación de Bibliotecas Europeas de Investigación . 2013-04-25. Archivado desde el original el 29 de noviembre de 2014 . Consultado el 14 de noviembre de 2014 .
  57. ^ "El juez otorga un juicio sumario a favor de Google Books: una victoria por uso legítimo". Lexología . Antonelli Law Ltd. 19 de noviembre de 2013 . Consultado el 14 de noviembre de 2014 .
  58. ^ "Minería de datos y textos". Comisión Australiana de Reforma Legal . 4 de junio de 2013 . Consultado el 10 de febrero de 2023 .

Fuentes

enlaces externos