El término análisis de texto también describe la aplicación de análisis de texto para responder a problemas empresariales, ya sea de forma independiente o en combinación con la consulta y el análisis de datos numéricos en campos. Es una verdad de Perogrullo que el 80% de la información relevante para los negocios se origina en forma no estructurada , principalmente texto. [8] Estas técnicas y procesos descubren y presentan conocimiento (hechos, reglas empresariales y relaciones) que de otro modo quedaría encerrado en forma textual, impenetrable para el procesamiento automatizado.
Procesos de análisis de texto
Las subtareas (componentes de un esfuerzo de análisis de texto más amplio) suelen incluir:
La reducción de la dimensionalidad es una técnica importante para el preprocesamiento de datos. Se utiliza para identificar la raíz de las palabras reales y reducir el tamaño de los datos de texto. [ cita requerida ]
El reconocimiento de entidades con nombre es el uso de nomenclátores o técnicas estadísticas para identificar características de textos con nombre: personas, organizaciones, nombres de lugares, símbolos bursátiles, ciertas abreviaturas, etc.
Puede ser necesaria la desambiguación (el uso de pistas contextuales ) para decidir dónde, por ejemplo, "Ford" puede referirse a un expresidente estadounidense, a un fabricante de vehículos, a una estrella de cine, a un cruce de río o a alguna otra entidad. [10]
Reconocimiento de entidades identificadas por patrones: Se pueden discernir características como números de teléfono, direcciones de correo electrónico y cantidades (con unidades) mediante expresiones regulares u otras coincidencias de patrones .
Extracción de relaciones, hechos y eventos: identificación de asociaciones entre entidades y otra información en textos.
Análisis de sentimientos : discernimiento de material subjetivo y extracción de información sobre actitudes: sentimientos, opiniones, estados de ánimo y emociones. Esto se realiza a nivel de entidad, concepto o tema y tiene como objetivo distinguir entre los poseedores de opiniones y los objetos. [12]
Análisis cuantitativo de texto: un conjunto de técnicas derivadas de las ciencias sociales donde un juez humano o una computadora extrae relaciones semánticas o gramaticales entre palabras para descubrir el significado o patrones estilísticos de, generalmente, un texto personal casual con el propósito de crear perfiles psicológicos , etc. [13]
El preprocesamiento generalmente implica tareas como tokenización, filtrado y derivación.
Aplicaciones
La tecnología de minería de texto ahora se aplica ampliamente a una amplia variedad de necesidades gubernamentales, de investigación y comerciales. Todos estos grupos pueden usar la minería de texto para la gestión de registros y la búsqueda de documentos relevantes para sus actividades diarias. Los profesionales legales pueden usar la minería de texto para el descubrimiento electrónico , por ejemplo. Los gobiernos y los grupos militares usan la minería de texto para fines de seguridad nacional e inteligencia. Los investigadores científicos incorporan enfoques de minería de texto en esfuerzos para organizar grandes conjuntos de datos de texto (es decir, abordar el problema de los datos no estructurados ), para determinar ideas comunicadas a través del texto (por ejemplo, análisis de sentimientos en las redes sociales [14] [15] [16] ) y para respaldar el descubrimiento científico en campos como las ciencias de la vida y la bioinformática . En los negocios, las aplicaciones se utilizan para respaldar la inteligencia competitiva y la colocación automática de anuncios , entre muchas otras actividades.
Se ha descrito una variedad de aplicaciones de minería de texto en la literatura biomédica, [19] incluyendo enfoques computacionales para ayudar con estudios en acoplamiento de proteínas , [20] interacciones de proteínas , [21] [22] y asociaciones proteína-enfermedad. [23] Además, con grandes conjuntos de datos textuales de pacientes en el campo clínico, conjuntos de datos de información demográfica en estudios de población e informes de eventos adversos, la minería de texto puede facilitar los estudios clínicos y la medicina de precisión. Los algoritmos de minería de texto pueden facilitar la estratificación e indexación de eventos clínicos específicos en grandes conjuntos de datos textuales de pacientes de síntomas, efectos secundarios y comorbilidades de registros médicos electrónicos, informes de eventos e informes de pruebas diagnósticas específicas. [24] Una aplicación de minería de texto en línea en la literatura biomédica es PubGene , un motor de búsqueda de acceso público que combina la minería de texto biomédico con la visualización de red. [25] [26] GoPubMed es un motor de búsqueda basado en conocimiento para textos biomédicos. Las técnicas de minería de texto también nos permiten extraer conocimiento desconocido de documentos no estructurados en el ámbito clínico [27]
Aplicaciones de software
Los métodos y software de minería de texto también están siendo investigados y desarrollados por importantes empresas, incluidas IBM y Microsoft , para automatizar aún más los procesos de minería y análisis, y por diferentes empresas que trabajan en el área de búsqueda e indexación en general como una forma de mejorar sus resultados. Dentro del sector público, se ha concentrado mucho esfuerzo en la creación de software para rastrear y monitorear actividades terroristas . [28] Para fines de estudio, el software Weka es una de las opciones más populares en el mundo científico, actuando como un excelente punto de entrada para principiantes. Para los programadores de Python, existe un excelente kit de herramientas llamado NLTK para fines más generales. Para programadores más avanzados, también existe la biblioteca Gensim , que se enfoca en representaciones de texto basadas en incrustaciones de palabras.
Aplicaciones de medios en línea
Las grandes empresas de medios, como Tribune Company , están utilizando la minería de texto para aclarar la información y ofrecer a los lectores mejores experiencias de búsqueda, lo que a su vez aumenta la "fidelidad" del sitio y los ingresos. Además, en el back-end, los editores se benefician al poder compartir, asociar y empaquetar noticias entre propiedades, lo que aumenta significativamente las oportunidades de monetizar el contenido.
Aplicaciones empresariales y de marketing
El análisis de texto se está utilizando en los negocios, particularmente en el marketing, como en la gestión de relaciones con los clientes . [29] Coussement y Van den Poel (2008) [30] [31] lo aplican para mejorar los modelos de análisis predictivo para la pérdida de clientes ( deserción de clientes ). [30] La minería de texto también se está aplicando en la predicción de retornos de acciones. [32]
Análisis de sentimientos
El análisis de sentimientos puede implicar el análisis de productos como películas, libros o reseñas de hoteles para estimar qué tan favorable es una reseña para el producto. [33] Tal
análisis puede necesitar un conjunto de datos etiquetados o el etiquetado de la afectividad de las palabras. Se han creado recursos para la afectividad de las palabras y los conceptos para WordNet [34] y ConceptNet [35] respectivamente.
El texto se ha utilizado para detectar emociones en el área relacionada de la computación afectiva. [36] Los enfoques basados en texto para la computación afectiva se han utilizado en múltiples corpus, como evaluaciones de estudiantes, historias de niños y noticias.
Minería de literatura científica y aplicaciones académicas
La cuestión de la minería de textos es importante para los editores que poseen grandes bases de datos de información que necesitan indexar para su recuperación. Esto es especialmente cierto en las disciplinas científicas, en las que la información muy específica suele estar contenida en el texto escrito. Por lo tanto, se han tomado iniciativas como la propuesta de Nature para una Interfaz de Minería de Texto Abierta (OTMI, por sus siglas en inglés) y la Definición de Tipo de Documento de Publicación de Revistas (DTD, por sus siglas en inglés) común de los Institutos Nacionales de Salud que proporcionaría pistas semánticas a las máquinas para responder a consultas específicas contenidas en el texto sin eliminar las barreras de los editores al acceso público.
Las instituciones académicas también se han involucrado en la iniciativa de minería de texto:
Se han desarrollado métodos computacionales para ayudar a recuperar información de la literatura científica. Los enfoques publicados incluyen métodos para buscar [40] , determinar la novedad [41] y aclarar homónimos [42] entre informes técnicos.
Humanidades digitales y sociología computacional
El análisis automático de grandes corpus textuales ha creado la posibilidad de que los académicos analicen millones de documentos en varios idiomas con una intervención manual muy limitada. Las tecnologías facilitadoras clave han sido el análisis sintáctico, la traducción automática , la categorización de temas y el aprendizaje automático.
El análisis automático de corpus textuales ha permitido la extracción de actores y sus redes relacionales a gran escala, convirtiendo los datos textuales en datos de red. Las redes resultantes, que pueden contener miles de nodos, se analizan luego utilizando herramientas de la teoría de redes para identificar los actores clave, las comunidades o partes clave y las propiedades generales como la robustez o la estabilidad estructural de la red general, o la centralidad de ciertos nodos. [44] Esto automatiza el enfoque introducido por el análisis narrativo cuantitativo, [45] mediante el cual los tripletes sujeto-verbo-objeto se identifican con pares de actores vinculados por una acción, o pares formados por actor-objeto. [43]
El análisis de contenido ha sido una parte tradicional de las ciencias sociales y los estudios de medios durante mucho tiempo. La automatización del análisis de contenido ha permitido que se produzca una revolución de " big data " en ese campo, con estudios en redes sociales y contenido de periódicos que incluyen millones de noticias. El sesgo de género , la legibilidad , la similitud de contenido, las preferencias del lector e incluso el estado de ánimo se han analizado con base en métodos de minería de texto en millones de documentos. [46] [47] [48] [49] [50] El análisis de legibilidad, sesgo de género y sesgo de tema se demostró en Flaounas et al. [51] mostrando cómo diferentes temas tienen diferentes sesgos de género y niveles de legibilidad; también se demostró la posibilidad de detectar patrones de estado de ánimo en una vasta población analizando el contenido de Twitter. [52] [53]
Software
Los programas informáticos de minería de texto están disponibles en muchas empresas y fuentes comerciales y de código abierto .
Derecho de propiedad intelectual
Situación en Europa
Según las leyes europeas de derechos de autor y bases de datos , la minería de obras protegidas por derechos de autor (como la minería web ) sin el permiso del propietario de los derechos de autor es ilegal. En el Reino Unido, en 2014, por recomendación de la revisión de Hargreaves, el gobierno modificó la ley de derechos de autor [54] para permitir la minería de texto como una limitación y excepción . Fue el segundo país del mundo en hacerlo, después de Japón , que introdujo una excepción específica para la minería en 2009. Sin embargo, debido a la restricción de la Directiva de la Sociedad de la Información (2001), la excepción del Reino Unido solo permite la minería de contenido con fines no comerciales. La ley de derechos de autor del Reino Unido no permite que esta disposición sea anulada por los términos y condiciones contractuales.
En 2013, la Comisión Europea facilitó el debate entre las partes interesadas sobre la minería de textos y datos , bajo el título Licencias para Europa. [55] El hecho de que la solución a esta cuestión jurídica se centrara en las licencias, y no en las limitaciones y excepciones a la legislación sobre derechos de autor, llevó a los representantes de universidades, investigadores, bibliotecas, grupos de la sociedad civil y editores de acceso abierto a abandonar el diálogo con las partes interesadas en mayo de 2013. [56]
Situación en Estados Unidos
La ley de derechos de autor de los Estados Unidos , y en particular sus disposiciones sobre el uso justo , implica que la minería de textos en los Estados Unidos, así como en otros países donde se practica el uso justo, como Israel, Taiwán y Corea del Sur, se considera legal. Como la minería de textos es transformadora, es decir, no reemplaza la obra original, se considera legal en virtud del uso justo. Por ejemplo, como parte del acuerdo sobre Google Books, el juez que presidía el caso dictaminó que el proyecto de digitalización de libros protegidos por derechos de autor de Google era legal, en parte debido a los usos transformadores que mostraba el proyecto de digitalización, uno de los cuales era la minería de textos y datos. [57]
Minería web , una tarea que puede implicar minería de texto (por ejemplo, primero encontrar páginas web apropiadas clasificando las páginas web rastreadas, luego extraer la información deseada del contenido de texto de estas páginas consideradas relevantes)
Referencias
Citas
^ "Marti Hearst: ¿Qué es la minería de texto?".
^ Hotho, A., Nürnberger, A. y Paaß, G. (2005). "Un breve estudio de la minería de textos". En Ldv Forum, vol. 20(1), págs. 19-62
^ Feldman, R. y Sanger, J. (2007). Manual de minería de textos. Cambridge University Press. Nueva York
^ Hobbs, Jerry R.; Walker, Donald E.; Amsler, Robert A. (1982). "Acceso al texto estructurado mediante lenguaje natural". Actas de la 9.ª conferencia sobre lingüística computacional . Vol. 1. págs. 127–32. doi :10.3115/991813.991833. S2CID 6433117.
^ "Datos no estructurados y la regla del 80 por ciento". Breakthrough Analysis. Agosto de 2008. Consultado el 23 de febrero de 2015 .
^ Antunes, João (14 de noviembre de 2018). Exploração de informações contextuais para enriquecimento semântico em representações de textos (tesis Mestrado em Ciências de Computação e Matemática Computacional) (en portugues). São Carlos: Universidad de São Paulo. doi : 10.11606/d.55.2019.tde-03012019-103253 .
^ Moro, Andrea; Raganato, Alessandro; Navigli, Roberto (diciembre de 2014). "Entity Linking meets Word Sense Disambiguation: a Unified Approach". Transacciones de la Asociación de Lingüística Computacional . 2 : 231–244. doi : 10.1162/tacl_a_00179 . ISSN 2307-387X.
^ Chang, Wui Lee; Tay, Kai Meng; Lim, Chee Peng (6 de febrero de 2017). "Un nuevo modelo evolutivo basado en árboles con reaprendizaje local para la agrupación y visualización de documentos". Neural Processing Letters . 46 (2): 379–409. doi :10.1007/s11063-017-9597-3. ISSN 1370-4621. S2CID 9100902.
^ Benchimol, Jonathan; Kazinnik, Sophia; Saadon, Yossi (2022). "Metodologías de minería de texto con R: una aplicación a textos de bancos centrales". Aprendizaje automático con aplicaciones . 8 : 100286. doi : 10.1016/j.mlwa.2022.100286 . S2CID 243798160.
^ Mehl, Matthias R. (2006). "Análisis cuantitativo de textos". Manual de medición multimétodo en psicología . p. 141. doi :10.1037/11383-011. ISBN978-1-59147-318-3.
^ Pang, Bo; Lee, Lillian (2008). "Minería de opiniones y análisis de sentimientos". Fundamentos y tendencias en la recuperación de información . 2 (1–2): 1–135. CiteSeerX 10.1.1.147.2755 . doi :10.1561/1500000011. ISSN 1554-0669. S2CID 207178694.
^ Paltoglou, Georgios; Thelwall, Mike (1 de septiembre de 2012). "Twitter, MySpace, Digg: análisis de sentimientos no supervisado en las redes sociales". ACM Transactions on Intelligent Systems and Technology . 3 (4): 66. doi :10.1145/2337542.2337551. ISSN 2157-6904. S2CID 16600444.
^ "Análisis de sentimientos en Twitter < SemEval-2017 Tarea 4". alt.qcri.org . Consultado el 2 de octubre de 2018 .
^ Zanasi, Alessandro (2009). "Armas virtuales para guerras reales: minería de textos para la seguridad nacional". Actas del Taller internacional sobre inteligencia computacional en seguridad para sistemas de información CISIS'08 . Avances en computación blanda. Vol. 53. p. 53. doi :10.1007/978-3-540-88181-0_7. ISBN978-3-540-88180-3.
^ Badal, Varsha D.; Kundrotas, Petras J.; Vakser, Ilya A. (9 de diciembre de 2015). "Minería de texto para acoplamiento de proteínas". PLOS Computational Biology . 11 (12): e1004630. Bibcode :2015PLSCB..11E4630B. doi : 10.1371/journal.pcbi.1004630 . ISSN 1553-7358. PMC 4674139 . PMID 26650466.
^ Cohen, K. Bretonnel; Hunter, Lawrence (2008). "Introducción a la minería de texto". PLOS Computational Biology . 4 (1): e20. Bibcode :2008PLSCB...4...20C. doi : 10.1371/journal.pcbi.0040020 . PMC 2217579 . PMID 18225946.
^ Badal, V. D; Kundrotas, P. J; Vakser, I. A (2015). "Minería de texto para acoplamiento de proteínas". PLOS Computational Biology . 11 (12): e1004630. Bibcode :2015PLSCB..11E4630B. doi : 10.1371/journal.pcbi.1004630 . PMC 4674139 . PMID 26650466.
^ Papanikolaou, Nicolás; Pavlopoulos, Georgios A.; Teodosiou, Teodosio; Iliopoulos, Ioannis (2015). "Predicciones de interacción proteína-proteína utilizando métodos de minería de texto". Métodos . 74 : 47–53. doi :10.1016/j.ymeth.2014.10.026. ISSN 1046-2023. PMID 25448298.
^ Szklarczyk, Damian; Morris, John H; Cook, Helen; Kuhn, Michael; Wyder, Stefan; Simonovic, Milan; Santos, Alberto; Doncheva, Nadezhda T; Roth, Alexander (18 de octubre de 2016). "La base de datos STRING en 2017: redes de asociación proteína-proteína con control de calidad, ampliamente accesibles". Investigación de ácidos nucleicos . 45 (D1): D362–D368. doi :10.1093/nar/gkw937. ISSN 0305-1048. PMC 5210637 . PMID 27924014.
^ Liem, David A.; Murali, Sanjana; Sigdel, Dibakar; Shi, Yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H.; Wang, Wei; Ping, Peipei; Han, Jiawei (1 de octubre de 2018). "Minería de frases de datos textuales para analizar patrones de proteínas de la matriz extracelular en enfermedades cardiovasculares". Revista estadounidense de fisiología. Fisiología cardíaca y circulatoria . 315 (4): H910–H924. doi :10.1152/ajpheart.00175.2018. ISSN 1522-1539. PMC 6230912. PMID 29775406 .
^ Van Le, D; Montgomery, J; Kirkby, KC; Scanlan, J (10 de agosto de 2018). "Predicción de riesgos mediante el procesamiento del lenguaje natural de registros electrónicos de salud mental en un entorno de psiquiatría forense para pacientes hospitalizados". Journal of Biomedical Informatics . 86 : 49–58. doi : 10.1016/j.jbi.2018.08.007 . PMID 30118855.
^ Jenssen, Tor-Kristian; Laegreid, Astrid; Komorowski, enero; Hovig, Eivind (2001). "Una red bibliográfica de genes humanos para el análisis de alto rendimiento de la expresión génica". Genética de la Naturaleza . 28 (1): 21–8. doi :10.1038/ng0501-21. PMID 11326270. S2CID 8889284.
^ Masys, Daniel R. (2001). "Vinculación de los datos de microarrays con la literatura". Nature Genetics . 28 (1): 9–10. doi :10.1038/ng0501-9. PMID 11326264. S2CID 52848745.
^ Renganathan, Vinaitheerthan (2017). "Minería de texto en el dominio biomédico con énfasis en la agrupación de documentos". Investigación en informática sanitaria . 23 (3): 141–146. doi :10.4258/hir.2017.23.3.141. ISSN 2093-3681. PMC 5572517. PMID 28875048 .
^ "Text Analytics". Medallia . Consultado el 23 de febrero de 2015 .
^ ab Coussement, Kristof; Van Den Poel, Dirk (2008). "Integración de la voz de los clientes a través de correos electrónicos de centros de llamadas en un sistema de soporte de decisiones para la predicción de la pérdida de clientes". Información y gestión . 45 (3): 164–74. CiteSeerX 10.1.1.113.3238 . doi :10.1016/j.im.2008.01.005.
^ Coussement, Kristof; Van Den Poel, Dirk (2008). "Mejora de la gestión de quejas de clientes mediante la clasificación automática de correos electrónicos utilizando características de estilo lingüístico como predictores". Decision Support Systems . 44 (4): 870–82. doi :10.1016/j.dss.2007.10.010.
^ Ramiro H. Gálvez; Agustín Gravano (2017). "Evaluación de la utilidad de la minería de mensajes en línea en sistemas automáticos de predicción de acciones". Journal of Computational Science . 19 : 1877–7503. doi :10.1016/j.jocs.2017.01.001. hdl : 11336/60065 .
^ Pang, Bo; Lee, Lillian; Vaithyanathan, Shivakumar (2002). "¿Pulgar hacia arriba?". Actas de la conferencia ACL-02 sobre métodos empíricos en el procesamiento del lenguaje natural . Vol. 10. págs. 79–86. doi :10.3115/1118693.1118704. S2CID 7105713.
^ Erik Cambria; Robert Speer; Catalina Havasi; Amir Hussain (2010). "SenticNet: un recurso semántico disponible públicamente para la minería de opiniones" (PDF) . Actas de AAAI CSK . págs. 14-18.
^ Calvo, Rafael A; d'Mello, Sidney (2010). "Detección de afectos: una revisión interdisciplinaria de modelos, métodos y sus aplicaciones". IEEE Transactions on Affective Computing . 1 (1): 18–37. doi :10.1109/T-AFFC.2010.1. S2CID 753606.
^ "La Universidad de Manchester". Manchester.ac.uk . Consultado el 23 de febrero de 2015 .
^ "Laboratorio Tsujii". Tsujii.is.su-tokyo.ac.jp. Archivado desde el original el 7 de marzo de 2012. Consultado el 23 de febrero de 2015 .
^ "La Universidad de Tokio". UTokyo . Consultado el 23 de febrero de 2015 .
^ Shen, Jiaming; Xiao, Jinfeng; Él, Xinwei; Shang, Jingbo; Sinha, Saurabh; Han, Jiawei (27 de junio de 2018). Búsqueda de conjuntos de entidades de literatura científica: un enfoque de clasificación no supervisado . ACM. págs. 565–574. doi :10.1145/3209978.3210055. ISBN978-1-4503-5657-2. Número de identificación del sujeto 13748283.
^ Walter, Lothar; Radauer, Alfred; Moehrle, Martin G. (6 de febrero de 2017). "La belleza de la mariposa azufrada: novedad de las patentes identificadas mediante análisis del entorno cercano basado en minería de texto". Cienciometría . 111 (1): 103–115. doi :10.1007/s11192-017-2267-4. ISSN 0138-9130. S2CID 11174676.
^ Roll, Uri; Correia, Ricardo A.; Berger-Tal, Oded (10 de marzo de 2018). "Uso del aprendizaje automático para desenredar homónimos en corpus de textos grandes". Biología de la conservación . 32 (3): 716–724. doi :10.1111/cobi.13044. ISSN 0888-8892. PMID 29086438. S2CID 3783779.
^ ab Análisis automatizado de las elecciones presidenciales de Estados Unidos mediante Big Data y análisis de redes; S Sudhahar, GA Veltri, N Cristianini; Big Data & Society 2 (1), 1-28, 2015
^ Análisis de redes de contenido narrativo en grandes corpus; S Sudhahar, G De Fazio, R Franzosi, N Cristianini; Natural Language Engineering, 1-32, 2013
^ Lansdall-Welfare, Thomas; Sudhahar, Saatviga; Thompson, James; Lewis, Justin; Equipo, FindMyPast Newspaper; Cristianini, Nello (9 de enero de 2017). "Análisis de contenido de 150 años de publicaciones periódicas británicas". Actas de la Academia Nacional de Ciencias . 114 (4): E457–E465. Bibcode :2017PNAS..114E.457L. doi : 10.1073/pnas.1606380114 . ISSN 0027-8424. PMC 5278459 . PMID 28069962.
^ I. Flaounas, M. Turchi, O. Ali, N. Fyson, T. De Bie, N. Mosdell, J. Lewis, N. Cristianini, La estructura de la mediasfera de la UE, PLoS ONE, vol. 5(12), págs. e14243, 2010.
^ Predicción de eventos de la Web social con aprendizaje estadístico V Lampos, N Cristianini; ACM Transactions on Intelligent Systems and Technology (TIST) 3 (4), 72
^ NOAM: sistema de análisis y seguimiento de medios de comunicación; I Flaounas, O Ali, M Turchi, T Snowsill, F Nicart, T De Bie, N Cristianini Actas de la conferencia internacional ACM SIGMOD 2011 sobre gestión de datos
^ Descubrimiento automático de patrones en contenidos multimedia, N Cristianini, Combinatorial Pattern Matching, 2-13, 2011
^ I. Flaounas, O. Ali, T. Lansdall-Welfare, T. De Bie, N. Mosdell, J. Lewis, N. Cristianini, MÉTODOS DE INVESTIGACIÓN EN LA ERA DEL PERIODISMO DIGITAL, Periodismo digital, Routledge, 2012
^ Variaciones del estado de ánimo circadiano en el contenido de Twitter; Fabon Dzogang, Stafford Lightman, Nello Cristianini. Brain and Neuroscience Advances, 1, 2398212817744501.
^ Efectos de la recesión en el estado de ánimo público en el Reino Unido; T Lansdall-Welfare, V Lampos, N Cristianini; Sesión de Mining Social Network Dynamics (MSND) sobre aplicaciones de redes sociales
^ Los investigadores obtienen el derecho a la minería de datos según las nuevas leyes de derechos de autor del Reino Unido Archivado el 9 de junio de 2014 en Wayback Machine
^ "Licencias para Europa – Diálogo estructurado con las partes interesadas 2013". Comisión Europea . Consultado el 14 de noviembre de 2014 .
^ "Text and Data Mining: Its importance and the need for change in Europe" (Minería de textos y datos: su importancia y la necesidad de cambio en Europa). Asociación de Bibliotecas de Investigación Europeas . 25 de abril de 2013. Archivado desde el original el 29 de noviembre de 2014. Consultado el 14 de noviembre de 2014 .
^ "El juez concede sentencia sumaria a favor de Google Books: una victoria en materia de uso justo". Lexology . Antonelli Law Ltd. 19 de noviembre de 2013 . Consultado el 14 de noviembre de 2014 .
Ananiadou, S. y McNaught, J. (Editores) (2006). Minería de textos para biología y biomedicina . Artech House Books. ISBN 978-1-58053-984-5
Bilisoly, R. (2008). Minería de texto práctica con Perl . Nueva York: John Wiley & Sons. ISBN 978-0-470-17643-6
Feldman, R. y Sanger, J. (2006). Manual de minería de textos . Nueva York: Cambridge University Press. ISBN 978-0-521-83657-9
Hotho, A., Nürnberger, A. y Paaß, G. (2005). "Un breve estudio de la minería de textos". En Ldv Forum, vol. 20(1), págs. 19-62
Indurkhya, N. y Damerau, F. (2010). Manual de procesamiento del lenguaje natural , 2.ª edición. Boca Raton, FL: CRC Press. ISBN 978-1-4200-8592-1
Kao, A., y Poteet, S. (Editores). Procesamiento del lenguaje natural y minería de texto . Springer. ISBN 1-84628-175-X
Konchady, M. Programación de aplicaciones de minería de texto (serie de programación) . Charles River Media. ISBN 1-58450-460-9
Manning, C., y Schutze, H. (1999). Fundamentos del procesamiento estadístico del lenguaje natural . Cambridge, MA: MIT Press. ISBN 978-0-262-13360-9
Miner, G., Elder, J., Hill. T., Nisbet, R., Delen, D. y Fast, A. (2012). Minería de texto práctica y análisis estadístico para aplicaciones de datos de texto no estructurados . Elsevier Academic Press. ISBN 978-0-12-386979-1
McKnight, W. (2005). "Construcción de inteligencia empresarial: minería de datos de texto en inteligencia empresarial". DM Review , 21–22.
Srivastava, A., y Sahami. M. (2009). Minería de texto: clasificación, agrupamiento y aplicaciones . Boca Raton, FL: CRC Press. ISBN 978-1-4200-5940-3
Zanasi, A. (Editor) (2007). Minería de texto y sus aplicaciones a la inteligencia, la gestión de relaciones con los clientes y la gestión del conocimiento . WIT Press. ISBN 978-1-84564-131-3
Enlaces externos
Marti Hearst: ¿Qué es la minería de texto? (octubre de 2003)
Extracción automática de contenido, Consorcio de datos lingüísticos Archivado el 25 de septiembre de 2013 en Wayback Machine