Proceso de categorización de documentos
La clasificación o categorización de documentos es un problema en la biblioteconomía , la ciencia de la información y la informática . La tarea consiste en asignar un documento a una o más clases o categorías . Esto puede hacerse de forma "manual" (o "intelectual") o algorítmica . La clasificación intelectual de documentos ha sido principalmente competencia de la biblioteconomía, mientras que la clasificación algorítmica de documentos se da principalmente en la ciencia de la información y la informática. Sin embargo, los problemas se superponen y, por lo tanto, existe una investigación interdisciplinaria sobre la clasificación de documentos.
Los documentos a clasificar pueden ser textos, imágenes, música, etc. Cada tipo de documento presenta sus problemas de clasificación particulares. A menos que se especifique lo contrario, se sobreentiende que la clasificación es textual .
Los documentos pueden clasificarse según su temática o según otros atributos (como el tipo de documento, el autor, el año de impresión, etc.). En el resto de este artículo solo se considera la clasificación temática. Existen dos filosofías principales de clasificación temática de documentos: el enfoque basado en el contenido y el enfoque basado en la solicitud.
Clasificación "basada en contenido" versus "basada en solicitud"
La clasificación basada en el contenido es una clasificación en la que el peso que se da a determinados temas de un documento determina la clase a la que se asigna el documento. Por ejemplo, una regla común para la clasificación en bibliotecas es que al menos el 20 % del contenido de un libro debe estar relacionado con la clase a la que está asignado el libro. [1] En la clasificación automática, podría ser el número de veces que aparecen determinadas palabras en un documento.
La clasificación orientada a solicitudes (o indexación) es una clasificación en la que la solicitud anticipada de los usuarios influye en la forma en que se clasifican los documentos. El clasificador se pregunta: “¿Bajo qué descriptores se debe encontrar esta entidad?” y “piensa en todas las consultas posibles y decide para cuáles es relevante la entidad en cuestión” (Soergel, 1985, p. 230 [2] ).
La clasificación orientada a solicitudes puede ser una clasificación dirigida a un público o grupo de usuarios en particular. Por ejemplo, una biblioteca o una base de datos para estudios feministas puede clasificar/indexar documentos de manera diferente en comparación con una biblioteca histórica. Sin embargo, es probablemente mejor entender la clasificación orientada a solicitudes como una clasificación basada en políticas : la clasificación se realiza de acuerdo con ciertos ideales y refleja el propósito de la biblioteca o base de datos que realiza la clasificación. De esta manera, no es necesariamente un tipo de clasificación o indexación basada en estudios de usuarios. Solo si se aplican datos empíricos sobre el uso o los usuarios, la clasificación orientada a solicitudes debe considerarse un enfoque basado en el usuario.
Clasificación versus indexación
A veces se hace una distinción entre asignar documentos a clases ("clasificación") versus asignar temas a documentos (" indexación de temas ") pero, como ha argumentado Frederick Wilfrid Lancaster , esta distinción no es fructífera. "Estas distinciones terminológicas", escribe, "carecen de sentido y sólo sirven para causar confusión" (Lancaster, 2003, p. 21 [3] ). La opinión de que esta distinción es puramente superficial también se ve apoyada por el hecho de que un sistema de clasificación puede transformarse en un tesauro y viceversa (cf., Aitchison, 1986, [4] 2004; [5] Broughton, 2008; [6] Riesthuis & Bliedung, 1991 [7] ). Por lo tanto, el acto de etiquetar un documento (por ejemplo, asignando un término de un vocabulario controlado a un documento) es al mismo tiempo asignar ese documento a la clase de documentos indexados por ese término (todos los documentos indexados o clasificados como X pertenecen a la misma clase de documentos). En otras palabras, etiquetar un documento es lo mismo que asignarlo a la clase de documentos indexados bajo esa etiqueta.
Clasificación automática de documentos (ADC)
Las tareas de clasificación automática de documentos se pueden dividir en tres tipos: clasificación supervisada de documentos , en la que algún mecanismo externo (como la retroalimentación humana) proporciona información sobre la clasificación correcta de los documentos; clasificación no supervisada de documentos (también conocida como agrupación de documentos ), en la que la clasificación debe realizarse completamente sin referencia a información externa; y clasificación semisupervisada de documentos [8] , en la que partes de los documentos son etiquetadas por el mecanismo externo. Hay varios productos de software disponibles bajo varios modelos de licencia. [9] [10] [11] [12] [13] [14]
Técnicas
Las técnicas de clasificación automática de documentos incluyen:
Aplicaciones
Se han aplicado técnicas de clasificación a
- filtrado de spam , un proceso que intenta distinguir los mensajes de correo electrónico spam de los correos electrónicos legítimos
- enrutamiento de correo electrónico , envío de un correo electrónico enviado a una dirección general a una dirección o buzón específico según el tema [15]
- Identificación de idioma , determinación automática del idioma de un texto.
- Clasificación de género, que determina automáticamente el género de un texto [16]
- Evaluación de legibilidad : determinación automática del grado de legibilidad de un texto, ya sea para encontrar materiales adecuados para diferentes grupos de edad o tipos de lectores o como parte de un sistema más amplio de simplificación de textos .
- análisis de sentimientos , determinar la actitud de un orador o un escritor con respecto a algún tema o la polaridad contextual general de un documento.
- Clasificación relacionada con la salud mediante el uso de las redes sociales en la vigilancia de la salud pública [17]
- Triaje de artículos, selección de artículos que son relevantes para la curación manual de literatura, por ejemplo, como se está haciendo como primer paso para generar bases de datos de anotaciones curadas manualmente en biología [18]
Véase también
Referencias
- ^ Biblioteca del Congreso (2008). Manual de encabezamientos de materias. Washington, DC.: Biblioteca del Congreso, División de Políticas y Normas. (Hoja H 180: "Asignar encabezamientos sólo a temas que comprendan al menos el 20% del trabajo").
- ^ Soergel, Dagobert (1985). Organización de la información: Principios de bases de datos y sistemas de recuperación. Orlando, FL: Academic Press.
- ^ Lancaster, FW (2003). Indexación y resúmenes en teoría y práctica. Library Association, Londres.
- ^ Aitchison, J. (1986). "Una clasificación como fuente de tesauros: La clasificación bibliográfica de HE Bliss como fuente de términos y estructura de tesauros". Journal of Documentation, vol. 42, núm. 3, págs. 160-181.
- ^ Aitchison, J. (2004). "Tesauros de BC2: problemas y posibilidades revelados en un tesauro experimental derivado del programa musical Bliss". Boletín de clasificación Bliss, vol. 46, págs. 20-26.
- ^ Broughton, V. (2008). "Una clasificación por facetas como base de una terminología por facetas: Conversión de una estructura clasificada a formato de tesauro en la Clasificación Bibliográfica de Bliss (2.ª ed.)." Axiomathes, vol. 18, n.º 2, págs. 193-210.
- ^ Riesthuis, GJA y Bliedung, St. (1991). "Tesaurificación de la CDU". Herramientas para la organización del conocimiento y la interfaz humana, vol. 2, págs. 109-117. Index Verlag, Frankfurt.
- ^
Rossi, RG, Lopes, A. d. A. y Rezende, SO (2016). Optimización y propagación de etiquetas en redes heterogéneas bipartitas para mejorar la clasificación transductiva de textos. Procesamiento y gestión de la información, 52(2):217–257.
- ^ "Un prototipo interactivo de clasificación automática de documentos" (PDF) . Archivado desde el original (PDF) el 2017-11-15 . Consultado el 2017-11-14 .
- ^ Prototipo interactivo de clasificación automática de documentos Archivado el 24 de abril de 2015 en Wayback Machine
- ^ Clasificación de documentos - Artsyl
- ^ ABBYY FineReader Engine 11 para Windows
- ^ Clasificador - Antídoto
- ^ "3 métodos de clasificación de documentos para proyectos difíciles". www.bisok.com . Consultado el 4 de agosto de 2021 .
- ^ Stephan Busemann, Sven Schmeier y Roman G. Arens (2000). Clasificación de mensajes en el call center. En Sergei Nirenburg, Douglas Appelt, Fabio Ciravegna y Robert Dale, eds., Proc. VI Congreso de Procesamiento Aplicado del Lenguaje Natural. (ANLP'00), págs. 158-165, ACL.
- ^ Santini, Marina; Rosso, Mark (2008), Testing a Genre-Enabled Application: A Preliminary Assessment (PDF) , Simposio BCS IRSG: Future Directions in Information Access, Londres, Reino Unido, págs. 54-63, archivado desde el original (PDF) el 2019-11-15 , consultado el 2011-10-21
{{citation}}
: Mantenimiento de CS1: falta la ubicación del editor ( enlace ) - ^ X. Dai, M. Bikdash y B. Meyer, "De las redes sociales a la vigilancia de la salud pública: método de agrupamiento basado en la incorporación de palabras para la clasificación de Twitter", SoutheastCon 2017, Charlotte, NC, 2017, págs. 1-7. doi :10.1109/SECON.2017.7925400
- ^ Krallinger, M; Leitner, F; Rodríguez-Penagos, C; Valencia, A (2008). "Descripción general de la tarea de extracción de anotaciones de interacción proteína-proteína de Bio Creative II". Genome Biology . 9 (Suppl 2): S4. doi : 10.1186/gb-2008-9-s2-s4 . PMC 2559988 . PMID 18834495.
Lectura adicional
- Fabrizio Sebastiani. Aprendizaje automático en la categorización automática de textos. ACM Computing Surveys, 34(1):1–47, 2002.
- Stefan Büttcher, Charles LA Clarke y Gordon V. Cormack. Recuperación de información: implementación y evaluación de motores de búsqueda Archivado el 5 de octubre de 2020 en Wayback Machine . MIT Press, 2010.
Enlaces externos
- Introducción a la clasificación de documentos
- Bibliografía sobre la categorización automática de textos Archivado el 26 de septiembre de 2019 en Wayback Machine
- Bibliografía sobre la clasificación de consultas Archivado el 2 de octubre de 2019 en Wayback Machine
- Página de análisis de clasificación de texto
- Aprendiendo a clasificar textos - Cap. 6 del libro Procesamiento del lenguaje natural con Python (disponible en línea)
- TechTC - Repositorio Technion de conjuntos de datos de categorización de texto Archivado el 14 de febrero de 2020 en Wayback Machine
- Conjuntos de datos de David D. Lewis
- Conjunto de datos de la tarea de clasificación de artículos BioCreative III ACT