stringtranslate.com

Clasificación de documentos

La clasificación de documentos o categorización de documentos es un problema en biblioteconomía , informática y ciencias de la computación . La tarea consiste en asignar un documento a una o más clases o categorías . Esto se puede hacer "manualmente" (o "intelectualmente") o algorítmicamente . La clasificación intelectual de documentos ha sido principalmente competencia de la biblioteconomía, mientras que la clasificación algorítmica de documentos corresponde principalmente a las ciencias de la información y la informática. Sin embargo, los problemas se superponen y, por lo tanto, existe una investigación interdisciplinaria sobre la clasificación de documentos.

Los documentos a clasificar pueden ser textos, imágenes, música, etc. Cada tipo de documento posee sus especiales problemas de clasificación. Cuando no se especifica lo contrario, la clasificación del texto está implícita.

Los documentos pueden clasificarse según su tema o según otros atributos (como tipo de documento, autor, año de impresión, etc.). En el resto de este artículo sólo se considera la clasificación temática. Hay dos filosofías principales de clasificación temática de documentos: el enfoque basado en el contenido y el enfoque basado en la solicitud.

Clasificación "basada en contenido" versus "basada en solicitudes"

La clasificación basada en contenido es una clasificación en la que el peso otorgado a temas particulares en un documento determina la clase a la que se asigna el documento. Es, por ejemplo, una regla común para la clasificación en las bibliotecas que al menos el 20% del contenido de un libro debe ser sobre la clase a la que está asignado el libro. [1] En la clasificación automática, podría ser el número de veces que aparecen determinadas palabras en un documento.

La clasificación (o indexación) orientada a solicitudes es una clasificación en la que la solicitud anticipada de los usuarios influye en cómo se clasifican los documentos. El clasificador se pregunta: "¿Bajo qué descriptores debería encontrarse esta entidad?" y “pensar en todas las consultas posibles y decidir para cuáles es relevante la entidad en cuestión” (Soergel, 1985, p. 230 [2] ).

La clasificación orientada a solicitudes puede ser una clasificación dirigida a una audiencia o grupo de usuarios en particular. Por ejemplo, una biblioteca o una base de datos para estudios feministas puede clasificar/indexar documentos de manera diferente en comparación con una biblioteca histórica. Probablemente sea mejor, sin embargo, entender la clasificación orientada a solicitudes como una clasificación basada en políticas : la clasificación se realiza de acuerdo con algunos ideales y refleja el propósito de la biblioteca o base de datos que realiza la clasificación. De esta forma no se trata necesariamente de una especie de clasificación o indexación basada en estudios de usuarios. Sólo si se aplican datos empíricos sobre el uso o los usuarios se debe considerar la clasificación orientada a las solicitudes como un enfoque basado en el usuario.

Clasificación versus indexación

A veces se hace una distinción entre asignar documentos a clases ("clasificación") versus asignar materias a documentos (" indización de materias ") pero, como ha argumentado Frederick Wilfrid Lancaster , esta distinción no es fructífera. "Estas distinciones terminológicas", escribe, "no tienen ningún significado y sólo sirven para causar confusión" (Lancaster, 2003, p. 21 [3] ). La opinión de que esta distinción es puramente superficial también se ve respaldada por el hecho de que una clasificación sistema puede transformarse en un tesauro y viceversa (cf., Aitchison, 1986, [4] 2004; [5] Broughton, 2008; [6] Riesthuis & Bliedung, 1991 [7] ). Por lo tanto, el acto de etiquetar un documento (por ejemplo, asignando un término de un vocabulario controlado a un documento) es al mismo tiempo asignar ese documento a la clase de documentos indexados por ese término (todos los documentos indexados o clasificados como X pertenecen a la misma clase de documentos). En otras palabras, etiquetar un documento es lo mismo que asignarlo a la clase de documentos indexados bajo esa etiqueta.

Clasificación automática de documentos (ADC)

Las tareas de clasificación automática de documentos se pueden dividir en tres tipos: clasificación de documentos supervisada , donde algún mecanismo externo (como la retroalimentación humana) proporciona información sobre la clasificación correcta de los documentos, clasificación de documentos no supervisada (también conocida como agrupación de documentos ), donde se debe realizar la clasificación. completamente sin referencia a información externa, y clasificación de documentos semi-supervisada , [8] donde partes de los documentos están etiquetadas por el mecanismo externo. Hay varios productos de software con varios modelos de licencia disponibles. [9] [10] [11] [12] [13] [14]

Técnicas

Las técnicas de clasificación automática de documentos incluyen:

Aplicaciones

Se han aplicado técnicas de clasificación

Ver también

Referencias

  1. ^ Biblioteca del Congreso (2008). El manual de encabezamientos de materia. Washington, DC .: Biblioteca del Congreso, División de Políticas y Estándares. (Hoja H 180: "Asignar títulos sólo para los temas que comprendan al menos el 20% del trabajo.")
  2. ^ Soergel, Dagoberto (1985). Organización de la información: principios de bases de datos y sistemas de recuperación. Orlando, FL: Prensa académica.
  3. ^ Lancaster, FW (2003). Indexación y resúmenes en teoría y práctica. Asociación de Bibliotecas, Londres.
  4. ^ Aitchison, J. (1986). "Una clasificación como fuente de tesauro: la clasificación bibliográfica de HE Bliss como fuente de términos y estructura de tesauro". Revista de documentación, vol. 42 N° 3, págs. 160-181.
  5. ^ Aitchison, J. (2004). "Tesauro de BC2: Problemas y posibilidades revelados en un tesauro experimental derivado de la programación de Bliss Music". Boletín de clasificación de Bliss, vol. 46, págs. 20-26.
  6. ^ Broughton, V. (2008). "Una clasificación facetada como base de una terminología facetada: conversión de una estructura clasificada a formato de tesauro en la Clasificación bibliográfica Bliss (2ª ed.)]" Axiomathes, vol. 18 N° 2, págs. 193-210.
  7. ^ Riesthuis, GJA y Bliedung, St. (1991). "Tesaurificación de la UDC". Herramientas para la organización del conocimiento y la interfaz humana, vol. 2, págs. 109-117. Index Verlag, Fráncfort.
  8. ^ Rossi, RG, Lopes, AD. A. y Rezende, SO (2016). Optimización y propagación de etiquetas en redes heterogéneas bipartitas para mejorar la clasificación transductiva de textos. Procesamiento y gestión de la información, 52(2):217–257.
  9. ^ "Un prototipo interactivo de clasificación automática de documentos" (PDF) . Archivado desde el original (PDF) el 15 de noviembre de 2017 . Consultado el 14 de noviembre de 2017 .
  10. ^ Prototipo interactivo de clasificación automática de documentos Archivado el 24 de abril de 2015 en Wayback Machine.
  11. ^ Clasificación de documentos - Artsyl
  12. ^ ABBYY FineReader Engine 11 para Windows
  13. ^ Clasificador - Antídoto
  14. ^ "Tres métodos de clasificación de documentos para proyectos difíciles". www.bisok.com . Consultado el 4 de agosto de 2021 .
  15. ^ Stephan Busemann, Sven Schmeier y Roman G. Arens (2000). Clasificación de mensajes en el call center. En Sergei Nirenburg, Douglas Appelt, Fabio Ciravegna y Robert Dale, eds., Proc. VI Congreso de Procesamiento Aplicado del Lenguaje Natural. (ANLP'00), págs. 158-165, ACL.
  16. ^ Santini, Marina; Rosso, Mark (2008), Prueba de una aplicación habilitada por género: una evaluación preliminar (PDF) , Simposio BCS IRSG: Direcciones futuras en el acceso a la información, Londres, Reino Unido, págs. 54–63, archivado desde el original (PDF) en 2019 -11-15 , consultado el 21 de octubre de 2011.{{citation}}: Mantenimiento CS1: falta el editor de la ubicación ( enlace )
  17. ^ X. Dai, M. Bikdash y B. Meyer, "De las redes sociales a la vigilancia de la salud pública: método de agrupación basado en incrustación de palabras para la clasificación de Twitter", SoutheastCon 2017, Charlotte, Carolina del Norte, 2017, págs. 1-7. doi :10.1109/SECON.2017.7925400
  18. ^ Krallinger, M; Leitner, F; Rodríguez-Penagos, C; Valencia, A (2008). "Descripción general de la tarea de extracción de anotaciones de interacción proteína-proteína de Bio Creative II". Biología del genoma . 9 (Suplemento 2): T4. doi : 10.1186/gb-2008-9-s2-s4 . PMC 2559988 . PMID  18834495. 

Otras lecturas

enlaces externos