stringtranslate.com

Clasificación de documentos

La clasificación o categorización de documentos es un problema en la biblioteconomía , la ciencia de la información y la informática . La tarea consiste en asignar un documento a una o más clases o categorías . Esto puede hacerse de forma "manual" (o "intelectual") o algorítmica . La clasificación intelectual de documentos ha sido principalmente competencia de la biblioteconomía, mientras que la clasificación algorítmica de documentos se da principalmente en la ciencia de la información y la informática. Sin embargo, los problemas se superponen y, por lo tanto, existe una investigación interdisciplinaria sobre la clasificación de documentos.

Los documentos a clasificar pueden ser textos, imágenes, música, etc. Cada tipo de documento presenta sus problemas de clasificación particulares. A menos que se especifique lo contrario, se sobreentiende que la clasificación es textual .

Los documentos pueden clasificarse según su temática o según otros atributos (como el tipo de documento, el autor, el año de impresión, etc.). En el resto de este artículo solo se considera la clasificación temática. Existen dos filosofías principales de clasificación temática de documentos: el enfoque basado en el contenido y el enfoque basado en la solicitud.

Clasificación "basada en contenido" versus "basada en solicitud"

La clasificación basada en el contenido es una clasificación en la que el peso que se da a determinados temas de un documento determina la clase a la que se asigna el documento. Por ejemplo, una regla común para la clasificación en bibliotecas es que al menos el 20 % del contenido de un libro debe estar relacionado con la clase a la que está asignado el libro. [1] En la clasificación automática, podría ser el número de veces que aparecen determinadas palabras en un documento.

La clasificación orientada a solicitudes (o indexación) es una clasificación en la que la solicitud anticipada de los usuarios influye en la forma en que se clasifican los documentos. El clasificador se pregunta: “¿Bajo qué descriptores se debe encontrar esta entidad?” y “piensa en todas las consultas posibles y decide para cuáles es relevante la entidad en cuestión” (Soergel, 1985, p. 230 [2] ).

La clasificación orientada a solicitudes puede ser una clasificación dirigida a un público o grupo de usuarios en particular. Por ejemplo, una biblioteca o una base de datos para estudios feministas puede clasificar/indexar documentos de manera diferente en comparación con una biblioteca histórica. Sin embargo, es probablemente mejor entender la clasificación orientada a solicitudes como una clasificación basada en políticas : la clasificación se realiza de acuerdo con ciertos ideales y refleja el propósito de la biblioteca o base de datos que realiza la clasificación. De esta manera, no es necesariamente un tipo de clasificación o indexación basada en estudios de usuarios. Solo si se aplican datos empíricos sobre el uso o los usuarios, la clasificación orientada a solicitudes debe considerarse un enfoque basado en el usuario.

Clasificación versus indexación

A veces se hace una distinción entre asignar documentos a clases ("clasificación") versus asignar temas a documentos (" indexación de temas ") pero, como ha argumentado Frederick Wilfrid Lancaster , esta distinción no es fructífera. "Estas distinciones terminológicas", escribe, "carecen de sentido y sólo sirven para causar confusión" (Lancaster, 2003, p. 21 [3] ). La opinión de que esta distinción es puramente superficial también se ve apoyada por el hecho de que un sistema de clasificación puede transformarse en un tesauro y viceversa (cf., Aitchison, 1986, [4] 2004; [5] Broughton, 2008; [6] Riesthuis & Bliedung, 1991 [7] ). Por lo tanto, el acto de etiquetar un documento (por ejemplo, asignando un término de un vocabulario controlado a un documento) es al mismo tiempo asignar ese documento a la clase de documentos indexados por ese término (todos los documentos indexados o clasificados como X pertenecen a la misma clase de documentos). En otras palabras, etiquetar un documento es lo mismo que asignarlo a la clase de documentos indexados bajo esa etiqueta.

Clasificación automática de documentos (ADC)

Las tareas de clasificación automática de documentos se pueden dividir en tres tipos: clasificación supervisada de documentos , en la que algún mecanismo externo (como la retroalimentación humana) proporciona información sobre la clasificación correcta de los documentos; clasificación no supervisada de documentos (también conocida como agrupación de documentos ), en la que la clasificación debe realizarse completamente sin referencia a información externa; y clasificación semisupervisada de documentos [8] , en la que partes de los documentos son etiquetadas por el mecanismo externo. Hay varios productos de software disponibles bajo varios modelos de licencia. [9] [10] [11] [12] [13] [14]

Técnicas

Las técnicas de clasificación automática de documentos incluyen:

Aplicaciones

Se han aplicado técnicas de clasificación a

Véase también

Referencias

  1. ^ Biblioteca del Congreso (2008). Manual de encabezamientos de materias. Washington, DC.: Biblioteca del Congreso, División de Políticas y Normas. (Hoja H 180: "Asignar encabezamientos sólo a temas que comprendan al menos el 20% del trabajo").
  2. ^ Soergel, Dagobert (1985). Organización de la información: Principios de bases de datos y sistemas de recuperación. Orlando, FL: Academic Press.
  3. ^ Lancaster, FW (2003). Indexación y resúmenes en teoría y práctica. Library Association, Londres.
  4. ^ Aitchison, J. (1986). "Una clasificación como fuente de tesauros: La clasificación bibliográfica de HE Bliss como fuente de términos y estructura de tesauros". Journal of Documentation, vol. 42, núm. 3, págs. 160-181.
  5. ^ Aitchison, J. (2004). "Tesauros de BC2: problemas y posibilidades revelados en un tesauro experimental derivado del programa musical Bliss". Boletín de clasificación Bliss, vol. 46, págs. 20-26.
  6. ^ Broughton, V. (2008). "Una clasificación por facetas como base de una terminología por facetas: Conversión de una estructura clasificada a formato de tesauro en la Clasificación Bibliográfica de Bliss (2.ª ed.)." Axiomathes, vol. 18, n.º 2, págs. 193-210.
  7. ^ Riesthuis, GJA y Bliedung, St. (1991). "Tesaurificación de la CDU". Herramientas para la organización del conocimiento y la interfaz humana, vol. 2, págs. 109-117. Index Verlag, Frankfurt.
  8. ^ Rossi, RG, Lopes, A. d. A. y Rezende, SO (2016). Optimización y propagación de etiquetas en redes heterogéneas bipartitas para mejorar la clasificación transductiva de textos. Procesamiento y gestión de la información, 52(2):217–257.
  9. ^ "Un prototipo interactivo de clasificación automática de documentos" (PDF) . Archivado desde el original (PDF) el 2017-11-15 . Consultado el 2017-11-14 .
  10. ^ Prototipo interactivo de clasificación automática de documentos Archivado el 24 de abril de 2015 en Wayback Machine
  11. ^ Clasificación de documentos - Artsyl
  12. ^ ABBYY FineReader Engine 11 para Windows
  13. ^ Clasificador - Antídoto
  14. ^ "3 métodos de clasificación de documentos para proyectos difíciles". www.bisok.com . Consultado el 4 de agosto de 2021 .
  15. ^ Stephan Busemann, Sven Schmeier y Roman G. Arens (2000). Clasificación de mensajes en el call center. En Sergei Nirenburg, Douglas Appelt, Fabio Ciravegna y Robert Dale, eds., Proc. VI Congreso de Procesamiento Aplicado del Lenguaje Natural. (ANLP'00), págs. 158-165, ACL.
  16. ^ Santini, Marina; Rosso, Mark (2008), Testing a Genre-Enabled Application: A Preliminary Assessment (PDF) , Simposio BCS IRSG: Future Directions in Information Access, Londres, Reino Unido, págs. 54-63, archivado desde el original (PDF) el 2019-11-15 , consultado el 2011-10-21{{citation}}: Mantenimiento de CS1: falta la ubicación del editor ( enlace )
  17. ^ X. Dai, M. Bikdash y B. Meyer, "De las redes sociales a la vigilancia de la salud pública: método de agrupamiento basado en la incorporación de palabras para la clasificación de Twitter", SoutheastCon 2017, Charlotte, NC, 2017, págs. 1-7. doi :10.1109/SECON.2017.7925400
  18. ^ Krallinger, M; Leitner, F; Rodríguez-Penagos, C; Valencia, A (2008). "Descripción general de la tarea de extracción de anotaciones de interacción proteína-proteína de Bio Creative II". Genome Biology . 9 (Suppl 2): ​​S4. doi : 10.1186/gb-2008-9-s2-s4 . PMC 2559988 . PMID  18834495. 

Lectura adicional

Enlaces externos