Formato común para líneas de concordancia
Palabra clave en contexto ( KWIC ) es el formato más común para las líneas de concordancia . El término KWIC fue acuñado por Hans Peter Luhn . [1] El sistema se basaba en un concepto llamado palabra clave en títulos , que fue propuesto por primera vez para las bibliotecas de Manchester en 1864 por Andrea Crestadoro . [2]
Un índice KWIC se forma ordenando y alineando las palabras dentro del título de un artículo para permitir que cada palabra (excepto las palabras vacías ) en los títulos se pueda buscar alfabéticamente en el índice. [3] Era un método de indexación útil para manuales técnicos antes de que la búsqueda de texto completo computarizada se volviera común.
Por ejemplo, una consulta de búsqueda que incluya todas las palabras de una definición de ejemplo ("KWIC es un acrónimo de Key Word In Context, el formato más común para líneas de concordancia") y el eslogan de Wikipedia en inglés ("the free encyclopedia"), buscado en una página de Wikipedia, podría producir un índice KWIC como el siguiente. Un índice KWIC suele utilizar un diseño amplio para permitir la visualización de la máxima información "en contexto" (no se muestra en el siguiente ejemplo).
Un índice KWIC es un caso especial de un índice permutado . [4] Este término se refiere al hecho de que indexa todas las permutaciones cíclicas de los encabezados. Los libros compuestos por muchas secciones cortas con sus propios encabezados descriptivos, sobre todo las colecciones de páginas de manuales , a menudo terminaban con una sección de índice permutado , lo que permitía al lector encontrar fácilmente una sección por cualquier palabra de su encabezado. Esta práctica, también conocida como Palabra clave fuera de contexto ( KWOC ), ya no es común.
Palabra clave junto con el contexto (KWAC)
Palabra clave en contexto (KWIC)
Palabra clave fuera de contexto (KWOC)
Referencias en la literatura
Nota: La primera referencia no muestra el índice KWIC a menos que pagues para ver el artículo. La segunda referencia ni siquiera incluye el artículo.
- David L. Parnas utiliza un índice KWIC como ejemplo de cómo realizar un diseño modular en su artículo Sobre los criterios que se deben utilizar para descomponer sistemas en módulos, disponible como artículo clásico de ACM.
- Christopher D. Manning y Hinrich Schütze describen un índice KWIC y la concordancia informática en la sección 1.4.5 de su libro Foundations of Statistical Natural Language Processing . Cambridge, Mass.: MIT Press, 1999. ISBN 9780262133609. Citan un artículo de HP Luhn de 1960, "Índice de palabras clave en contexto para literatura técnica (índice KWIC)".
- Según la Concordantia et Indices Missalium Romanorum del reverendo Gerard O'Connor , "la mayoría de las concordancias producidas en tiempos recientes y con la ayuda de software de computadora utilizan los formatos KWIC (palabra clave en contexto) y KWICn (palabra clave en el centro), que enumera la palabra clave, generalmente resaltada en texto en negrita en una posición consistente, dentro de una cantidad limitada de texto de contexto, es decir, tres [o] cuatro palabras del texto antes de la palabra clave y la misma cantidad de texto a continuación. Este formato es extremadamente útil porque la palabra clave se identifica fácilmente junto con su contexto. ... La Concordancia del Misal Romano se produce en los formatos KWIC y KWICn y es notable porque cada forma de palabra se enumera tal como aparece en el texto, es decir, no está lematizada ".
Véase también
Referencias
- ^ Manning, CD; Schütze, H. (1999). Fundamentos del procesamiento estadístico del lenguaje natural . The MIT Press. pág. 35.
- ^ "Prácticas avanzadas de indexación y resumen". Atlantic Publishers & Distributors. 1989. pág. 41. Consultado el 26 de marzo de 2019 en Google Books.
- ^ "Índices y concordancias KWIC". Archivado desde el original el 6 de junio de 2016. Consultado el 17 de junio de 2016 .
- ^ "3. Teoría de la indexación KWIC". Infohost.nmt.edu . Archivado desde el original el 14 de mayo de 2019 . Consultado el 26 de marzo de 2019 .