Los experimentos de Cranfield fueron una serie de estudios experimentales sobre recuperación de información realizados por Cyril W. Cleverdon en la Facultad de Aeronáutica, hoy conocida como Universidad de Cranfield , en la década de 1960 para evaluar la eficiencia de los sistemas de indexación . [1] [2] [3] Los experimentos se dividieron en dos fases principales, ninguna de las cuales fue informatizada. La colección completa de resúmenes, índices resultantes y resultados se distribuyeron posteriormente en formato electrónico y se utilizaron ampliamente durante décadas.
En la primera serie de experimentos, se compararon varios métodos de indexación existentes para comprobar su eficacia. Las consultas fueron generadas por los autores de los artículos de la colección y luego traducidas a búsquedas de índices por expertos en esos sistemas. En esta serie, un método pasó de ser el menos eficiente a ser el más eficiente después de realizar cambios menores en la disposición de la forma en que se registraban los datos en las fichas . La conclusión pareció ser que la metodología subyacente parecía menos importante que los detalles específicos de la implementación. Esto dio lugar a un considerable debate sobre la metodología de los experimentos.
Estas críticas también dieron lugar a la segunda serie de experimentos, conocida ahora como Cranfield 2. Cranfield 2 intentó obtener más información invirtiendo la metodología: Cranfield 1 probó la capacidad de los expertos para encontrar un recurso específico siguiendo el sistema de índices, mientras que Cranfield 2 estudió los resultados de hacer preguntas en lenguaje humano y ver si el sistema de índices proporcionaba una respuesta relevante, independientemente de si se trataba del documento de destino original. También fue tema de considerable debate.
Los experimentos de Cranfield tuvieron una gran influencia en el campo de la recuperación de información, tema que despertó un gran interés en la era posterior a la Segunda Guerra Mundial , cuando la cantidad de investigación científica estaba en pleno auge. Fueron tema de continuo debate durante años y dieron lugar a varios proyectos informáticos para comprobar sus resultados. Su influencia fue considerable durante un período de cuarenta años antes de que los índices de lenguaje natural como los de los motores de búsqueda web modernos se volvieran algo habitual.
El ahora famoso artículo de julio de 1945 " As We May Think " de Vannevar Bush se considera a menudo la primera descripción completa del campo que se convertiría en la recuperación de información . El artículo describe una máquina hipotética conocida como " memex " que albergaría todo el conocimiento de la humanidad en un formato indexado que permitiría que cualquiera pudiera recuperarlo. [4]
En 1948, la Royal Society celebró la Conferencia de Información Científica que exploró por primera vez algunos de estos conceptos de manera formal. Esto dio lugar a un pequeño número de experimentos de campo en el Reino Unido, los EE. UU. y los Países Bajos. El único esfuerzo importante para comparar diferentes sistemas fue dirigido por Gull utilizando la colección de trabajos de la Agencia de Información Técnica de las Fuerzas Armadas, que había comenzado como una colección de informes aeronáuticos capturados en Alemania al final de la Segunda Guerra Mundial . La evaluación de los resultados fue realizada por expertos en los dos sistemas, y nunca se pusieron de acuerdo sobre si los diversos documentos recuperados eran relevantes para la búsqueda, y cada grupo rechazó más del 30% de los resultados por considerarlos incorrectos. Se cancelaron más pruebas porque parecía que no había consenso. [5]
En 1958 se celebró en Washington, DC , una segunda conferencia sobre el tema, la Conferencia Internacional sobre Información Científica, cuando el desarrollo informático había alcanzado el punto en el que era posible la recuperación automática de índices. Fue en esta reunión donde Cyril W. Cleverdon "se puso manos a la obra" y consiguió financiación de la Fundación Nacional de la Ciencia de Estados Unidos para iniciar lo que más tarde se conocería como Cranfield 1. [6]
La primera serie de experimentos comparó directamente cuatro sistemas de indexación que representaban fundamentos conceptuales significativamente diferentes. Los cuatro sistemas fueron:
En una serie inicial de experimentos, se pidió a los participantes que crearan índices para una colección de documentos relacionados con la industria aeroespacial . Cada índice fue preparado por un experto en esa metodología. A continuación, se pidió a los autores de los documentos originales que prepararan un conjunto de términos de búsqueda que deberían devolver ese documento. A continuación, se pidió a los expertos en indexación que generaran consultas en su índice basándose en los términos de búsqueda del autor. Las consultas se utilizaron luego para examinar el índice y ver si devolvía el documento de destino. [6]
En estas pruebas, todos los sistemas, excepto el de facetas, produjeron aproximadamente la misma cantidad de resultados "correctos", mientras que el concepto de facetas se quedó atrás. Al estudiar estos resultados, se volvió a indexar el sistema de facetas utilizando un formato diferente en las tarjetas y se volvieron a ejecutar las pruebas. En esta serie de pruebas, el sistema de facetas fue ahora el claro ganador. Esto sugirió que la teoría subyacente detrás del sistema era menos importante que los detalles de la implementación. [6]
Los resultados de estos experimentos, publicados en 1962, generaron un enorme debate, tanto entre los partidarios de los distintos sistemas como entre los investigadores que se quejaban de los experimentos en su conjunto. [7] Sin embargo, parecía que una conclusión estaba claramente respaldada: los sistemas simples basados en palabras clave parecían funcionar tan bien como los esquemas de clasificación complejos. Esto es importante, ya que los primeros son mucho más fáciles de implementar. [8]
En la primera serie de experimentos, los expertos en el uso de las distintas técnicas se encargaron tanto de la creación del índice como de su uso en las consultas de muestra. Cada sistema tenía su propio concepto sobre cómo debía estructurarse una consulta, lo que hoy se conocería como lenguaje de consulta . Gran parte de las críticas a los primeros experimentos se centraron en si los experimentos realmente estaban probando los sistemas o la capacidad del usuario para traducir la consulta al lenguaje de consulta. [6]
Esto dio lugar a la segunda serie de experimentos, Cranfield 2, que se plantearon la cuestión de convertir la consulta al lenguaje. Para ello, en lugar de considerar la generación de la consulta como una caja negra , se desglosó cada paso. El resultado de este enfoque fue revolucionario en su momento; sugería que los términos de búsqueda se dejaran en su formato original, lo que hoy se conocería como una consulta en lenguaje natural . [6]
Otro cambio importante fue la forma en que se juzgaban los resultados. En las pruebas originales, el éxito se producía sólo si el índice devolvía el documento exacto que se había utilizado para generar la búsqueda. Sin embargo, esto no era habitual en una consulta real; un usuario que buscase información sobre el tren de aterrizaje de los aviones podría estar satisfecho con cualquiera de los numerosos artículos de la colección sobre el tema, pero Cranfield 1 consideraría un resultado así como un fracaso a pesar de devolver materiales pertinentes. En la segunda serie, los resultados fueron juzgados por terceros que dieron una respuesta cualitativa sobre si la consulta generaba un conjunto relevante de artículos, en lugar de devolver un documento original específico. [7]
Los resultados de las dos series de pruebas continuaron siendo tema de considerable debate durante años. En particular, dieron lugar a un debate permanente entre Cleverdon y Jason Farradane , uno de los fundadores del Instituto de Científicos de la Información en 1958. Los dos aparecían invariablemente en las reuniones en las que el otro hacía una presentación y luego, durante el período de preguntas y respuestas , explicaban por qué todo lo que estaban haciendo estaba mal. El debate se ha caracterizado como "...feroz e implacable, a veces mucho más allá de los límites de la civilidad". [7] A este coro se unió Don R. Swanson en los EE. UU., quien publicó una crítica sobre los experimentos de Cranfield unos años más tarde. [7]
A pesar de estas críticas, Cranfield 2 estableció el estándar con el que se evaluaron muchos experimentos posteriores. En particular, la metodología de Cranfield 2, que comienza con términos en lenguaje natural y juzga los resultados por relevancia, no por coincidencias exactas, se volvió casi universal en los experimentos posteriores a pesar de muchas objeciones. [7]
Con la conclusión de Cranfield 2 en 1967, todo el corpus se publicó en un formato legible por máquina. [9] Hoy en día, esto se conoce como Cranfield 1400, o cualquier variedad de variaciones sobre ese tema. El nombre se refiere a la cantidad de documentos en la colección, que consta de 1398 resúmenes. La colección también incluye 225 consultas y los juicios de relevancia de todos los pares consulta:documento que resultaron de las ejecuciones experimentales. [10] La base de datos principal de resúmenes tiene aproximadamente 1,6 MB. [11]
Los experimentos se llevaron a cabo en una época en la que las computadoras tenían unos pocos kilobytes de memoria principal y acceso a la red a quizás unos pocos megabytes . Por ejemplo, el IBM System/360 Modelo 50 de gama media se entregaba con 64 a 512 kB de memoria central [12] (tendiendo hacia el extremo inferior) y su disco duro típico almacenaba poco más de 80 MB. [13] A medida que las capacidades de los sistemas crecieron durante los años 1960 y 1970, la colección de documentos de Cranfield se convirtió en un importante corpus de pruebas que se utilizó repetidamente durante muchos años. [14]
En la actualidad, la colección es demasiado pequeña para utilizarla en pruebas prácticas más allá de los experimentos piloto. Su lugar ha sido ocupado en su mayor parte por la colección TREC, que contiene 1,89 millones de documentos sobre una gama más amplia de temas, o la aún más reciente colección GOV2 de 25 millones de páginas web. [10]