La recuperación de información legal es la ciencia de la recuperación de información aplicada a textos legales, incluyendo legislación , jurisprudencia y trabajos académicos. [1] La recuperación precisa de información legal es importante para proporcionar acceso a la ley a los legos y profesionales legales. Su importancia ha aumentado debido a la vasta y rápidamente creciente cantidad de documentos legales disponibles a través de medios electrónicos. [2] La recuperación de información legal es parte del creciente campo de la informática legal .
En el ámbito jurídico, suele ser importante recuperar toda la información relacionada con una consulta específica. Sin embargo, se ha demostrado que los métodos de búsqueda booleanos de uso común (coincidencias exactas de términos específicos) en documentos jurídicos de texto completo tienen una tasa de recuperación promedio tan baja como el 20 por ciento [3] , lo que significa que solo se recupera 1 de cada 5 documentos relevantes. En ese caso, los investigadores creyeron que habían recuperado más del 75% de los documentos relevantes [3] . Esto puede dar como resultado que no se recuperen casos importantes o que sirvan de precedentes . En algunas jurisdicciones, esto puede ser especialmente problemático, ya que los profesionales del derecho tienen la obligación ética de estar razonablemente informados sobre los documentos legales relevantes [4] .
La recuperación de información legal intenta aumentar la eficacia de las búsquedas legales aumentando el número de documentos relevantes (lo que proporciona una alta tasa de recuperación ) y reduciendo el número de documentos irrelevantes (una alta tasa de precisión ). Esta es una tarea difícil, ya que el campo legal es propenso a la jerga , [5] polisemas [6] (palabras que tienen diferentes significados cuando se usan en un contexto legal) y cambios constantes.
Las técnicas utilizadas para lograr estos objetivos generalmente se dividen en tres categorías: recuperación booleana , clasificación manual de texto legal y procesamiento de lenguaje natural de texto legal.
La aplicación de técnicas estándar de recuperación de información a textos jurídicos puede resultar más difícil que su aplicación en otras materias. Un problema clave es que el derecho rara vez tiene una taxonomía inherente . [7] En cambio, el derecho suele estar lleno de términos abiertos, que pueden cambiar con el tiempo. [7] Esto puede ser especialmente cierto en países de derecho consuetudinario , donde cada caso decidido puede cambiar sutilmente el significado de una determinada palabra o frase. [8]
Los sistemas de información jurídica también deben programarse para tratar palabras y frases específicas de la ley. Aunque esto es menos problemático en el contexto de palabras que existen únicamente en la ley, los textos jurídicos también utilizan con frecuencia polisemias, es decir, las palabras pueden tener significados diferentes cuando se utilizan en un lenguaje jurídico o común, posiblemente ambos dentro del mismo documento. Los significados jurídicos pueden depender del área del derecho en la que se aplican. Por ejemplo, en el contexto de la legislación de la Unión Europea, el término "trabajador" tiene cuatro significados diferentes: [9]
También tiene el significado común:
Aunque los términos pueden ser similares, la recuperación correcta de información debe diferenciar entre el uso previsto y los usos irrelevantes para poder devolver los resultados correctos.
Incluso si un sistema supera los problemas lingüísticos inherentes al derecho, aún debe determinar la relevancia de cada resultado. En el contexto de las decisiones judiciales, esto requiere determinar el valor precedente del caso. [10] Las decisiones de casos de tribunales superiores o de alto nivel pueden ser más relevantes que las de tribunales inferiores , incluso cuando la decisión del tribunal inferior contiene más discusión de los hechos relevantes. [10] Sin embargo, puede suceder lo contrario si el tribunal superior solo tiene una discusión menor del tema (por ejemplo, si es una consideración secundaria en el caso). [10] Un sistema de recuperación de información también debe tener en cuenta la autoridad de la jurisdicción. Un caso de una autoridad vinculante es muy probablemente de más valor que uno de una autoridad no vinculante.
Además, las intenciones del usuario pueden determinar qué casos le parecen valiosos. Por ejemplo, cuando un profesional del derecho intenta defender una interpretación específica de la ley, puede encontrar más valiosa una decisión de un tribunal menor que respalde su posición que una posición de un tribunal superior que no la respalde. [10] También puede valorar posiciones similares de diferentes áreas del derecho, diferentes jurisdicciones u opiniones disidentes. [10]
La superación de estos problemas puede resultar más difícil debido a la gran cantidad de casos disponibles. El número de casos legales disponibles a través de medios electrónicos aumenta constantemente (en 2003, los tribunales de apelación de los Estados Unidos resolvieron aproximadamente 500 casos nuevos por día [2] ), lo que significa que un sistema preciso de recuperación de información legal debe incorporar métodos tanto de clasificación de datos anteriores como de gestión de datos nuevos. [2] [11]
Las búsquedas booleanas , en las que un usuario puede especificar términos como el uso de palabras específicas o sentencias de un tribunal específico, son el tipo de búsqueda más común disponible a través de los sistemas de recuperación de información legal. Se implementan ampliamente, pero superan algunos de los problemas mencionados anteriormente.
Las tasas de recuperación y precisión de estas búsquedas varían según la implementación y las búsquedas analizadas. Un estudio determinó que la tasa de recuperación de una búsqueda booleana básica era de aproximadamente el 20% y su tasa de precisión de aproximadamente el 79%. [3] Otro estudio implementó una búsqueda genérica (es decir, no diseñada para usos legales) y encontró una tasa de recuperación del 56% y una tasa de precisión del 72% entre los profesionales legales. Ambos números aumentaron cuando las búsquedas fueron realizadas por profesionales no legales, hasta una tasa de recuperación del 68% y una tasa de precisión del 77%. Esto probablemente se explica por el uso de términos legales complejos por parte de los profesionales legales. [12]
Para superar los límites de las búsquedas booleanas básicas, los sistemas de información han intentado clasificar las leyes y los estatutos en estructuras más fáciles de usar por ordenador. Por lo general, esto da como resultado la creación de una ontología para clasificar los textos, según la forma en que un profesional del derecho podría pensar sobre ellos. [13] Estos intentan vincular textos en función de su tipo, su valor y/o sus áreas temáticas. La mayoría de los principales proveedores de búsquedas legales implementan ahora algún tipo de búsqueda de clasificación, como las búsquedas de Westlaw "Natural Language" [14] o Headnote de LexisNexis [15] . Además, ambos servicios permiten navegar por sus clasificaciones, a través de West Key Numbers de Westlaw [14] o Headnotes de Lexis. [15] Aunque estos dos algoritmos de búsqueda son propietarios y secretos, se sabe que emplean una clasificación manual del texto (aunque esto puede ser asistido por computadora). [13]
Estos sistemas pueden ayudar a superar la mayoría de los problemas inherentes a los sistemas de recuperación de información legal, ya que la clasificación manual tiene las mayores posibilidades de identificar casos emblemáticos y comprender los problemas que surgen en el texto. [16] En un estudio, la búsqueda ontológica resultó en una tasa de precisión del 82% y una tasa de recuperación del 97% entre los profesionales legales. [17] Sin embargo, los textos legales incluidos fueron cuidadosamente controlados para solo unas pocas áreas del derecho en una jurisdicción específica. [18]
El principal inconveniente de este enfoque es que requiere la participación de profesionales jurídicos altamente cualificados y grandes cantidades de tiempo para clasificar los textos. [16] [19] A medida que la cantidad de texto disponible sigue aumentando, algunos han manifestado su creencia de que la clasificación manual es insostenible. [20]
Para reducir la dependencia de los profesionales legales y la cantidad de tiempo necesario, se han hecho esfuerzos para crear un sistema para clasificar automáticamente textos legales y consultas. [2] [21] [22] Una traducción adecuada de ambos permitiría una recuperación precisa de la información sin el alto costo de la clasificación humana. Estos sistemas automáticos generalmente emplean técnicas de procesamiento del lenguaje natural (PLN) que se adaptan al dominio legal y también requieren la creación de una ontología legal . Aunque se han postulado múltiples sistemas, [2] [21] [22] pocos han informado resultados. Un sistema, "SMILE", que intentó extraer automáticamente clasificaciones de textos de casos, dio como resultado una medida f (que es un cálculo tanto de la tasa de recuperación como de la precisión) de menos de 0,3 (en comparación con una medida f perfecta de 1,0). [23] Esto es probablemente mucho más bajo que una tasa aceptable para el uso general. [23] [24]
A pesar de los resultados limitados, muchos teóricos predicen que la evolución de tales sistemas eventualmente reemplazará a los sistemas de clasificación manual. [25] [26]
A mediados de los años 90, el proyecto de recuperación de jurisprudencia Room 5 utilizó la minería de citas para los resúmenes y clasificó sus resultados de búsqueda en función del tipo y el número de citas. Esto fue ligeramente anterior al algoritmo Page Rank de Stanford, que también era una clasificación basada en citas. La clasificación de los resultados se basaba tanto en la jurisdicción como en el número de referencias. [27]