Búsqueda de conceptos

Una búsqueda de conceptos (o búsqueda conceptual ) es un método automatizado de recuperación de información que se utiliza para buscar en texto no estructurado almacenado electrónicamente (por ejemplo, archivos digitales , correo electrónico, literatura científica, etc.) información que sea conceptualmente similar a la información proporcionada en un consulta de busqueda . En otras palabras, las ideas expresadas en la información recuperada en respuesta a una consulta de búsqueda de conceptos son relevantes para las ideas contenidas en el texto de la consulta.

Desarrollo

Las técnicas de búsqueda de conceptos se desarrollaron debido a las limitaciones impuestas por las tecnologías clásicas de búsqueda de palabras clave booleanas cuando se trata de colecciones de texto digitales grandes y no estructuradas. Las búsquedas de palabras clave a menudo arrojan resultados que incluyen muchos elementos no relevantes ( falsos positivos ) o que excluyen demasiados elementos relevantes (falsos negativos) debido a los efectos de la sinonimia y la polisemia . Sinonimia significa que una de dos o más palabras en el mismo idioma tienen el mismo significado, y polisemia significa que muchas palabras individuales tienen más de un significado.

La polisemia es un obstáculo importante para todos los sistemas informáticos que intentan abordar el lenguaje humano. En inglés, los términos más utilizados tienen varios significados comunes. Por ejemplo, la palabra fuego puede significar: una actividad de combustión; terminar el empleo; lanzar o excitar (como en encender). De los 200 términos más polisémicos del inglés, el verbo típico tiene más de doce significados o sentidos comunes. El sustantivo típico de este conjunto tiene más de ocho sentidos comunes. Para los 2000 términos más polisémicos en inglés, el verbo típico tiene más de ocho sentidos comunes y el sustantivo típico tiene más de cinco. ^[1]

Además de los problemas de polisemia y sinonimia, las búsquedas de palabras clave pueden excluir palabras mal escritas inadvertidamente , así como variaciones en las raíces (por ejemplo, strike versus strike). Las búsquedas de palabras clave también son susceptibles a errores introducidos por los procesos de escaneo de reconocimiento óptico de caracteres (OCR), que pueden introducir errores aleatorios en el texto de los documentos (a menudo denominados texto ruidoso ) durante el proceso de escaneo.

Una búsqueda de conceptos puede superar estos desafíos empleando la desambiguación del sentido de las palabras (WSD), ^[2] y otras técnicas, para ayudar a derivar los significados reales de las palabras y sus conceptos subyacentes, en lugar de simplemente hacer coincidir cadenas de caracteres como las tecnologías de búsqueda de palabras clave. .

Enfoques

En general, la investigación y la tecnología de recuperación de información se pueden dividir en dos categorías amplias: semántica y estadística. Los sistemas de recuperación de información que caen en la categoría semántica intentarán implementar cierto grado de análisis sintáctico y semántico del texto en lenguaje natural que proporcionaría un usuario humano (ver también lingüística computacional ). Los sistemas que entran en la categoría estadística encontrarán resultados basados en medidas estadísticas de qué tan estrechamente coinciden con la consulta. Sin embargo, los sistemas de la categoría semántica también suelen depender de métodos estadísticos para ayudarles a encontrar y recuperar información. ^[3]

Los esfuerzos para proporcionar sistemas de recuperación de información con capacidades de procesamiento semántico han utilizado básicamente tres enfoques:

Estructuras auxiliares
Estadísticas de coocurrencia local
Técnicas de transformación (particularmente descomposiciones matriciales )

Estructuras auxiliares

Se han aplicado al procesamiento semántico una variedad de técnicas basadas en inteligencia artificial (IA) y procesamiento del lenguaje natural (PNL), y la mayoría de ellas se han basado en el uso de estructuras auxiliares como vocabularios controlados y ontologías . Los vocabularios controlados (diccionarios y tesauros) y las ontologías permiten incorporar a las consultas términos más amplios, términos más específicos y términos relacionados. ^[4] Los vocabularios controlados son una forma de superar algunas de las limitaciones más severas de las consultas de palabras clave booleanas. A lo largo de los años, se han construido estructuras auxiliares adicionales de interés general, como los grandes conjuntos de sinónimos de WordNet . ^[5] Se demostró que la búsqueda de conceptos basada en estructuras auxiliares, como WordNet, se puede implementar de manera eficiente reutilizando modelos de recuperación y estructuras de datos de recuperación de información clásica. ^[6] Enfoques posteriores han implementado la gramática para ampliar la gama de construcciones semánticas. En los últimos años también se ha implementado la creación de modelos de datos que representan conjuntos de conceptos dentro de un dominio específico ( ontologías de dominio ), y que pueden incorporar las relaciones entre términos.

Los vocabularios controlados hechos a mano contribuyen a la eficiencia y la amplitud de la recuperación de información y las operaciones de análisis de texto relacionadas, pero funcionan mejor cuando los temas están definidos de manera estricta y la terminología está estandarizada. Los vocabularios controlados requieren una amplia participación y supervisión humana para mantenerse al día con la rápida evolución del lenguaje. Tampoco se adaptan bien a los crecientes volúmenes de texto no estructurado que cubre una cantidad ilimitada de temas y contiene miles de términos únicos porque es necesario introducir nuevos términos y temas constantemente. Los vocabularios controlados también son propensos a capturar una visión del mundo particular en un momento específico, lo que los hace difíciles de modificar si cambian los conceptos en un área temática determinada. ^[7]

Estadísticas de coocurrencia local

Los sistemas de recuperación de información que incorporan este enfoque cuentan el número de veces que grupos de términos aparecen juntos (co-ocurren) dentro de una ventana deslizante de términos u oraciones (por ejemplo, ± 5 oraciones o ± 50 palabras) dentro de un documento. Se basa en la idea de que las palabras que aparecen juntas en contextos similares tienen significados similares. Es local en el sentido de que la ventana deslizante de términos y oraciones utilizada para determinar la coexistencia de términos es relativamente pequeña.

Este enfoque es simple, pero captura sólo una pequeña porción de la información semántica contenida en una colección de texto. En el nivel más básico, numerosos experimentos han demostrado que aproximadamente sólo una cuarta parte de la información contenida en el texto es de naturaleza local. ^[8] Además, para ser más efectivo, este método requiere conocimiento previo sobre el contenido del texto, lo que puede resultar difícil con colecciones de documentos grandes y no estructurados. ^[7]

Transformar técnicas

Algunos de los enfoques más potentes del procesamiento semántico se basan en el uso de técnicas de transformación matemática. Las técnicas de descomposición de matrices han sido las más exitosas. Algunas técnicas de descomposición de matrices ampliamente utilizadas incluyen las siguientes: ^[9]

Las técnicas de descomposición matricial se basan en datos, lo que evita muchos de los inconvenientes asociados con las estructuras auxiliares. También son de naturaleza global, lo que significa que son capaces de extraer y representar información semántica mucho más sólida que las técnicas basadas en estadísticas de coocurrencia local. ^[7]

El análisis de componentes independientes es una técnica que crea representaciones dispersas de forma automatizada, ^[10] y los enfoques matriciales semidiscretos y no negativos sacrifican la precisión de la representación para reducir la complejidad computacional. ^[7]

La descomposición de valores singulares (SVD) se aplicó por primera vez al texto en los Laboratorios Bell a finales de los años 1980. Se utilizó como base para una técnica llamada indexación semántica latente (LSI) debido a su capacidad para encontrar el significado semántico latente en una colección de texto. Al principio, la adopción del SVD tardó en adoptarse debido a los requisitos de recursos necesarios para trabajar con grandes conjuntos de datos. Sin embargo, el uso de LSI se ha expandido significativamente en los últimos años a medida que se superaron desafíos anteriores en escalabilidad y rendimiento. ^[11] e incluso de código abierto. ^[12] LSI se utiliza en una variedad de aplicaciones de procesamiento de texto y recuperación de información, aunque su aplicación principal ha sido la búsqueda de conceptos y la categorización automatizada de documentos. ^[13]

Usos

eDiscovery : las tecnologías de búsqueda basadas en conceptos se utilizan cada vez más para el descubrimiento de documentos electrónicos (EDD o eDiscovery) para ayudar a las empresas a prepararse para los litigios. En eDiscovery, la capacidad de agrupar, categorizar y buscar grandes colecciones de texto no estructurado sobre una base conceptual es mucho más eficiente que las técnicas tradicionales de revisión lineal. La búsqueda basada en conceptos se está aceptando como un método de búsqueda confiable y eficiente que tiene más probabilidades de producir resultados relevantes que las búsquedas booleanas o por palabras clave.^[14]

Búsqueda empresarial y gestión de contenido empresarial (ECM) : las tecnologías de búsqueda de conceptos se utilizan ampliamente en la búsqueda empresarial. A medida que crece el volumen de información dentro de la empresa, la capacidad de agrupar, categorizar y buscar grandes colecciones de texto no estructurado sobre una base conceptual se ha vuelto esencial. En 2004, el Grupo Gartner estimó que los profesionales dedican el 30 por ciento de su tiempo a buscar, recuperar y gestionar información.^[15] La empresa de investigación IDC descubrió que una corporación con 2.000 empleados puede ahorrar hasta 30 millones de dólares al año reduciendo el tiempo que los empleados dedican a intentar encontrar información y duplicar documentos existentes.^[15]
Recuperación de imágenes basada en contenido (CBIR) : se están utilizando enfoques basados en contenido para la recuperación semántica de imágenes y vídeos digitalizados a partir de grandes corpus visuales. Uno de los primeros sistemas de recuperación de imágenes basados en contenido que abordó el problema semántico fue el motor de búsqueda ImageScape. En este sistema, el usuario podría realizar consultas directas sobre múltiples objetos visuales como cielo, árboles, agua, etc. utilizando íconos ubicados espacialmente en un índice WWW que contiene más de diez millones de imágenes y videos usando fotogramas clave. El sistema utilizó la teoría de la información para determinar las mejores características para minimizar la incertidumbre en la clasificación.^[16] La brecha semántica se menciona a menudo con respecto a CBIR. La brecha semántica se refiere a la brecha entre la información que se puede extraer de los datos visuales y la interpretación que esos mismos datos tienen para un usuario en una situación determinada.^[17] El taller ACM SIGMM sobre recuperación de información multimedia ^[18] está dedicado a estudios de CBIR.
Multimedia y publicaciones : las industrias multimedia y editorial utilizan la búsqueda de conceptos para brindar a los usuarios acceso a noticias, información técnica y experiencia en la materia provenientes de una variedad de fuentes no estructuradas. Los métodos basados en contenido para la recuperación de información multimedia (MIR) se han vuelto especialmente importantes cuando faltan anotaciones de texto o están incompletas. ^[dieciséis]
Bibliotecas y archivos digitales : las imágenes, vídeos, música y elementos de texto de las bibliotecas y archivos digitales se están haciendo accesibles a grandes grupos de usuarios (especialmente en la Web) mediante el uso de técnicas de búsqueda de conceptos. Por ejemplo, Executive Daily Brief (EDB), un producto de alerta y monitoreo de información comercial desarrollado por EBSCO Publishing , utiliza tecnología de búsqueda de conceptos para brindar a los usuarios finales corporativos acceso a una biblioteca digital que contiene una amplia gama de contenido comercial. De manera similar, el Proyecto Genoma Musical generó Pandora, que emplea la búsqueda de conceptos para crear espontáneamente bibliotecas de música individuales o estaciones de radio virtuales .
Recuperación de información genómica (GIR) : la recuperación de información genómica (GIR) utiliza técnicas de búsqueda de conceptos aplicadas a bases de datos de literatura genómica para superar las ambigüedades de la literatura científica.
Dotación y contratación de personal de recursos humanos : muchas organizaciones de contratación y dotación de personal de recursos humanos han adoptado tecnologías de búsqueda de conceptos para producir resultados de búsqueda de currículums altamente relevantes que proporcionan currículums de candidatos más precisos y relevantes que los resultados de palabras clave poco relacionadas.

Búsqueda efectiva

La eficacia de una búsqueda de conceptos puede depender de una variedad de elementos, incluido el conjunto de datos que se busca y el motor de búsqueda que se utiliza para procesar las consultas y mostrar los resultados. Sin embargo, la mayoría de los motores de búsqueda de conceptos funcionan mejor para ciertos tipos de consultas:

Las consultas eficaces se componen de suficiente texto para transmitir adecuadamente los conceptos previstos. Las consultas efectivas pueden incluir oraciones completas, párrafos o incluso documentos completos. Es poco probable que las consultas compuestas por unas pocas palabras arrojen los resultados más relevantes.
Las consultas efectivas no incluyen conceptos en una consulta que no sean el objeto de la búsqueda. Incluir demasiados conceptos no relacionados en una consulta puede afectar negativamente la relevancia de los elementos de resultado. Por ejemplo, es más probable que una búsqueda de información sobre paseos en bote por el río Mississippi arroje resultados relevantes que una búsqueda de paseos en bote por el río Mississippi en un día lluvioso a mediados del verano de 1967.
Las consultas efectivas se expresan en un estilo de lenguaje natural de texto completo similar al estilo de los documentos que se buscan. Por ejemplo, utilizar consultas compuestas de extractos de un libro de texto de introducción a las ciencias no sería tan efectivo para la búsqueda de conceptos si el conjunto de datos que se busca está compuesto por textos de ciencias avanzadas de nivel universitario. Las consultas sustanciales que representan mejor los conceptos, estilos y lenguaje generales de los elementos para los cuales se realiza la consulta son generalmente más efectivas.

Al igual que con todas las estrategias de búsqueda, los buscadores experimentados generalmente refinan sus consultas a través de múltiples búsquedas, comenzando con una consulta inicial para obtener resultados conceptualmente relevantes que luego pueden usarse para componer y/o refinar consultas adicionales para obtener resultados cada vez más relevantes. Dependiendo del motor de búsqueda, utilizar los conceptos de consulta que se encuentran en los documentos de resultados puede ser tan fácil como seleccionar un documento y realizar una función similar de búsqueda . Cambiar una consulta agregando términos y conceptos para mejorar la relevancia de los resultados se denomina expansión de consulta . ^[19] Se ha estudiado el uso de ontologías como WordNet para ampliar consultas con palabras relacionadas conceptualmente. ^[20]

Comentarios de relevancia

La retroalimentación de relevancia es una característica que ayuda a los usuarios a determinar si los resultados de sus consultas satisfacen sus necesidades de información. En otras palabras, la relevancia se evalúa en relación con una necesidad de información, no con una consulta. Un documento es relevante si aborda la necesidad de información indicada, no porque simplemente contenga todas las palabras de la consulta. ^[21] Es una forma de involucrar a los usuarios en el proceso de recuperación para mejorar el conjunto de resultados finales. ^[21] Los usuarios pueden refinar sus consultas en función de sus resultados iniciales para mejorar la calidad de sus resultados finales.

En general, la relevancia de la búsqueda de conceptos se refiere al grado de similitud entre los conceptos expresados en la consulta y los conceptos contenidos en los resultados devueltos por la consulta. Cuanto más similares sean los conceptos de los resultados a los conceptos contenidos en la consulta, más relevantes se considerarán los resultados. Los resultados generalmente se clasifican y ordenan por relevancia, de modo que los resultados más relevantes estén en la parte superior de la lista de resultados y los resultados menos relevantes estén al final de la lista.

Se ha demostrado que la retroalimentación sobre relevancia es muy efectiva para mejorar la relevancia de los resultados. ^[21] Una búsqueda de conceptos reduce el riesgo de perder elementos de resultados importantes porque se devolverán todos los elementos relacionados con los conceptos de la consulta, contengan o no las mismas palabras utilizadas en la consulta. ^[15]

La clasificación seguirá siendo parte de cualquier sistema moderno de recuperación de información. Sin embargo, los problemas de datos heterogéneos, escala y tipos de discurso no tradicionales reflejados en el texto, junto con el hecho de que los motores de búsqueda serán cada vez más componentes integrados de procesos complejos de gestión de información, y no sólo sistemas independientes, requerirán nuevos tipos. de las respuestas del sistema a una consulta. Por ejemplo, uno de los problemas con las listas clasificadas es que es posible que no revelen las relaciones que existen entre algunos de los elementos de los resultados. ^[22]

Pautas para evaluar un motor de búsqueda de conceptos

Los elementos de resultado deben ser relevantes para la necesidad de información expresada por los conceptos contenidos en las declaraciones de la consulta, incluso si la terminología utilizada por los elementos de resultado es diferente de la terminología utilizada en la consulta.
Los elementos de los resultados deben ordenarse y clasificarse por relevancia.
Los elementos de resultados relevantes deben localizarse y mostrarse rápidamente. Incluso las consultas complejas deberían arrojar resultados relevantes con bastante rapidez.
La longitud de la consulta no debe ser fija , es decir, una consulta puede ser tan larga como se considere necesario. Se puede enviar como consulta una oración, un párrafo o incluso un documento completo.
Una consulta de concepto no debería requerir ninguna sintaxis especial o compleja. Los conceptos contenidos en la consulta se pueden expresar de forma clara y destacada sin utilizar reglas especiales.
Deben permitirse consultas combinadas que utilicen conceptos, palabras clave y metadatos. ^[23]
Las partes relevantes de los elementos de resultados deben poder utilizarse como texto de consulta simplemente seleccionando el elemento e indicando al motor de búsqueda que busque elementos similares .
Los índices listos para consultas deben crearse con relativa rapidez.
El motor de búsqueda debería ser capaz de realizar búsquedas federadas . La búsqueda federada permite utilizar consultas de conceptos para buscar simultáneamente información en múltiples fuentes de datos , que luego se fusiona, clasifica y muestra en los resultados.
Una búsqueda de conceptos no debe verse afectada por palabras mal escritas, errores tipográficos o errores de escaneo OCR en el texto de la consulta o en el texto del conjunto de datos que se busca.

Conferencias y foros

La evaluación formalizada de los motores de búsqueda se lleva realizando desde hace muchos años. Por ejemplo, la Conferencia de recuperación de textos (TREC) se inició en 1992 para apoyar la investigación dentro de la comunidad de recuperación de información proporcionando la infraestructura necesaria para la evaluación a gran escala de metodologías de recuperación de textos. La mayoría de los motores de búsqueda comerciales actuales incluyen tecnología desarrollada por primera vez en TREC. ^[24]

En 1997, se lanzó una contraparte japonesa de TREC, llamada Instituto Nacional de Colección de Pruebas de Informática para Sistemas IR (NTCIR). NTCIR lleva a cabo una serie de talleres de evaluación para investigaciones en recuperación de información, respuesta a preguntas, resumen automático , etc. En 2001 se inició una serie europea de talleres llamada Foro de Evaluación Translingüe (CLEF) para ayudar a la investigación en acceso a información multilingüe. En 2002, se creó la Iniciativa para la Evaluación de la Recuperación XML (INEX) para la evaluación de sistemas de recuperación XML orientados a contenidos .

La precisión y la recuperación han sido dos de las medidas de desempeño tradicionales para evaluar sistemas de recuperación de información. La precisión es la fracción de los documentos de resultados recuperados que son relevantes para las necesidades de información del usuario. La retirada se define como la fracción de documentos relevantes de toda la colección que se devuelven como documentos de resultado. ^[21]

Aunque los talleres y las colecciones de pruebas disponibles públicamente utilizadas para las pruebas y evaluaciones de los motores de búsqueda han proporcionado conocimientos sustanciales sobre cómo se gestiona y recupera la información, el campo sólo ha arañado la superficie de los desafíos que enfrentan las personas y las organizaciones al encontrar, gestionar y utilizar la información. ahora que hay tanta información disponible. ^[22] Los datos científicos sobre cómo las personas utilizan las herramientas de información disponibles hoy en día aún están incompletos porque las metodologías de investigación experimental no han podido mantenerse al día con el rápido ritmo del cambio. Aún es necesario abordar muchos desafíos, como la búsqueda contextualizada, la gestión de la información personal, la integración de la información y el soporte de tareas. ^[22]

Ver también

Referencias

^ Bradford, RB, Desambiguación del sentido de las palabras, Content Analyst Company, LLC, patente de EE. UU. 7415462, 2008.
^ R. Navigli, Desambiguación del sentido de las palabras: una encuesta, ACM Computing Surveys, 41 (2), 2009.
^ Greengrass, E., Recuperación de información: una encuesta, 2000.
^ Dubois, C., El uso de tesauros en la recuperación en línea, Journal of Information Science, 8 (2), marzo de 1984, págs.
^ Miller, G., Número especial, WordNet: una base de datos léxica en línea, Internacional. Revista de Lexicografía, 3(4), 1990.
^ Fausto Giunchiglia, Uladzimir Kharkevich e Ilya Zaihrayeu. Búsqueda de conceptos Archivado el 10 de febrero de 2014 en Wayback Machine , en las actas de la Conferencia europea sobre web semántica, 2009.
^ abcd Bradford, RB, ¿Por qué LSI? Indexación semántica latente y recuperación de información, documento técnico, Content Analyst Company, LLC, 2008.
^ Landauer, T. y Dumais, S., Una solución al problema de Platón: la teoría del análisis semántico latente de la adquisición, inducción y representación del conocimiento, Psychoological Review, 1997, 104 (2), págs.
^ Skillicorn, D., Comprensión de conjuntos de datos complejos: minería de datos con descomposición matricial, CRC Publishing, 2007.
^ Honkela, T., Hyvarinen, A. y Vayrynen, J. WordICA - Aparición de representaciones lingüísticas de palabras mediante análisis de componentes independientes. Ingeniería del lenguaje natural, 16(3):277-308, 2010
^ Řehůřek, Radim (2011). "Escalabilidad del análisis semántico en el procesamiento del lenguaje natural" (PDF) . Consultado el 27 de enero de 2015 .
^ Software de código abierto Gensim
^ Dumais, S., Análisis semántico latente, ARIST Review of Information Science and Technology, vol. 38, Capítulo 4, 2004.
^ Juez magistrado John M. Facciola del Tribunal de Distrito de los Estados Unidos para el Distrito de Washington, DC Consejo de Derechos de las Personas con Discapacidad contra la Autoridad de Tránsito Metropolitana de Washington, 242 FRD 139 (DDC 2007), citando a George L. Paul y Jason R. Baron, "Información Inflación: ¿Puede adaptarse el sistema jurídico?" 13 Rico. JL y tecnología. 10 (2007).
^ abc Laplanche, R., Delgado, J., Turck, M., La tecnología de búsqueda de conceptos va más allá de las palabras clave, Information Outlook, julio de 2004.
^ ab Lew, MS, Sebe, N., Djeraba, C., Jain, R., Recuperación de información multimedia basada en contenido: estado del arte y desafíos, Transacciones ACM sobre informática, comunicaciones y aplicaciones multimedia, febrero de 2006.
^ Datta R., Joshi, D., Li J., Wang, JZ, Recuperación de imágenes: ideas, influencias y tendencias de la nueva era, ACM Computing Surveys, vol. 40, núm. 2, abril de 2008.
^ "Mir 2004". www.liacs.nl . Archivado desde el original el 7 de marzo de 2014 . Consultado el 12 de enero de 2022 .
^ Robertson, SE , Spärck Jones, K. , Enfoques simples y probados para la recuperación de textos, Informe técnico, Laboratorio de Computación de la Universidad de Cambridge, diciembre de 1994.
^ Navigli, R., Velardi, P. Un análisis de estrategias de expansión de consultas basadas en ontologías Archivado el 26 de abril de 2012 en Wayback Machine . Proc. del Taller sobre Extracción y Minería de Texto Adaptativo (ATEM 2003) , en la 14ª Conferencia Europea sobre Aprendizaje Automático (ECML 2003) , Cavtat-Dubrovnik, Croacia, 22-26 de septiembre de 2003, págs. 42–49
^ abcd Manning, CD, Raghavan P., Schütze H., Introducción a la recuperación de información, Cambridge University Press, 2008.
^ abc Callan, J., Allan, J., Clarke, CLA, Dumais, S., Evans, D., A., Sanderson, M., Zhai, C., Reunión de las MENTES: una agenda de investigación de recuperación de información, ACM, Foro SIGIR, vol. 41 N° 2, diciembre de 2007.
^ Rehurek, R., Un sistema combinado para búsqueda de similitud de vectores basado en el índice de texto completo invertido, ScaleText Search Engine, patente estadounidense pendiente 15726803, 2017.
^ Croft, B., Metzler, D., Strohman, T., Motores de búsqueda, recuperación de información en la práctica, Addison Wesley, 2009.

enlaces externos

Conferencia de recuperación de texto (TREC), NIST
NII Testbeds and Community for Information Access Research (NTCIR), Instituto Nacional de Informática, Tokio
Educación y función en varios idiomas (CLEF)
(Iniciativa para la evaluación de la recuperación de XML), Universidad de Duisburg-Essen
INEX (Iniciativa para la evaluación de la recuperación de XML), Universidad de Duisburg (archivado en 2007)