Clasificación de consultas web

La clasificación/categorización de temas de consultas web es un problema en la ciencia de la información . La tarea consiste en asignar una consulta de búsqueda web a una o más categorías predefinidas , en función de sus temas. La importancia de la clasificación de consultas se ve subrayada por muchos servicios proporcionados por la búsqueda web. Una aplicación directa es proporcionar mejores páginas de resultados de búsqueda para usuarios con intereses de diferentes categorías. Por ejemplo, los usuarios que realizan una consulta web " manzana " pueden esperar ver páginas web relacionadas con la fruta manzana, o pueden preferir ver productos o noticias relacionadas con la empresa informática. Los servicios de publicidad en línea pueden basarse en los resultados de la clasificación de consultas para promocionar diferentes productos con mayor precisión. Las páginas de resultados de búsqueda se pueden agrupar según las categorías predichas por un algoritmo de clasificación de consultas. Sin embargo, el cálculo de la clasificación de consultas no es trivial. A diferencia de las tareas de clasificación de documentos , las consultas enviadas por los usuarios de búsquedas web suelen ser breves y ambiguas; además, los significados de las consultas evolucionan con el tiempo. Por lo tanto, la clasificación de temas de consultas es mucho más difícil que las tareas de clasificación de documentos tradicionales.

Dificultades

La clasificación de temas de consultas web consiste en asignar automáticamente una consulta a algunas categorías predefinidas. A diferencia de las tareas de clasificación de documentos tradicionales, existen varias dificultades importantes que dificultan el progreso de la comprensión de las consultas web :

Obtenga una representación de características apropiada para consultas web

Muchas consultas son breves y los términos de consulta son ruidosos. Por ejemplo, en el conjunto de datos KDDCUP 2005, las consultas que contienen 3 palabras son las más frecuentes (22%). Además, el 79% de las consultas no tienen más de 4 palabras. Una consulta de usuario a menudo tiene múltiples significados. Por ejemplo, " manzana " puede significar un tipo de fruta o una empresa de computadoras. " Java " puede significar un lenguaje de programación o una isla en Indonesia. En el conjunto de datos KDDCUP 2005, la mayoría de las consultas contienen más de un significado. Por lo tanto, no es adecuado utilizar solo las palabras clave de la consulta para configurar un modelo de espacio vectorial para la clasificación.

Los métodos basados en el enriquecimiento de consultas ^[1]^[2] comienzan por enriquecer las consultas de los usuarios a una colección de documentos de texto a través de motores de búsqueda . De este modo, cada consulta se representa mediante un pseudodocumento que consta de fragmentos de las páginas de resultados mejor clasificadas recuperadas por el motor de búsqueda. Posteriormente, los documentos de texto se clasifican en las categorías de destino utilizando clasificadores basados en sinónimos o clasificadores estadísticos, como Naive Bayes (NB) y máquinas de vectores de soporte (SVM).

Adaptación a los cambios de las consultas y categorías a lo largo del tiempo

Los significados de las consultas también pueden evolucionar con el tiempo. Por lo tanto, las antiguas consultas de entrenamiento etiquetadas pueden quedar obsoletas y volverse inútiles pronto. Cómo hacer que el clasificador se adapte con el tiempo se convierte en un gran problema. Por ejemplo, la palabra " Barcelona " tiene un nuevo significado de nuevo microprocesador de AMD, mientras que se refiere a una ciudad o club de fútbol antes de 2007. La distribución de los significados de este término es, por lo tanto, una función del tiempo en la Web.

El método basado en taxonomía intermedia ^[3] primero construye un clasificador puente sobre una taxonomía intermedia, como Open Directory Project (ODP), en un modo fuera de línea. Luego, este clasificador se utiliza en un modo en línea para asignar consultas de usuario a las categorías de destino a través de la taxonomía intermedia. La ventaja de este enfoque es que el clasificador puente necesita ser entrenado solo una vez y es adaptable a cada nuevo conjunto de categorías de destino y consultas entrantes.

Uso de registros de consultas sin etiquetar para facilitar la clasificación de consultas

Dado que los datos de entrenamiento etiquetados manualmente para la clasificación de consultas son costosos, la cuestión de cómo utilizar un registro de consultas de un motor de búsqueda web muy grande como fuente de datos no etiquetados para ayudar en la clasificación automática de consultas se convierte en un tema candente. Estos registros registran el comportamiento de los usuarios web cuando buscan información a través de un motor de búsqueda. Con el paso de los años, los registros de consultas se han convertido en un recurso valioso que contiene el conocimiento de los usuarios web sobre la World Wide Web.

El método de agrupamiento de consultas ^[4] intenta asociar consultas relacionadas mediante la agrupación de "datos de sesión", que contienen múltiples consultas e información de clics de una única interacción del usuario. Tienen en cuenta los términos de los documentos de resultados que un conjunto de consultas tiene en común. Se ha demostrado que el uso de palabras clave de consulta junto con datos de sesión es el método más eficaz para realizar la agrupación de consultas.

El método basado en preferencias de selección ^[5] intenta explotar algunas reglas de asociación entre los términos de consulta para ayudar con la clasificación de la consulta. Dados los datos de entrenamiento, explotan varios enfoques de clasificación, incluyendo la coincidencia exacta utilizando datos etiquetados, la coincidencia de N-Gram utilizando datos etiquetados y clasificadores basados en la percepción. Hacen hincapié en un enfoque adaptado de la lingüística computacional llamado preferencias de selección. Si x e y forman un par (x; y) e y pertenece a la categoría c, entonces todos los demás pares (x; z) encabezados por x pertenecen a c. Utilizan datos de registro de consultas sin etiquetar para extraer estas reglas y validar la eficacia de sus enfoques en algunas consultas etiquetadas.

Aplicaciones

Los metabuscadores envían la consulta de un usuario a varios motores de búsqueda y combinan los resultados principales de cada uno en una lista general. El motor de búsqueda puede organizar la gran cantidad de páginas web en los resultados de búsqueda, según las categorías potenciales de la consulta realizada, para facilitar la navegación de los usuarios web.
La búsqueda vertical , en comparación con la búsqueda general, se centra en dominios específicos y aborda las necesidades de información particulares de nichos de audiencia y profesiones. Una vez que el motor de búsqueda puede predecir la categoría de información que busca un usuario web, puede seleccionar automáticamente un determinado motor de búsqueda vertical, sin obligar al usuario a acceder explícitamente al motor de búsqueda vertical.
La publicidad en línea^[6]^[7] tiene como objetivo ofrecer anuncios interesantes a los usuarios de la Web durante sus actividades de búsqueda. El motor de búsqueda puede ofrecer publicidad relevante a los usuarios de la Web según sus intereses, de modo que los usuarios de la Web puedan ahorrar tiempo y esfuerzo en la investigación mientras que los anunciantes pueden reducir sus costos de publicidad.

Todos estos servicios se basan en la comprensión de las intenciones de búsqueda de los usuarios web a través de sus consultas web.

Véase también

Referencias

^ Shen et al. "Q2C@UST: nuestra solución ganadora para la clasificación de consultas". ACM SIGKDD Exploration, diciembre de 2005, volumen 7, número 2 .
^ Shen et al. "Enriquecimiento de consultas para la clasificación de consultas web". ACM TOIS, vol. 24, n.º 3, julio de 2006 .
^ Shen et al. "Construyendo puentes para la clasificación de consultas web". ACM SIGIR, 2006 .
^ Wen et al. "Agrupamiento de consultas mediante registros de usuarios", ACM TOIS, Volumen 20, Número 1, enero de 2002 .
^ Beitzel et al. "Clasificación automática de consultas web utilizando registros de consultas sin etiquetar muy grandes", ACM TOIS, volumen 25, número 2, abril de 2007 .
^ Minería de datos e inteligencia de audiencias para publicidad (ADKDD'07), taller KDD 2007
^ Segmentación y clasificación para publicidad online (TROA'08), taller WWW 2008

Lectura adicional

Shen. "Comprensión de consultas web basada en el aprendizaje". Tesis doctoral , HKUST , junio de 2007.