El algoritmo de clasificación SVM es una función de recuperación de aprendizaje que emplea métodos de clasificación por pares para ordenar de forma adaptativa los resultados en función de su relevancia para una consulta específica. La función de clasificación SVM utiliza una función de mapeo para describir la coincidencia entre una consulta de búsqueda y las características de cada uno de los resultados posibles. Esta función de mapeo proyecta cada par de datos (como una consulta de búsqueda y una página web en la que se hizo clic, por ejemplo) en un espacio de características. Estas características se combinan con los datos de clics correspondientes (que pueden actuar como un indicador de la relevancia de una página para una consulta específica) y luego se pueden utilizar como datos de entrenamiento para el algoritmo de clasificación SVM.
Generalmente, la clasificación SVM incluye tres pasos en el período de entrenamiento:
Mapea las similitudes entre las consultas y las páginas en las que se hizo clic en un espacio de características determinado.
Calcula las distancias entre cualesquiera dos de los vectores obtenidos en el paso 1.
Forma un problema de optimización que es similar a una clasificación SVM estándar y resuelve este problema con el solucionador SVM normal.
Fondo
Método de clasificación
Supongamos que es un conjunto de datos que contiene elementos . se aplica un método de clasificación a . Entonces, en se puede representar como una matriz binaria. Si el rango de es mayor que el rango de , es decir , la posición correspondiente de esta matriz se establece en el valor "1". De lo contrario, el elemento en esa posición se establecerá en el valor "0".
Supongamos que y son dos métodos de clasificación aplicados al conjunto de datos , la Tau de Kendall entre y se puede representar de la siguiente manera:
donde es el número de pares concordantes y es el número de pares discordantes (inversiones). Un par y es concordante si ambos y concuerdan en cómo se ordenan y . Es discordante si no están de acuerdo.
Para una consulta específica a una base de datos, sea el conjunto de elementos de información relevantes en la base de datos y sea el conjunto de elementos de información recuperados. Entonces, las tres mediciones anteriores se pueden representar de la siguiente manera:
¿Dónde está el de ?
Sean y sean los métodos de clasificación esperados y propuestos de una base de datos respectivamente, el límite inferior de la precisión promedio del método se puede representar de la siguiente manera:
donde es el número de elementos diferentes en las partes triangulares superiores de las matrices de y y es el número de elementos relevantes en el conjunto de datos.
Clasificador SVM[8]
Supongamos que es el elemento de un conjunto de datos de entrenamiento, donde es el vector de características y es la etiqueta (que clasifica la categoría de ). Un clasificador SVM típico para dicho conjunto de datos se puede definir como la solución del siguiente problema de optimización.
La solución del problema de optimización anterior se puede representar como una combinación lineal de los vectores de características s.
donde están los coeficientes a determinar.
Algoritmo de clasificación SVM
Función de pérdida
Sea la tau de Kendall entre el método de clasificación esperado y el método propuesto , se puede demostrar que maximizar ayuda a minimizar el límite inferior de la precisión promedio de .
Función de pérdida esperada [9]
Se puede seleccionar el negativo como función de pérdida para minimizar el límite inferior de la precisión promedio de
¿Dónde está la distribución estadística de para cierta consulta ?
Función de pérdida empírica
Dado que la función de pérdida esperada no es aplicable, se selecciona la siguiente función de pérdida empírica para los datos de entrenamiento en la práctica.
Recopilación de datos de entrenamiento
Las consultas iid se aplican a una base de datos y cada consulta corresponde a un método de clasificación. El conjunto de datos de entrenamiento tiene elementos. Cada elemento contiene una consulta y el método de clasificación correspondiente.
Espacio de características
Se requiere una función de mapeo [10] [11] para mapear cada consulta y el elemento de la base de datos a un espacio de características. Luego, cada punto en el espacio de características se etiqueta con un rango determinado mediante un método de clasificación.
Problema de optimización
Los puntos generados por los datos de entrenamiento se encuentran en el espacio de características, que también contiene la información de rango (las etiquetas). Estos puntos etiquetados se pueden utilizar para encontrar el límite (clasificador) que especifica su orden. En el caso lineal, dicho límite (clasificador) es un vector.
Supongamos que y son dos elementos en la base de datos y denotan si el rango de es más alto que en cierto método de clasificación . Sea vector el candidato a clasificador lineal en el espacio de características. Entonces, el problema de clasificación se puede traducir al siguiente problema de clasificación SVM. Tenga en cuenta que un método de clasificación corresponde a una consulta.
El problema de optimización anterior es idéntico al problema de clasificación SVM clásico, razón por la cual este algoritmo se llama Ranking-SVM.
Función de recuperación
El vector óptimo obtenido por la muestra de entrenamiento es
Por lo tanto, la función de recuperación podría formarse en función de dicho clasificador óptimo. Para una nueva consulta , la función de recuperación primero proyecta todos los elementos de la base de datos en el espacio de características. Luego, ordena estos puntos de características por los valores de sus productos internos con el vector óptimo. Y el rango de cada punto de característica es el rango del elemento correspondiente de la base de datos para la consulta .
Aplicación del sistema de clasificación SVM
El algoritmo SVM de clasificación se puede aplicar para clasificar las páginas según la consulta. El algoritmo se puede entrenar utilizando datos de clics, que consta de las tres partes siguientes:
Consulta.
Ranking actual de resultados de búsqueda
Resultados de búsqueda en los que hizo clic el usuario
La combinación de 2 y 3 no puede proporcionar el orden completo de los datos de entrenamiento que se necesita para aplicar el algoritmo SVM completo. En cambio, proporciona una parte de la información de clasificación de los datos de entrenamiento. Por lo tanto, el algoritmo se puede revisar ligeramente de la siguiente manera.
El método no proporciona información de clasificación de todo el conjunto de datos, sino que es un subconjunto del método de clasificación completo. Por lo tanto, la condición del problema de optimización se vuelve más relajada en comparación con el método de clasificación SVM original.
Referencias
^ Joachims, T. (2002), "Optimización de motores de búsqueda mediante datos de clics", Actas de la Conferencia de la ACM sobre descubrimiento de conocimiento y minería de datos
^ Bing Li; Rong Xiao; Zhiwei Li; Rui Cai; Bao-Liang Lu; Lei Zhang; "Rank-SIFT: Aprendiendo a clasificar puntos de interés locales repetibles", Visión artificial y reconocimiento de patrones (CVPR) , 2011
^ M. Kemeny. Métodos de correlación de rangos, Hafner , 1955
^ A. Mood, F. Graybill y D. Boes. Introducción a la teoría de la estadística . McGraw-Hill, 3.ª edición, 1974.
^ J. Kemeny y L. Snell. Modelos matemáticos en las ciencias sociales. Ginn & Co. 1962
^ Y. Yao. "Medición de la eficacia de la recuperación basada en las preferencias de los usuarios respecto de los documentos". Journal of the American Society for Information Science , 46(2): 133–145, 1995.
^ R. Baeza-Yates y B. Ribeiro-Neto. Recuperación de información moderna . Addison-Wesley-Longman, Harlow, Reino Unido, mayo de 1999
^ C. Cortes y VN Vapnik. "Redes de vectores de soporte". Machine Learning Journal , 20: 273–297, 1995
^ V. Vapnik. Teoría del aprendizaje estadístico . WILEY, Chichester, GB, 1998
^ N. Fuhr. "Funciones óptimas de recuperación polinómica basadas en el principio de clasificación de probabilidad". ACM TRANSACTIONS on Information Systems , 7(3): 183–204
^ N. Fuhr, S. Hartmann, G. Lustig, M. Schwantner, K. Tzeras y G. Knorz. "Air/x: un sistema de indexación multietapa basado en reglas para campos temáticos amplios". En RIAO, 1991