stringtranslate.com

Teoría de Vapnik-Chervonenkis

La teoría de Vapnik-Chervonenkis (también conocida como teoría VC ) fue desarrollada durante 1960-1990 por Vladimir Vapnik y Alexey Chervonenkis . La teoría es una forma de teoría del aprendizaje computacional , que intenta explicar el proceso de aprendizaje desde un punto de vista estadístico.

Introducción

La teoría de VC cubre al menos cuatro partes (como se explica en La naturaleza de la teoría del aprendizaje estadístico [1] ):

La teoría VC es una subrama importante de la teoría del aprendizaje estadístico . Una de sus principales aplicaciones en la teoría del aprendizaje estadístico es proporcionar condiciones de generalización para los algoritmos de aprendizaje. Desde este punto de vista, la teoría VC está relacionada con la estabilidad , que es un enfoque alternativo para caracterizar la generalización.

Además, la teoría de VC y la dimensión de VC son fundamentales en la teoría de procesos empíricos , en el caso de procesos indexados por clases de VC. Podría decirse que estas son las aplicaciones más importantes de la teoría VC y se emplean para demostrar la generalización. Se introducirán varias técnicas que se utilizan ampliamente en el proceso empírico y la teoría de VC. La discusión se basa principalmente en el libro Convergencia débil y procesos empíricos: con aplicaciones a la estadística . [2]

Descripción general de la teoría VC en procesos empíricos

Antecedentes de los procesos empíricos

Sea un espacio mensurable . Para cualquier medida y cualquier función medible , defina

Aquí se ignorarán los problemas de mensurabilidad; para obtener más detalles técnicos, consulte. [1] Sea una clase de funciones medibles y defina:

Sean elementos aleatorios independientes e idénticamente distribuidos de . Luego define la medida empírica.

donde δ aquí representa la medida de Dirac . La medida empírica induce un mapa dado por:

Ahora supongamos que P es la verdadera distribución subyacente de los datos, que se desconoce. La teoría de los procesos empíricos tiene como objetivo identificar clases para las cuales se aplican afirmaciones como las siguientes:

Es decir, como ,

uniformemente para todos .

En el primer caso se llama clase Glivenko-Cantelli , y en el último caso (bajo el supuesto ) la clase se llama Donsker o P -Donsker. Una clase de Donsker es Glivenko-Cantelli en probabilidad mediante una aplicación del teorema de Slutsky .

Estas afirmaciones son ciertas para un solo argumento , según el estándar LLN , CLT , bajo condiciones de regularidad, y la dificultad en los procesos empíricos surge porque se hacen afirmaciones conjuntas para todos . Intuitivamente entonces, el conjunto no puede ser demasiado grande, y resulta que la geometría juega un papel muy importante.

Una forma de medir el tamaño del conjunto de funciones es utilizar los llamados números de cobertura . El número de cobertura

es el número mínimo de bolas necesarias para cubrir el conjunto (aquí obviamente se supone que hay una norma subyacente en ). La entropía es el logaritmo del número de cobertura.

A continuación se proporcionan dos condiciones suficientes bajo las cuales se puede demostrar que el conjunto es Glivenko-Cantelli o Donsker.

Una clase es P -Glivenko–Cantelli si es P -medible con envolvente F tal que y satisface:

La siguiente condición es una versión del célebre teorema de Dudley . Si es una clase de funciones tal que

entonces es P -Donsker para cada medida de probabilidad P tal que . En la última integral, la notación significa

.

Simetrización

La mayoría de los argumentos sobre cómo limitar el proceso empírico se basan en la simetrización, las desigualdades máximas y de concentración y el encadenamiento. La simetrización suele ser el primer paso de las pruebas y, dado que se utiliza en muchas pruebas de aprendizaje automático sobre funciones de pérdida empíricas acotadas (incluida la prueba de la desigualdad VC que se analiza en la siguiente sección), se presenta aquí.

Considere el proceso empírico:

Resulta que existe una conexión entre el proceso empírico y el siguiente proceso simetrizado:

El proceso simetrizado es un proceso de Rademacher , condicionalmente a los datos . Por tanto, se trata de un proceso subgaussiano por la desigualdad de Hoeffding .

Lema (simetrización). Para cada Φ convexo no decreciente: RR y clase de funciones medibles ,

La prueba del lema de simetrización se basa en introducir copias independientes de las variables originales (a veces denominadas muestra fantasma ) y reemplazar la expectativa interna del LHS por estas copias. Después de una aplicación de la desigualdad de Jensen se podrían introducir diferentes signos (de ahí el nombre de simetrización) sin cambiar la expectativa. La prueba se puede encontrar a continuación debido a su naturaleza instructiva. Se puede utilizar el mismo método de demostración para demostrar el teorema de Glivenko-Cantelli . [3]

Prueba

Introduzca la "muestra fantasma" para que sean copias independientes de . Para valores fijos de uno tiene:

Por lo tanto, por la desigualdad de Jensen :

Teniendo expectativa con respecto a da:

Tenga en cuenta que agregar un signo menos delante de un término no cambia el lado derecho, porque es una función simétrica de y . Por lo tanto, el RHS sigue siendo el mismo bajo "perturbación de signos":

para cualquier . Por lo tanto:

Finalmente, usando la desigualdad del primer triángulo y luego la convexidad de se obtiene:

Donde las dos últimas expresiones del RHS son iguales, con lo que concluye la prueba.

Una forma típica de probar CLT empíricos es utilizar primero la simetrización para pasar el proceso empírico y luego argumentar condicionalmente sobre los datos, aprovechando el hecho de que los procesos de Rademacher son procesos simples con buenas propiedades.

Conexión VC

Resulta que existe una conexión fascinante entre ciertas propiedades combinatorias del conjunto y los números de entropía. Los números de cobertura uniformes pueden controlarse mediante la noción de clases de conjuntos de Vapnik-Chervonenkis , o brevemente conjuntos VC .

Considere una colección de subconjuntos del espacio muestral . se dice que selecciona un determinado subconjunto del conjunto finito si es para algunos . se dice que destruye S si selecciona cada uno de sus 2 n subconjuntos. El índice VC (similar a la dimensión VC + 1 para un conjunto de clasificadores elegido apropiadamente) de es el n más pequeño para el cual ningún conjunto de tamaño n se rompe .

El lema de Sauer luego establece que el número de subconjuntos seleccionados por una clase VC satisface:

Que es un número polinómico de subconjuntos en lugar de un número exponencial. Intuitivamente, esto significa que un índice VC finito implica que tiene una estructura aparentemente simplista.

Se puede mostrar un límite similar (con una constante diferente y la misma tasa) para las llamadas clases de subgrafos VC . Para una función, el subgrafo es un subconjunto de tal que: . Una colección de se denomina clase de subgrafo VC si todos los subgrafos forman una clase VC.

Considere un conjunto de funciones indicadoras para un tipo empírico discreto de medida Q (o de manera equivalente para cualquier medida de probabilidad Q ). Entonces se puede demostrar que, de manera bastante notable, para :

Considere además el casco convexo simétrico de un conjunto : siendo la colección de funciones de la forma con . Entonces sí

lo siguiente es válido para el casco convexo de :

La consecuencia importante de este hecho es que

lo cual es suficiente para que la integral de entropía converja y, por lo tanto, la clase sea P -Donsker.

Finalmente se considera un ejemplo de una clase de subgrafo VC. Cualquier espacio vectorial de dimensión finita de funciones medibles es un subgrafo VC de índice menor o igual a .

Prueba: toma puntos . Los vectores:

están en un subespacio n − 1 dimensional de R n . Tome a ≠ 0 , un vector que es ortogonal a este subespacio. Por lo tanto:

Considere el conjunto . Este conjunto no se puede seleccionar ya que, si existe alguno , eso implicaría que el LHS es estrictamente positivo pero el RHS no es positivo.

Existen generalizaciones de la noción de clase de subgrafo VC, por ejemplo, existe la noción de pseudodimensión. El lector interesado puede consultar. [4]

desigualdad de capital de riesgo

Se considera una configuración similar, que es más común para el aprendizaje automático . Sea un espacio característico y . Una función se llama clasificador. Sea un conjunto de clasificadores. De manera similar a la sección anterior, defina el coeficiente de ruptura (también conocido como función de crecimiento):

Tenga en cuenta aquí que hay una relación 1:1 entre cada una de las funciones y el conjunto en el que la función es 1. Por lo tanto, podemos definirlo como la colección de subconjuntos obtenidos del mapeo anterior para cada . Por lo tanto, en términos de la sección anterior el coeficiente de ruptura es precisamente

.

Esta equivalencia junto con el lema de Sauer implica que será polinomio en n , para n suficientemente grande , siempre que la colección tenga un índice VC finito.

Sea un conjunto de datos observado. Supongamos que los datos se generan mediante una distribución de probabilidad desconocida . Definir como la pérdida esperada 0/1 . Por supuesto, como se desconoce en general, no se tiene acceso a él . Sin embargo, el riesgo empírico , dado por:

ciertamente se puede evaluar. Entonces se tiene el siguiente teorema:

Teorema (Desigualdad VC)

Para la clasificación binaria y la función de pérdida 0/1 tenemos los siguientes límites de generalización:

En palabras, la desigualdad de VC dice que a medida que aumenta la muestra, siempre que tenga una dimensión de VC finita, el riesgo empírico 0/1 se convierte en un buen indicador del riesgo 0/1 esperado. Tenga en cuenta que ambos RHS de las dos desigualdades convergerán a 0, siempre que crezca polinomialmente en n .

La conexión entre este marco y el marco del Proceso Empírico es evidente. Aquí se trata de un proceso empírico modificado.

pero no es sorprendente que las ideas sean las mismas. La prueba de la (primera parte de) la desigualdad VC se basa en la simetrización y luego se argumenta condicionalmente sobre los datos utilizando desigualdades de concentración (en particular la desigualdad de Hoeffding ). El lector interesado puede consultar el libro [5] Teoremas 12.4 y 12.5.

Referencias

  1. ^ ab Vapnik, Vladimir N (2000). La naturaleza de la teoría del aprendizaje estadístico . Ciencias de la Información y Estadística. Springer-Verlag . ISBN 978-0-387-98780-4.
  2. ^ van der Vaart, Aad W .; Wellner, Jon A. (2000). Convergencia débil y procesos empíricos: con aplicaciones a la estadística (2ª ed.). Saltador. ISBN 978-0-387-94640-5.
  3. ^ Devroye, L., Gyorfi, L. y Lugosi, G. Una teoría probabilística del reconocimiento de patrones. Matemáticas aplicadas discretas 73 , 192–194 (1997).
  4. ^ Pollard, David (1990).Procesos empíricos: teoría y aplicaciones. Serie de conferencias regionales NSF-CBMS sobre probabilidad y estadística Volumen 2. ISBN 978-0-940600-16-4.
  5. ^ Gyorfi, L.; Devroye, L.; Lugosi, G. (1996). Una teoría probabilística del reconocimiento de patrones (1ª ed.). Saltador. ISBN 978-0387946184.