stringtranslate.com

Dimensión Vapnik-Chervonenkis

En la teoría de Vapnik-Chervonenkis , la dimensión de Vapnik-Chervonenkis (VC) es una medida del tamaño (capacidad, complejidad, poder expresivo, riqueza o flexibilidad) de una clase de conjuntos. La noción puede extenderse a clases de funciones binarias. Se define como la cardinalidad del conjunto más grande de puntos que el algoritmo puede destruir , lo que significa que el algoritmo siempre puede aprender un clasificador perfecto para cualquier etiquetado de al menos una configuración de esos puntos de datos. Fue definido originalmente por Vladimir Vapnik y Alexey Chervonenkis . [1]

Informalmente, la capacidad de un modelo de clasificación está relacionada con lo complicado que puede ser. Por ejemplo, considere el umbral de un polinomio de alto grado : si el polinomio se evalúa por encima de cero, ese punto se clasifica como positivo; de lo contrario, como negativo. Un polinomio de alto grado puede moverse, por lo que puede ajustarse bien a un conjunto determinado de puntos de entrenamiento. Pero se puede esperar que el clasificador cometa errores en otros puntos, porque es demasiado inestable. Un polinomio de este tipo tiene una gran capacidad. Una alternativa mucho más sencilla es establecer un umbral para una función lineal. Es posible que esta función no se ajuste bien al conjunto de entrenamiento porque tiene poca capacidad. Esta noción de capacidad se hace rigurosa a continuación.

Definiciones

Dimensión VC de una familia de conjuntos

Sean una familia de conjuntos (un conjunto de conjuntos) y un conjunto. Su intersección se define como la siguiente familia de conjuntos:

Decimos que un conjunto se rompe si contiene todos los subconjuntos de , es decir:

La dimensión VC de es la cardinalidad del conjunto más grande que es destrozado por . Si se pueden romper conjuntos arbitrariamente grandes, la dimensión VC es .

Dimensión VC de un modelo de clasificación.

Se dice que un modelo de clasificación binaria con algún vector de parámetros destruye un conjunto de puntos de datos generalmente posicionados si, para cada asignación de etiquetas a esos puntos, existe tal que el modelo no cometa errores al evaluar ese conjunto de puntos de datos [ cita necesaria ] .

La dimensión VC de un modelo es el número máximo de puntos que se pueden disponer de manera que los rompa. Más formalmente, es el cardinal máximo tal que existe un conjunto de puntos de datos de cardinalidad generalmente posicionados que pueden ser destruidos por .

Ejemplos

1. es un clasificador constante (sin parámetros); Su dimensión VC es 0 ya que no puede romper ni un solo punto. En general, la dimensión VC de un modelo de clasificación finito, que puede devolver como máximo clasificadores diferentes, es como máximo (este es un límite superior de la dimensión VC; el lema de Sauer-Shelah proporciona un límite inferior de la dimensión).

2. es un clasificador de umbral uniparamétrico para números reales; es decir, para un cierto umbral , el clasificador devuelve 1 si el número de entrada es mayor que y 0 en caso contrario. La dimensión VC de es 1 porque: (a) Puede romper un solo punto. Para cada punto , un clasificador lo etiqueta como 0 si y lo etiqueta como 1 si . (b) No puede destrozar todos los conjuntos con dos puntos. Para cada conjunto de dos números, si el más pequeño está etiquetado con 1, entonces el mayor también debe estar etiquetado con 1, por lo que no todos los etiquetados son posibles.

3. es un clasificador de intervalos uniparamétrico para números reales; es decir, para un determinado parámetro , el clasificador devuelve 1 si el número de entrada está en el intervalo y 0 en caso contrario. La dimensión VC de es 2 porque: (a) Puede romper algunos conjuntos de dos puntos. Por ejemplo, para cada conjunto , un clasificador lo etiqueta como (0,0) si o si , como (1,0) si , como (1,1) si y como (0,1) si . (b) No puede destrozar ningún conjunto de tres puntos. Para cada conjunto de tres números, si el más pequeño y el más grande están etiquetados con 1, entonces el del medio también debe estar etiquetado con 1, por lo que no todos los etiquetados son posibles.

4. es una línea recta como modelo de clasificación de puntos en un plano bidimensional (este es el modelo utilizado por un perceptrón ). La línea debe separar los puntos de datos positivos de los puntos de datos negativos. Existen conjuntos de 3 puntos que de hecho pueden romperse usando este modelo (cualesquiera 3 puntos que no sean colineales pueden romperse). Sin embargo, ningún conjunto de 4 puntos puede romperse: según el teorema de radón , cuatro puntos cualesquiera pueden dividirse en dos subconjuntos con cascos convexos que se cruzan , por lo que no es posible separar uno de estos dos subconjuntos del otro. Por lo tanto, la dimensión VC de este clasificador en particular es 3. Es importante recordar que si bien uno puede elegir cualquier disposición de puntos, la disposición de esos puntos no puede cambiar cuando se intenta romper para alguna asignación de etiqueta. Tenga en cuenta que solo  se muestran 3 de las 2 3 = 8 posibles asignaciones de etiquetas para los tres puntos.

5. es un clasificador sinusoidal de un solo parámetro , es decir, para un determinado parámetro , el clasificador devuelve 1 si el número de entrada lo tiene y 0 en caso contrario. La dimensión VC de es infinita, ya que puede destruir cualquier subconjunto finito del conjunto . [2] : 57 

Usos

En la teoría del aprendizaje estadístico

La dimensión VC puede predecir un límite superior probabilístico en el error de prueba de un modelo de clasificación. Vapnik [3] demostró que la probabilidad de que el error de prueba (es decir, el riesgo con función de pérdida 0-1) se aleje de un límite superior (en datos extraídos de la misma distribución que el conjunto de entrenamiento) viene dada por:

donde es la dimensión VC del modelo de clasificación, y es el tamaño del conjunto de entrenamiento (restricción: esta fórmula es válida cuando . Cuando es mayor, el error de prueba puede ser mucho mayor que el error de entrenamiento. Esto se debe a sobreajuste ).

La dimensión VC también aparece en los límites de complejidad de la muestra . Un espacio de funciones binarias con dimensión VC se puede aprender con: [4] : ​​73 

muestras, donde es el error de aprendizaje y es la probabilidad de falla. Por tanto, la complejidad de la muestra es una función lineal de la dimensión VC del espacio de hipótesis.

En geometría computacional

La dimensión VC es uno de los parámetros críticos en el tamaño de las ε-nets , que determina la complejidad de los algoritmos de aproximación basados ​​en ellas; los conjuntos de rangos sin dimensión VC finita pueden no tener redes ε finitas en absoluto.

Límites

0. La dimensión VC de la familia de conjuntos duales de es estrictamente menor que , y esto es lo mejor posible.

1. La dimensión VC de una familia de conjuntos finita es como máximo . [2] : 56  Esto se debe a que, por definición.

2. Dada una familia de conjuntos , defina como una familia de conjuntos que contiene todas las intersecciones de elementos de . Entonces: [2] : 57 

3. Dada una familia de conjuntos y un elemento , defina dónde denota diferencia de conjuntos simétrica . Entonces: [2] : 58 

Ejemplos de clases de VC

Dimensión VC de un plano proyectivo finito

Un plano proyectivo finito de orden n es una colección de n 2 + n + 1 conjuntos (llamados "líneas") sobre n 2 + n + 1 elementos (llamados "puntos"), para los cuales:

La dimensión VC de un plano proyectivo finito es 2. [5]

Prueba : (a) Para cada par de puntos distintos, hay una línea que contiene a ambos, líneas que contienen solo uno de ellos y líneas que contienen ninguno de ellos, por lo que cada conjunto de tamaño 2 se rompe. (b) Para cualquier tripleta de tres puntos distintos, si hay una recta x que contiene los tres, entonces no hay una recta y que contenga exactamente dos (ya que entonces x e y se cortarían en dos puntos, lo cual es contrario a la definición de un plano proyectivo). Por tanto, ningún conjunto de tamaño 3 se rompe.

Dimensión VC de un clasificador potenciador.

Supongamos que tenemos una clase base de clasificadores simples, cuya dimensión VC es .

Podemos construir un clasificador más potente combinando varios clasificadores diferentes de ; Esta técnica se llama impulso . Formalmente, dados los clasificadores y un vector de peso , podemos definir el siguiente clasificador:

La dimensión VC del conjunto de todos esos clasificadores (para todas las selecciones de clasificadores de y un vector de peso de ), suponiendo que , es como máximo: [4] : ​​108–109 

Dimensión VC de una red neuronal.

Una red neuronal se describe mediante un gráfico acíclico dirigido G ( V , E ), donde:

La dimensión VC de una red neuronal está delimitada de la siguiente manera: [4] : ​​234–235 

Generalizaciones

La dimensión VC se define para espacios de funciones binarias (funciones para {0,1}). Se han sugerido varias generalizaciones para espacios de funciones no binarias.

Ver también

Notas a pie de página

  1. ^ Vapnik, VN; Chervonenkis, A. Ya. (1971). "Sobre la convergencia uniforme de frecuencias relativas de eventos con respecto a sus probabilidades". Teoría de la probabilidad y sus aplicaciones . 16 (2): 264. doi : 10.1137/1116025.Esta es una traducción al inglés, realizada por B. Seckler, del artículo ruso: "Sobre la convergencia uniforme de frecuencias relativas de eventos con respecto a sus probabilidades". Dokl. Akád. Nauk . 181 (4): 781. 1968.La traducción se reprodujo como: Vapnik, VN; Chervonenkis, A. Ya. (2015). "Sobre la convergencia uniforme de frecuencias relativas de eventos con respecto a sus probabilidades". Medidas de Complejidad . pag. 11. doi :10.1007/978-3-319-21852-6_3. ISBN 978-3-319-21851-9.
  2. ^ abcd Mohri, Mehryar ; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Fundamentos del aprendizaje automático . Estados Unidos, Massachusetts: MIT Press. ISBN 9780262018258.
  3. ^ Vápnik 2000.
  4. ^ abc Shalev-Shwartz, Shai; Ben-David, Shai (2014). Comprender el aprendizaje automático: de la teoría a los algoritmos . Prensa de la Universidad de Cambridge. ISBN 9781107057135.
  5. ^ Alon, N.; Haussler, D.; Welzl, E. (1987). "Partición e incrustación geométrica de espacios de rango de dimensión finita de Vapnik-Chervonenkis". Actas del tercer simposio anual sobre geometría computacional - SCG '87 . pag. 331. doi : 10.1145/41958.41994. ISBN 978-0897912310. S2CID  7394360.
  6. ^ Natarajan 1989.
  7. ^ Ben-David, Cesa-Bianchi y Long 1992.
  8. ^ Pollard 1984.
  9. ^ Antonio y Bartlett 2009.
  10. ^ Morgenstern y Roughgarden 2015.
  11. ^ Karpinski y Macintyre 1997.

Referencias