stringtranslate.com

Complejidad de Rademacher

En la teoría del aprendizaje computacional ( aprendizaje automático y teoría de la computación ), la complejidad de Rademacher , que lleva el nombre de Hans Rademacher , mide la riqueza de una clase de conjuntos con respecto a una distribución de probabilidad . El concepto también puede extenderse a funciones de valor real.

Definiciones

Complejidad de Rademacher de un conjunto.

Dado un conjunto , la complejidad de Rademacher de A se define de la siguiente manera: [1] [2] : 326 

donde son variables aleatorias independientes extraídas de la distribución de Rademacher , es decir, para , y . Algunos autores toman el valor absoluto de la suma antes de tomar el supremo, pero si es simétrico esto no hace diferencia.

Complejidad de Rademacher de una clase de función

Sea una muestra de puntos y considere una clase de función de funciones de valor real sobre . Entonces, la complejidad empírica de Rademacher dada se define como:

Esto también se puede escribir usando la definición anterior: [2] : 326 

donde denota composición de funciones , es decir:

Sea una distribución de probabilidad sobre . La complejidad de Rademacher de la clase de función con respecto al tamaño de la muestra es:

donde la expectativa anterior se toma sobre una muestra idénticamente distribuida independientemente (iid) generada de acuerdo con .

Intuición

La complejidad de Rademacher se aplica normalmente a una clase de función de modelos que se utilizan para la clasificación, con el objetivo de medir su capacidad para clasificar puntos extraídos de un espacio de probabilidad bajo etiquetas arbitrarias. Cuando la clase de función es lo suficientemente rica, contiene funciones que pueden adaptarse adecuadamente a cada disposición de etiquetas, simuladas mediante el sorteo aleatorio bajo la expectativa, de modo que esta cantidad en la suma se maximice.

Ejemplos

1. contiene un único vector, por ejemplo, . Entonces:

Lo mismo ocurre con cada clase de hipótesis singleton. [3] : 56 

2. contiene dos vectores, por ejemplo, . Entonces:

Usando la complejidad de Rademacher

La complejidad de Rademacher se puede utilizar para derivar límites superiores dependientes de los datos sobre la capacidad de aprendizaje de las clases de funciones. Intuitivamente, una clase de función con menor complejidad Rademacher es más fácil de aprender.

Limitando la representatividad

En el aprendizaje automático , se desea tener un conjunto de entrenamiento que represente la distribución real de algunos datos de muestra . Esto puede cuantificarse utilizando la noción de representatividad . Denota por la distribución de probabilidad de la que se extraen las muestras. Denote por el conjunto de hipótesis (clasificadores potenciales) y denote por el conjunto correspondiente de funciones de error, es decir, para cada hipótesis , hay una función que asigna cada muestra de entrenamiento (características, etiqueta) al error del clasificador (nota en En este caso, la hipótesis y el clasificador se utilizan indistintamente). Por ejemplo, en el caso que representa un clasificador binario, la función de error es una función de pérdida 0-1, es decir, la función de error devuelve 0 si clasifica correctamente una muestra y 1 en caso contrario. Omitimos el índice y escribimos en lugar de cuando la hipótesis subyacente es irrelevante. Definir:

– el error esperado de alguna función de error en la distribución real ;
– el error estimado de alguna función de error en la muestra .

La representatividad de la muestra , respecto de y , se define como:

Una representatividad más pequeña es mejor, ya que proporciona una manera de evitar el sobreajuste : significa que el error verdadero de un clasificador no es mucho mayor que su error estimado, por lo que seleccionar un clasificador que tenga un error estimado bajo garantizará que el error verdadero también lo sea. bajo. Sin embargo, tenga en cuenta que el concepto de representatividad es relativo y, por lo tanto, no se puede comparar entre muestras distintas.

La representatividad esperada de una muestra puede estar limitada por la complejidad de Rademacher de la clase de función: [2] : 326 

Limitando el error de generalización

Cuando la complejidad de Rademacher es pequeña, es posible aprender la clase de hipótesis H utilizando la minimización empírica del riesgo .

Por ejemplo, (con función de error binario), [2] : 328  para cada , con probabilidad al menos , para cada hipótesis :

Limitando la complejidad de Rademacher

Dado que una menor complejidad de Rademacher es mejor, es útil tener límites superiores en la complejidad de Rademacher de varios conjuntos de funciones. Las siguientes reglas se pueden utilizar para limitar la complejidad de Rademacher de un conjunto . [2] : 329–330 

1. Si todos los vectores en se traducen por un vector constante , entonces Rad( A ) no cambia.

2. Si todos los vectores se multiplican por un escalar , entonces Rad( A ) se multiplica por .

3. . [3] : 56 

4. (Kakade y Tewari Lemma) Si todos los vectores son operados por una función de Lipschitz , entonces Rad( A ) se multiplica (como máximo) por la constante de Lipschitz de la función. En particular, si todos los vectores son operados mediante un mapeo de contracción , entonces Rad( A ) disminuye estrictamente.

5. La complejidad de Rademacher del casco convexo de igual Rad( A ).

6. (Massart Lemma) La complejidad de Rademacher de un conjunto finito crece logarítmicamente con el tamaño del conjunto. Formalmente, sea un conjunto de vectores en , y sea la media de los vectores en . Entonces:

En particular, si es un conjunto de vectores binarios, la norma es como máximo , entonces:

Límites relacionados con la dimensión VC

Sea una familia de conjuntos cuya dimensión VC es . Se sabe que la función de crecimiento de está acotada como:

para todos :

Esto significa que, por cada conjunto con como máximo elementos, . La familia de conjuntos se puede considerar como un conjunto de vectores binarios sobre . Sustituyendo esto en el lema de Massart se obtiene:

Con técnicas más avanzadas ( límite de entropía de Dudley y límite superior de Haussler [4] ) se puede demostrar, por ejemplo, que existe una constante , de modo que cualquier clase de funciones indicadoras con dimensión de Vapnik-Chervonenkis tiene una complejidad de Rademacher limitada por .

Límites relacionados con clases lineales.

Los siguientes límites están relacionados con operaciones lineales en – un conjunto constante de vectores en . [2] : 332–333 

1. Defina el conjunto de productos escalares de los vectores con vectores en la bola unitaria . Entonces:

2. Defina el conjunto de productos escalares de los vectores con vectores en la bola unitaria de la norma 1. Entonces:

Límites relacionados con los números de cobertura

El siguiente límite relaciona la complejidad de Rademacher de un conjunto con su número de cobertura externa : el número de bolas de un radio dado cuya unión contiene . El límite se atribuye a Dudley. [2] : 338 

Supongamos que es un conjunto de vectores cuya longitud (norma) es como máximo . Entonces, para cada número entero :

En particular, si se encuentra en un subespacio d -dimensional de , entonces:

Sustituyendo esto en el límite anterior se obtiene el siguiente límite en la complejidad de Rademacher:

Complejidad gaussiana

La complejidad gaussiana es una complejidad similar con significados físicos similares, y se puede obtener a partir de la complejidad de Rademacher usando variables aleatorias en lugar de , donde están las variables aleatorias gaussianas i.id con media cero y varianza 1, es decir . Se sabe que las complejidades gaussianas y de Rademacher son equivalentes hasta factores logarítmicos.

Equivalencia de Rademacher y complejidad gaussiana

Dado un conjunto, entonces se cumple que [5] : ¿Dónde está la complejidad gaussiana de A? Como ejemplo, considere las complejidades rademacher y gaussiana de la bola L1. La complejidad de Rademacher está dada por exactamente 1, mientras que la complejidad gaussiana es del orden de (lo que puede demostrarse aplicando propiedades conocidas de suprema de un conjunto de variables aleatorias subgaussianas ). [5]

Referencias

  1. ^ Balcan, Maria-Florina (15 al 17 de noviembre de 2011). "Teoría del aprendizaje automático: complejidad de Rademacher" (PDF) . Consultado el 10 de diciembre de 2016 .
  2. ^ abcdefg Capítulo 26 en Shalev-Shwartz, Shai; Ben-David, Shai (2014). Comprender el aprendizaje automático: de la teoría a los algoritmos . Prensa de la Universidad de Cambridge. ISBN 9781107057135.
  3. ^ ab Mohri, Mehryar ; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Fundamentos del aprendizaje automático . Estados Unidos, Massachusetts: MIT Press. ISBN 9780262018258.
  4. ^ Bousquet, O. (2004). Introducción a la teoría del aprendizaje estadístico. Cibernética biológica , 3176 (1), 169–207. doi :10.1007/978-3-540-28650-9_8
  5. ^ ab Wainwright, Martín (2019). Estadísticas de alta dimensión: un punto de vista no asintótico. Cambridge, Reino Unido. págs. Ejercicio 5.5. ISBN 978-1-108-62777-1. OCLC  1089254580.{{cite book}}: CS1 maint: location missing publisher (link)