La función de crecimiento , también llamada coeficiente de fragmentación o número de fragmentación , mide la riqueza de una familia de conjuntos o clase de funciones. Se utiliza especialmente en el contexto de la teoría del aprendizaje estadístico , donde se utiliza para estudiar las propiedades de los métodos de aprendizaje estadístico. El término "función de crecimiento" fue acuñado por Vapnik y Chervonenkis en su artículo de 1968, donde también demostraron muchas de sus propiedades. [1]
Es un concepto básico en el aprendizaje automático . [2] [3]
Definiciones
Definición de familia de conjuntos
Sean una familia de conjuntos (un conjunto de conjuntos) y un conjunto. Su intersección se define como la siguiente familia de conjuntos:
El tamaño de la intersección (también llamado índice ) de con respecto a es . Si un conjunto tiene elementos, entonces el índice es como máximo . Si el índice es exactamente 2 m, entonces se dice que el conjunto está fragmentado por , porque contiene todos los subconjuntos de , es decir:
La función de crecimiento mide el tamaño de como función de . Formalmente:
Definición de clase de hipótesis
De manera equivalente, sea una clase de hipótesis (un conjunto de funciones binarias) y un conjunto con elementos. La restricción de to es el conjunto de funciones binarias en que se puede derivar de : [3] : 45
La función de crecimiento mide el tamaño de en función de : [3] : 49
Ejemplos
1. El dominio es la recta real . La familia de conjuntos contiene todas las semirrectas (rayas) desde un número dado hasta el infinito positivo, es decir, todos los conjuntos de la forma para algún . Para cualquier conjunto de números reales, la intersección contiene conjuntos: el conjunto vacío, el conjunto que contiene el elemento más grande de , el conjunto que contiene los dos elementos más grandes de , y así sucesivamente. Por lo tanto: . [1] : Ej.1 Lo mismo es cierto si contiene semirrectas abiertas, semirrectas cerradas o ambas.
2. El dominio es el segmento . La familia de conjuntos contiene todos los conjuntos abiertos. Para cualquier conjunto finito de números reales, la intersección contiene todos los subconjuntos posibles de . Existen tales subconjuntos, por lo que . [1] : Ej.2
3. El dominio es el espacio euclidiano . La familia de conjuntos contiene todos los semiespacios de la forma: , donde es un vector fijo. Entonces , donde Comp es el número de componentes en una partición de un espacio n-dimensional por m hiperplanos . [1] : Ej.3
4. El dominio es la recta real . La familia de conjuntos contiene todos los intervalos reales, es decir, todos los conjuntos de la forma para algún . Para cualquier conjunto de números reales, la intersección contiene todas las series de entre 0 y elementos consecutivos de . El número de dichas series es , por lo que .
Polinomio o exponencial
La propiedad principal que hace que la función de crecimiento sea interesante es que puede ser polinómica o exponencial (nada intermedio).
La siguiente es una propiedad del tamaño de la intersección: [1] : Lem.1
- Si, para un conjunto de tamaño , y para un número , -
- entonces, existe un subconjunto de tamaño tal que .
Esto implica la siguiente propiedad de la función de crecimiento. [1] : Th.1
Para cada familia hay dos casos:
- El caso exponencial : idénticamente.
- El caso del polinomio : está mayorizado por , donde es el entero más pequeño para el cual .
Otras propiedades
Límite superior trivial
Para cualquier finito :
ya que para cada , el número de elementos en es como máximo . Por lo tanto, la función de crecimiento es principalmente interesante cuando es infinito.
Límite superior exponencial
Para cualquier valor no vacío :
Es decir, la función de crecimiento tiene un límite superior exponencial.
Decimos que una familia de conjuntos fragmenta un conjunto si su intersección contiene todos los subconjuntos posibles de , es decir . Si fragmenta de tamaño , entonces , que es el límite superior.
intersección cartesiana
Defina la intersección cartesiana de dos familias de conjuntos como:
- .
Entonces: [2] : 57
Unión
Por cada dos familias de conjuntos: [2] : 58
Dimensión VC
La dimensión VC de se define según estos dos casos:
- En el caso del polinomio , = el entero más grande para el cual .
- En el caso exponencial .
Así que si y sólo si .
La función de crecimiento puede considerarse como un refinamiento del concepto de dimensión VC. La dimensión VC solo nos dice si es igual o menor que , mientras que la función de crecimiento nos dice exactamente cómo cambia en función de .
Otra conexión entre la función de crecimiento y la dimensión VC está dada por el lema de Sauer-Shelah : [3] : 49
- Si , entonces:
- Para todos :
En particular,
- Para todos :
- Entonces, cuando la dimensión VC es finita, la función de crecimiento crece polinomialmente con .
Este límite superior es estricto, es decir, para todo lo que existe con dimensión VC tal que: [2] : 56
Entropía
Mientras que la función de crecimiento está relacionada con el tamaño máximo de intersección, la entropía está relacionada con el tamaño promedio de intersección: [1] : 272–273
El tamaño de la intersección tiene la siguiente propiedad. Para cada familia de conjuntos :
Por eso:
Además, la secuencia converge a una constante cuando .
Además, la variable aleatoria se concentra cerca de .
Aplicaciones en la teoría de la probabilidad
Sea un conjunto en el que se define una medida de probabilidad . Sea una familia de subconjuntos de (= una familia de eventos).
Supongamos que elegimos un conjunto que contiene elementos de , donde cada elemento se elige al azar según la medida de probabilidad , independientemente de los demás (es decir, con reemplazos). Para cada evento , comparamos las siguientes dos cantidades:
- Su frecuencia relativa en , es decir, ;
- Su probabilidad .
Nos interesa la diferencia, . Esta diferencia satisface el siguiente límite superior:
que es equivalente a: [1] : Th.2
En palabras: la probabilidad de que para todos los eventos en , la frecuencia relativa esté cerca de la probabilidad, está limitada inferiormente por una expresión que depende de la función de crecimiento de .
Un corolario de esto es que, si la función de crecimiento es polinómica en (es decir, existe alguna tal que ), entonces la probabilidad anterior se acerca a 1 cuando . Es decir, la familia disfruta de convergencia uniforme en probabilidad .
Referencias
- ^ abcdefgh Vapnik, VN; Chervonenkis, A. Ya. (1971). "Sobre la convergencia uniforme de frecuencias relativas de eventos con sus probabilidades". Teoría de la probabilidad y sus aplicaciones . 16 (2): 264. doi :10.1137/1116025.Se trata de una traducción al inglés, realizada por B. Seckler, del artículo ruso: "Sobre la convergencia uniforme de las frecuencias relativas de los acontecimientos con sus probabilidades". Dokl. Akad. Nauk . 181 (4): 781. 1968.La traducción fue reproducida como: Vapnik, VN; Chervonenkis, A. Ya. (2015). "Sobre la convergencia uniforme de frecuencias relativas de eventos con sus probabilidades". Medidas de complejidad . p. 11. doi :10.1007/978-3-319-21852-6_3. ISBN 978-3-319-21851-9.
- ^ abcd Mohri, Mehryar ; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Fundamentos del aprendizaje automático . EE. UU., Massachusetts: MIT Press. ISBN 9780262018258., especialmente la Sección 3.2
- ^ abcd Shalev-Shwartz, Shai; Ben-David, Shai (2014). Comprender el aprendizaje automático: de la teoría a los algoritmos . Cambridge University Press. ISBN 9781107057135.