stringtranslate.com

Función de crecimiento

La función de crecimiento , también llamada coeficiente de fragmentación o número de fragmentación , mide la riqueza de una familia de conjuntos o clase de funciones. Se utiliza especialmente en el contexto de la teoría del aprendizaje estadístico , donde se utiliza para estudiar las propiedades de los métodos de aprendizaje estadístico. El término "función de crecimiento" fue acuñado por Vapnik y Chervonenkis en su artículo de 1968, donde también demostraron muchas de sus propiedades. [1] Es un concepto básico en el aprendizaje automático . [2] [3]

Definiciones

Definición de familia de conjuntos

Sean una familia de conjuntos (un conjunto de conjuntos) y un conjunto. Su intersección se define como la siguiente familia de conjuntos:

El tamaño de la intersección (también llamado índice ) de con respecto a es . Si un conjunto tiene elementos, entonces el índice es como máximo . Si el índice es exactamente 2 m, entonces se dice que el conjunto está fragmentado por , porque contiene todos los subconjuntos de , es decir:

La función de crecimiento mide el tamaño de como función de . Formalmente:

Definición de clase de hipótesis

De manera equivalente, sea una clase de hipótesis (un conjunto de funciones binarias) y un conjunto con elementos. La restricción de to es el conjunto de funciones binarias en que se puede derivar de : [3] : 45 

La función de crecimiento mide el tamaño de en función de : [3] : 49 

Ejemplos

1. El dominio es la recta real . La familia de conjuntos contiene todas las semirrectas (rayas) desde un número dado hasta el infinito positivo, es decir, todos los conjuntos de la forma para algún . Para cualquier conjunto de números reales, la intersección contiene conjuntos: el conjunto vacío, el conjunto que contiene el elemento más grande de , el conjunto que contiene los dos elementos más grandes de , y así sucesivamente. Por lo tanto: . [1] : Ej.1  Lo mismo es cierto si contiene semirrectas abiertas, semirrectas cerradas o ambas.

2. El dominio es el segmento . La familia de conjuntos contiene todos los conjuntos abiertos. Para cualquier conjunto finito de números reales, la intersección contiene todos los subconjuntos posibles de . Existen tales subconjuntos, por lo que . [1] : Ej.2 

3. El dominio es el espacio euclidiano . La familia de conjuntos contiene todos los semiespacios de la forma: , donde es un vector fijo. Entonces , donde Comp es el número de componentes en una partición de un espacio n-dimensional por m hiperplanos . [1] : Ej.3 

4. El dominio es la recta real . La familia de conjuntos contiene todos los intervalos reales, es decir, todos los conjuntos de la forma para algún . Para cualquier conjunto de números reales, la intersección contiene todas las series de entre 0 y elementos consecutivos de . El número de dichas series es , por lo que .

Polinomio o exponencial

La propiedad principal que hace que la función de crecimiento sea interesante es que puede ser polinómica o exponencial (nada intermedio).

La siguiente es una propiedad del tamaño de la intersección: [1] : Lem.1 

Esto implica la siguiente propiedad de la función de crecimiento. [1] : Th.1  Para cada familia hay dos casos:

Otras propiedades

Límite superior trivial

Para cualquier finito :

ya que para cada , el número de elementos en es como máximo . Por lo tanto, la función de crecimiento es principalmente interesante cuando es infinito.

Límite superior exponencial

Para cualquier valor no vacío :

Es decir, la función de crecimiento tiene un límite superior exponencial.

Decimos que una familia de conjuntos fragmenta un conjunto si su intersección contiene todos los subconjuntos posibles de , es decir . Si fragmenta de tamaño , entonces , que es el límite superior.

intersección cartesiana

Defina la intersección cartesiana de dos familias de conjuntos como:

.

Entonces: [2] : 57 

Unión

Por cada dos familias de conjuntos: [2] : 58 

Dimensión VC

La dimensión VC de se define según estos dos casos:

Así que si y sólo si .

La función de crecimiento puede considerarse como un refinamiento del concepto de dimensión VC. La dimensión VC solo nos dice si es igual o menor que , mientras que la función de crecimiento nos dice exactamente cómo cambia en función de .

Otra conexión entre la función de crecimiento y la dimensión VC está dada por el lema de Sauer-Shelah : [3] : 49 

Si , entonces:
Para todos :

En particular,

Para todos :
Entonces, cuando la dimensión VC es finita, la función de crecimiento crece polinomialmente con .

Este límite superior es estricto, es decir, para todo lo que existe con dimensión VC tal que: [2] : 56 

Entropía

Mientras que la función de crecimiento está relacionada con el tamaño máximo de intersección, la entropía está relacionada con el tamaño promedio de intersección: [1] : 272–273 

El tamaño de la intersección tiene la siguiente propiedad. Para cada familia de conjuntos :

Por eso:

Además, la secuencia converge a una constante cuando .

Además, la variable aleatoria se concentra cerca de .

Aplicaciones en la teoría de la probabilidad

Sea un conjunto en el que se define una medida de probabilidad . Sea una familia de subconjuntos de (= una familia de eventos).

Supongamos que elegimos un conjunto que contiene elementos de , donde cada elemento se elige al azar según la medida de probabilidad , independientemente de los demás (es decir, con reemplazos). Para cada evento , comparamos las siguientes dos cantidades:

Nos interesa la diferencia, . Esta diferencia satisface el siguiente límite superior:

que es equivalente a: [1] : Th.2 

En palabras: la probabilidad de que para todos los eventos en , la frecuencia relativa esté cerca de la probabilidad, está limitada inferiormente por una expresión que depende de la función de crecimiento de .

Un corolario de esto es que, si la función de crecimiento es polinómica en (es decir, existe alguna tal que ), entonces la probabilidad anterior se acerca a 1 cuando . Es decir, la familia disfruta de convergencia uniforme en probabilidad .

Referencias

  1. ^ abcdefgh Vapnik, VN; Chervonenkis, A. Ya. (1971). "Sobre la convergencia uniforme de frecuencias relativas de eventos con sus probabilidades". Teoría de la probabilidad y sus aplicaciones . 16 (2): 264. doi :10.1137/1116025.Se trata de una traducción al inglés, realizada por B. Seckler, del artículo ruso: "Sobre la convergencia uniforme de las frecuencias relativas de los acontecimientos con sus probabilidades". Dokl. Akad. Nauk . 181 (4): 781. 1968.La traducción fue reproducida como: Vapnik, VN; Chervonenkis, A. Ya. (2015). "Sobre la convergencia uniforme de frecuencias relativas de eventos con sus probabilidades". Medidas de complejidad . p. 11. doi :10.1007/978-3-319-21852-6_3. ISBN 978-3-319-21851-9.
  2. ^ abcd Mohri, Mehryar ; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Fundamentos del aprendizaje automático . EE. UU., Massachusetts: MIT Press. ISBN 9780262018258., especialmente la Sección 3.2
  3. ^ abcd Shalev-Shwartz, Shai; Ben-David, Shai (2014). Comprender el aprendizaje automático: de la teoría a los algoritmos . Cambridge University Press. ISBN 9781107057135.