stringtranslate.com

Incorporación del kernel de distribuciones.

En el aprendizaje automático , la incrustación de distribuciones en el núcleo (también llamada media del núcleo o mapa de medias ) comprende una clase de métodos no paramétricos en los que una distribución de probabilidad se representa como un elemento de un espacio de Hilbert del núcleo en reproducción (RKHS). [1] Una generalización del mapeo de características de puntos de datos individuales realizado en métodos de kernel clásicos , la incorporación de distribuciones en espacios de características de dimensión infinita puede preservar todas las características estadísticas de distribuciones arbitrarias, al tiempo que permite comparar y manipular distribuciones usando Hilbert. Operaciones espaciales como productos internos , distancias, proyecciones , transformaciones lineales y análisis espectral . [2] Este marco de aprendizaje es muy general y se puede aplicar a distribuciones en cualquier espacio en el que se pueda definir una función central sensible (que mida la similitud entre elementos de ). Por ejemplo, se han propuesto varios núcleos para aprender a partir de datos que son: vectores en , clases/categorías discretas, cadenas , gráficos / redes , imágenes, series de tiempo , variedades , sistemas dinámicos y otros objetos estructurados. [3] [4] La teoría detrás de las incorporaciones de distribuciones al kernel ha sido desarrollada principalmente por Alex Smola, Le Song, Arthur Gretton y Bernhard Schölkopf . Puede encontrar una revisión de trabajos recientes sobre la integración del kernel en distribuciones en [5] .

El análisis de distribuciones es fundamental en el aprendizaje automático y la estadística , y muchos algoritmos en estos campos se basan en enfoques teóricos de la información como la entropía , la información mutua o la divergencia Kullback-Leibler . Sin embargo, para estimar estas cantidades, primero se debe realizar una estimación de la densidad o emplear estrategias sofisticadas de partición del espacio/corrección de sesgo que normalmente no son factibles para datos de alta dimensión. [6] Comúnmente, los métodos para modelar distribuciones complejas se basan en suposiciones paramétricas que pueden ser infundadas o desafiantes desde el punto de vista computacional (por ejemplo, modelos de mezcla gaussiana ), mientras que los métodos no paramétricos como la estimación de la densidad del núcleo (Nota: los núcleos de suavizado en este contexto tienen una interpretación diferente a la núcleos discutidos aquí) o la representación de funciones características (a través de la transformada de Fourier de la distribución) se descomponen en entornos de alta dimensión. [2]

Los métodos basados ​​en la integración del núcleo de las distribuciones evitan estos problemas y también poseen las siguientes ventajas: [6]

  1. Los datos pueden modelarse sin suposiciones restrictivas sobre la forma de las distribuciones y las relaciones entre variables.
  2. No es necesaria una estimación de densidad intermedia.
  3. Los profesionales pueden especificar las propiedades de una distribución más relevantes para su problema (incorporando conocimientos previos mediante la elección del núcleo).
  4. Si se utiliza un kernel característico , entonces la incrustación puede preservar de forma única toda la información sobre una distribución, mientras que gracias al truco del kernel , los cálculos en el RKHS potencialmente de dimensión infinita se pueden implementar en la práctica como simples operaciones matriciales de Gram .
  5. Se pueden probar tasas de convergencia independientes de la dimensionalidad para la media del núcleo empírico (estimada utilizando muestras de la distribución) con la incorporación del núcleo de la verdadera distribución subyacente.
  6. Los algoritmos de aprendizaje basados ​​en este marco exhiben una buena capacidad de generalización y convergencia de muestras finitas, aunque a menudo son más simples y efectivos que los métodos teóricos de la información.

Por lo tanto, el aprendizaje a través de la incorporación de distribuciones al kernel ofrece un reemplazo directo de principios para los enfoques teóricos de la información y es un marco que no solo incluye muchos métodos populares en aprendizaje automático y estadística como casos especiales, sino que también puede conducir a algoritmos de aprendizaje completamente nuevos.

Definiciones

Denotemos una variable aleatoria con dominio y distribución . Dado un núcleo simétrico definido positivo , el teorema de Moore-Aronszajn afirma la existencia de un RKHS único en (un espacio de funciones de Hilbert equipado con un producto interno y una norma ) para el cual hay un núcleo reproductor, es decir, en el que el elemento satisface la propiedad de reproducción

Alternativamente, se puede considerar como un mapeo de características implícito (que por lo tanto también se llama espacio de características), de modo que pueda verse como una medida de similitud entre puntos. Si bien la medida de similitud es lineal en el espacio de características, puede ser altamente no lineal en el espacio original dependiendo de la elección del kernel.

Incrustación de kernel

La incrustación del núcleo de la distribución ( también llamada media del núcleo o mapa de medias ) viene dada por: [1]

Si permite una densidad integrable al cuadrado , entonces , ¿dónde está el operador integral de Hilbert-Schmidt ? Un núcleo es característico si la incrustación media es inyectiva. [7] Por lo tanto, cada distribución puede representarse de forma única en el RKHS y todas las características estadísticas de las distribuciones se conservan mediante la incorporación del núcleo si se utiliza un núcleo característico.

Incrustación empírica del kernel

Los ejemplos de entrenamiento dados extraídos de forma independiente y distribuidos de manera idéntica (iid) a partir de la incorporación del núcleo se pueden estimar empíricamente como

Integración de distribución conjunta.

Si denota otra variable aleatoria (para simplificar, supongamos que el codominio de también tiene el mismo núcleo que satisface ), entonces la distribución conjunta se puede mapear en un espacio de características del producto tensor mediante [2]

Por la equivalencia entre un tensor y un mapa lineal , esta incrustación conjunta puede interpretarse como un operador de covarianza cruzada no centrado a partir del cual la covarianza cruzada de funciones se puede calcular como [8]

Dados pares de ejemplos de entrenamiento extraídos de iid , también podemos estimar empíricamente la incrustación del núcleo de distribución conjunta mediante

Incrustación de distribución condicional

Dada una distribución condicional, se puede definir la incrustación RKHS correspondiente como [2]

Tenga en cuenta que la incorporación de define así una familia de puntos en el RKHS indexados por los valores tomados por la variable condicionante . Al fijar un valor particular, obtenemos un solo elemento en y, por lo tanto, es natural definir el operador

que, dado el mapeo de características de las salidas, genera la incrustación condicional de dado Suponiendo que para todos se puede demostrar que [8]

Esta suposición siempre es cierta para dominios finitos con núcleos característicos, pero no necesariamente es válida para dominios continuos. [2] Sin embargo, incluso en los casos en los que la suposición falla, aún se puede utilizar para aproximar la incrustación condicional del núcleo y, en la práctica, el operador de inversión se reemplaza con una versión regularizada de sí mismo (donde denota la matriz de identidad ).

Dados ejemplos de entrenamiento, el operador empírico de incrustación condicional del kernel puede estimarse como [2]

donde se forman implícitamente matrices de características, es la matriz de Gram para muestras de y es un parámetro de regularización necesario para evitar el sobreajuste .

Por lo tanto, la estimación empírica de la incrustación condicional del núcleo viene dada por una suma ponderada de muestras de en el espacio de características:

dónde y

Propiedades

Convergencia de la media del núcleo empírico con la verdadera incorporación de la distribución

donde denota la bola unitaria y es la matriz de Gram con

núcleos universales

Para ser universal basta con que la parte continua de en su descomposición única de Lebesgue sea distinta de cero. Además, si
entonces es la densidad espectral de frecuencias en y es la transformada de Fourier de . Si el soporte de es all of , entonces también es un núcleo característico. [11] [12] [13]
en subconjuntos compactos de es universal.

Selección de parámetros para incrustaciones de kernel de distribución condicional

¿Dónde está la norma de Hilbert-Schmidt ?

Reglas de probabilidad como operaciones en el RKHS

Esta sección ilustra cómo las reglas probabilísticas básicas pueden reformularse como operaciones algebraicas (multi)lineales en el marco de incrustación del núcleo y se basa principalmente en el trabajo de Song et al. [2] [8] Se adopta la siguiente notación:

En la práctica, todas las incorporaciones se estiman empíricamente a partir de datos y se supone que se puede utilizar un conjunto de muestras para estimar la incorporación del núcleo de la distribución anterior .

Regla de la suma del núcleo

En teoría de probabilidad, la distribución marginal de se puede calcular integrando a partir de la densidad conjunta (incluida la distribución anterior en )

El análogo de esta regla en el marco de incrustación del kernel establece que la incrustación RKHS de , se puede calcular mediante

¿Dónde está la incrustación del núcleo? En implementaciones prácticas, la regla de la suma del núcleo toma la siguiente forma.

dónde

es la incorporación empírica del núcleo de la distribución anterior, y son matrices de Gram con entradas respectivamente.

Regla de la cadena del kernel

En teoría de la probabilidad, una distribución conjunta se puede factorizar en un producto entre distribuciones condicionales y marginales.

El análogo de esta regla en el marco de incrustación del kernel establece que la incrustación conjunta de se puede factorizar como una composición del operador de incrustación condicional con el operador de autocovarianza asociado con

dónde

En implementaciones prácticas, la regla de la cadena del núcleo toma la siguiente forma

Regla de Kernel Bayes

En teoría de la probabilidad, una distribución posterior se puede expresar en términos de una distribución previa y una función de probabilidad como

dónde

El análogo de esta regla en el marco de incrustación del núcleo expresa la incrustación del núcleo de la distribución condicional en términos de operadores de incrustación condicionales que son modificados por la distribución anterior.

de donde de la regla de la cadena:

En implementaciones prácticas, la regla de Bayes del núcleo toma la siguiente forma

dónde

En este marco se utilizan dos parámetros de regularización: para la estimación de y para la estimación del operador de incrustación condicional final.

La última regularización se realiza al cuadrado de porque puede no ser positiva definida .

Aplicaciones

Medición de distancia entre distribuciones.

La discrepancia media máxima (MMD) es una medida de distancia entre distribuciones y se define como la distancia entre sus incrustaciones en el RKHS [6]

Si bien la mayoría de las medidas de distancia entre distribuciones, como la ampliamente utilizada divergencia de Kullback-Leibler, requieren una estimación de la densidad (ya sea paramétrica o no paramétrica) o estrategias de corrección de sesgo/partición del espacio, [6] la MMD se estima fácilmente como una media empírica que se concentra alrededor el verdadero valor del MMD. La caracterización de esta distancia como la máxima discrepancia media se refiere a que calcular la MMD equivale a encontrar la función RKHS que maximiza la diferencia de expectativas entre las dos distribuciones de probabilidad.

una forma de métrica de probabilidad integral .

Prueba de dos muestras del kernel

Dados n ejemplos de entrenamiento de ym muestras de , se puede formular una estadística de prueba basada en la estimación empírica de la MMD

para obtener una prueba de dos muestras [15] de la hipótesis nula de que ambas muestras provienen de la misma distribución (es decir, ) frente a la alternativa amplia .

Estimación de densidad mediante incrustaciones de kernel.

Aunque los algoritmos de aprendizaje en el marco de incorporación del núcleo evitan la necesidad de una estimación de densidad intermedia, se puede utilizar la incorporación empírica para realizar una estimación de densidad basada en n muestras extraídas de una distribución subyacente . Esto se puede hacer resolviendo el siguiente problema de optimización [6] [16]

sujeto a

donde la maximización se realiza en todo el espacio de distribuciones. Aquí , está la incrustación del núcleo de la densidad propuesta y es una cantidad similar a la entropía (por ejemplo, entropía , divergencia de KL , divergencia de Bregman ). La distribución que resuelve esta optimización puede interpretarse como un compromiso entre ajustar bien las medias del núcleo empírico de las muestras y, al mismo tiempo, asignar una porción sustancial de la masa de probabilidad a todas las regiones del espacio de probabilidad (muchas de las cuales pueden no estar representadas en el modelo). ejemplos de entrenamiento). En la práctica, se puede encontrar una buena solución aproximada de la difícil optimización restringiendo el espacio de densidades candidatas a una mezcla de M distribuciones candidatas con proporciones de mezcla regularizadas. Se pueden establecer conexiones entre las ideas subyacentes a los procesos gaussianos y los campos aleatorios condicionales con la estimación de distribuciones de probabilidad condicional de esta manera, si se consideran las asignaciones de características asociadas con el núcleo como estadísticas suficientes en familias exponenciales generalizadas (posiblemente de dimensión infinita) . [6]

Medición de la dependencia de variables aleatorias.

Se puede formular una medida de la dependencia estadística entre variables aleatorias y (de cualquier dominio en el que se puedan definir núcleos sensibles) basándose en el Criterio de independencia de Hilbert-Schmidt [17]

y puede usarse como un reemplazo de principios para la información mutua , la correlación de Pearson o cualquier otra medida de dependencia utilizada en los algoritmos de aprendizaje. En particular, HSIC puede detectar dependencias arbitrarias (cuando se utiliza un núcleo característico en las incrustaciones, HSIC es cero si y sólo si las variables son independientes ) y puede usarse para medir la dependencia entre diferentes tipos de datos (por ejemplo, imágenes y leyendas de texto). ). Dadas n muestras iid de cada variable aleatoria, se puede calcular en el tiempo un estimador insesgado simple y sin parámetros de HSIC que muestra concentración alrededor del valor verdadero , [6] donde las matrices de Gram de los dos conjuntos de datos se aproximan usando con . Las propiedades deseables de HSIC han llevado a la formulación de numerosos algoritmos que utilizan esta medida de dependencia para una variedad de tareas comunes de aprendizaje automático, como: selección de características (BAHSIC [18] ), agrupación (CLUHSIC [19] ) y reducción de dimensionalidad ( MÚHSIC [20] ).

HSIC se puede ampliar para medir la dependencia de múltiples variables aleatorias. Recientemente se ha estudiado la cuestión de cuándo HSIC captura la independencia en este caso: [21] para más de dos variables

Propagación de creencias centrales

La propagación de creencias es un algoritmo fundamental para la inferencia en modelos gráficos en los que los nodos pasan y reciben repetidamente mensajes correspondientes a la evaluación de expectativas condicionales. En el marco de incorporación del kernel, los mensajes se pueden representar como funciones RKHS y las incorporaciones de distribución condicional se pueden aplicar para calcular de manera eficiente las actualizaciones de mensajes. Dadas n muestras de variables aleatorias representadas por nodos en un campo aleatorio de Markov , el mensaje entrante al nodo t desde el nodo u se puede expresar como

si se suponía que estaba en el RKHS. El mensaje de actualización de la propagación de creencias del núcleo desde t al nodo s viene dado por [2]

donde denota el producto vectorial por elementos, es el conjunto de nodos conectados a t excluyendo el nodo s , son las matrices de Gram de las muestras de las variables , respectivamente, y es la matriz de características para las muestras de .

Por lo tanto, si los mensajes entrantes al nodo t son combinaciones lineales de muestras de características mapeadas de , entonces el mensaje saliente de este nodo también es una combinación lineal de muestras de características mapeadas de . Por lo tanto, esta representación de función RKHS de actualizaciones de paso de mensajes produce un algoritmo eficiente de propagación de creencias en el que los potenciales son funciones no paramétricas inferidas de los datos para que se puedan modelar relaciones estadísticas arbitrarias. [2]

Filtrado no paramétrico en modelos ocultos de Markov.

En el modelo oculto de Markov (HMM), dos cantidades clave de interés son las probabilidades de transición entre estados ocultos y las probabilidades de emisión para las observaciones. Utilizando el marco de incorporación de distribución condicional del kernel, estas cantidades se pueden expresar en términos de muestras del HMM. Una limitación importante de los métodos de incrustación en este dominio es la necesidad de entrenar muestras que contengan estados ocultos, ya que de lo contrario no es posible inferir con distribuciones arbitrarias en el HMM.

Un uso común de los HMM es el filtrado , cuyo objetivo es estimar la distribución posterior sobre el estado oculto en el paso de tiempo t, dado un historial de observaciones previas del sistema. En el filtrado, un estado de creencia se mantiene recursivamente mediante un paso de predicción (donde las actualizaciones se calculan marginando el estado oculto anterior) seguido de un paso de condicionamiento (donde las actualizaciones se calculan aplicando la regla de Bayes para condicionar una nueva observación). [2] La incorporación RKHS del estado de creencia en el momento t+1 se puede expresar de forma recursiva como

calculando las incorporaciones del paso de predicción mediante la regla de la suma del núcleo y la incorporación del paso de condicionamiento mediante la regla de Bayes del núcleo. Suponiendo que se proporciona una muestra de entrenamiento , en la práctica se puede estimar

y el filtrado con incrustaciones del kernel se implementa de forma recursiva utilizando las siguientes actualizaciones para los pesos [2]

donde denotan las matrices de Gram de y respectivamente, es una matriz de Gram de transferencia definida como y

Máquinas de medida de soporte

La máquina de medidas de soporte (SMM) es una generalización de la máquina de vectores de soporte (SVM) en la que los ejemplos de entrenamiento son distribuciones de probabilidad combinadas con etiquetas . [22] Los SMM resuelven el problema de optimización dual SVM estándar utilizando el siguiente kernel esperado

que es computable en forma cerrada para muchas distribuciones específicas comunes (como la distribución gaussiana) combinada con núcleos de incrustación populares (por ejemplo, el núcleo gaussiano o el núcleo polinomial), o puede estimarse empíricamente con precisión a partir de muestras iid mediante

Bajo ciertas opciones del kernel incorporado , el SMM aplicado a ejemplos de entrenamiento es equivalente a un SVM entrenado en muestras y, por lo tanto, el SMM puede verse como un SVM flexible en el que un kernel diferente dependiente de datos (especificado por la forma asumida del distribución ) se pueden colocar en cada punto de entrenamiento. [22]

Adaptación del dominio bajo cambio de covariable, objetivo y condicional

El objetivo de la adaptación del dominio es la formulación de algoritmos de aprendizaje que se generalicen bien cuando los datos de entrenamiento y de prueba tienen distribuciones diferentes. Dados ejemplos de entrenamiento y un conjunto de pruebas donde se desconocen, comúnmente se asumen tres tipos de diferencias entre la distribución de los ejemplos de entrenamiento y la distribución de la prueba : [23] [24]

  1. Cambio de covariables en el que la distribución marginal de las covariables cambia entre dominios:
  2. Cambio de objetivo en el que la distribución marginal de los productos cambia entre dominios:
  3. El desplazamiento condicional sigue siendo el mismo en todos los dominios, pero las distribuciones condicionales difieren: . En general, la presencia de un cambio condicional conduce a un problema mal planteado , y comúnmente se impone el supuesto adicional de que los cambios sólo cambian bajo transformaciones de ubicación - escala (LS) para hacer que el problema sea manejable.

Al utilizar la incorporación del núcleo de distribuciones marginales y condicionales, se pueden formular enfoques prácticos para abordar la presencia de este tipo de diferencias entre los dominios de entrenamiento y prueba. El cambio de covariables puede explicarse reponderando ejemplos mediante estimaciones de la proporción obtenida directamente de las incorporaciones del núcleo de las distribuciones marginales de en cada dominio sin necesidad de una estimación explícita de las distribuciones. [24] El cambio de objetivo, que no se puede abordar de manera similar ya que no hay muestras disponibles en el dominio de prueba, se explica ponderando los ejemplos de entrenamiento utilizando el vector que resuelve el siguiente problema de optimización (donde en la práctica se deben usar aproximaciones empíricas) [23]

sujeto a

Para lidiar con el cambio condicional de escala de ubicación, se puede realizar una transformación LS de los puntos de entrenamiento para obtener nuevos datos de entrenamiento transformados (donde denota el producto vectorial por elementos). Para garantizar distribuciones similares entre las nuevas muestras de entrenamiento transformadas y los datos de prueba, se estiman minimizando la siguiente distancia empírica de incrustación del núcleo [23]

En general, los métodos de incorporación del núcleo para tratar con el cambio condicional de LS y el cambio de objetivo se pueden combinar para encontrar una transformación reponderada de los datos de entrenamiento que imite la distribución de la prueba, y estos métodos pueden funcionar bien incluso en presencia de cambios condicionales distintos de la ubicación. -cambios de escala. [23]

Generalización de dominio mediante representación de características invariantes

Dados N conjuntos de ejemplos de entrenamiento muestreados iid de distribuciones , el objetivo de la generalización del dominio es formular algoritmos de aprendizaje que funcionen bien en ejemplos de prueba muestreados de un dominio nunca antes visto donde no hay datos del dominio de prueba disponibles en el momento del entrenamiento. Si se supone que las distribuciones condicionales son relativamente similares en todos los dominios, entonces un alumno capaz de generalizar el dominio debe estimar una relación funcional entre las variables que sea robusta a los cambios en los marginales . Basado en las incorporaciones del núcleo de estas distribuciones, el Análisis de componentes invariantes de dominio (DICA) es un método que determina la transformación de los datos de entrenamiento que minimiza la diferencia entre distribuciones marginales y al mismo tiempo preserva una distribución condicional común compartida entre todos los dominios de entrenamiento. [25] Por lo tanto, DICA extrae invariantes , características que se transfieren entre dominios, y puede verse como una generalización de muchos métodos populares de reducción de dimensiones, como el análisis de componentes principales del núcleo , el análisis de componentes de transferencia y la regresión inversa del operador de covarianza. [25]

Definición de una distribución de probabilidad en el RKHS con

DICA mide la disimilitud entre dominios mediante la varianza distributiva que se calcula como

dónde

también lo es una matriz de Gram sobre las distribuciones a partir de las cuales se muestrean los datos de entrenamiento. Al encontrar una transformación ortogonal en un subespacio B de baja dimensión (en el espacio de características) que minimiza la varianza distributiva, DICA garantiza simultáneamente que B se alinee con las bases de un subespacio central C para el cual se vuelve independiente de lo dado en todos los dominios. En ausencia de valores objetivo , se puede formular una versión no supervisada de DICA que encuentre un subespacio de baja dimensión que minimice la variación distributiva y al mismo tiempo maximice la variación de (en el espacio de características) en todos los dominios (en lugar de preservar un subespacio central). [25]

Regresión de distribución

En la regresión de distribución, el objetivo es regresar de distribuciones de probabilidad a reales (o vectores). Muchas tareas estadísticas y de aprendizaje automático importantes encajan en este marco, incluido el aprendizaje de instancias múltiples y problemas de estimación puntual sin solución analítica (como la estimación de hiperparámetros o de entropía ). En la práctica, sólo son observables muestras de distribuciones muestreadas y las estimaciones deben basarse en similitudes calculadas entre conjuntos de puntos . La regresión de distribución se ha aplicado con éxito, por ejemplo, en el aprendizaje supervisado de entropía y en la predicción de aerosoles mediante imágenes de satélite multiespectrales. [26]

Dados los datos de entrenamiento, donde la bolsa contiene muestras de una distribución de probabilidad y la etiqueta de salida es , se puede abordar la tarea de regresión de distribución tomando las incorporaciones de las distribuciones y aprendiendo el regresor de las incorporaciones a las salidas. En otras palabras, se puede considerar el siguiente problema de regresión de la cresta del núcleo

dónde

con un núcleo en el dominio de -s , es un núcleo en las distribuciones integradas y es el RKHS determinado por . Los ejemplos incluyen el núcleo lineal , el núcleo gaussiano , el núcleo exponencial , el núcleo de Cauchy , el núcleo t-student generalizado o el núcleo multicuadrático inverso .

La predicción de una nueva distribución toma la forma analítica simple.

dónde , , , . En condiciones de regularidad leve, se puede demostrar que este estimador es consistente y puede alcanzar la tasa óptima minimax muestreada en una etapa (como si uno tuviera acceso a la verdadera -s) . [26] En la función objetivo -s son números reales; los resultados también se pueden extender al caso en que -s son vectores -dimensionales o, más generalmente, elementos de un espacio de Hilbert separable que utiliza núcleos valorados por operadores .

Ejemplo

En este ejemplo simple, tomado de Song et al., [2] se supone que son variables aleatorias discretas que toman valores en el conjunto y el núcleo se elige como la función delta de Kronecker , por lo que . El mapa de características correspondiente a este núcleo es el vector base estándar . Las incorporaciones centrales de tales distribuciones son, por tanto, vectores de probabilidades marginales, mientras que las incorporaciones de distribuciones conjuntas en este entorno son matrices que especifican tablas de probabilidad conjunta, y la forma explícita de estas incorporaciones es

Cuando , para todos , el operador de incorporación de distribución condicional,

es en este escenario una tabla de probabilidad condicional

y

Por lo tanto, las incorporaciones de la distribución condicional bajo un valor fijo de pueden calcularse como

En esta configuración de valores discretos con el kernel delta de Kronecker, la regla de la suma del kernel se convierte en

La regla de la cadena del núcleo en este caso viene dada por

Referencias

  1. ^ ab A. Smola, A. Gretton, L. Song, B. Schölkopf. (2007). Una incrustación de Hilbert Space para distribuciones Archivado el 15 de diciembre de 2013 en Wayback Machine . Teoría del aprendizaje algorítmico: XVIII Congreso Internacional . Saltador: 13–31.
  2. ^ abcdefghijklmn L. Song, K. Fukumizu, F. Dinuzzo, A. Gretton (2013). Incorporaciones de kernel de distribuciones condicionales: un marco de kernel unificado para inferencia no paramétrica en modelos gráficos. Revista de procesamiento de señales IEEE 30 : 98–111.
  3. ^ J. Shawe-Taylor, N. Christianini. (2004). Métodos del kernel para análisis de patrones . Cambridge University Press, Cambridge, Reino Unido.
  4. ^ T. Hofmann, B. Schölkopf, A. Smola. (2008). Métodos kernel en aprendizaje automático. Los Anales de Estadística 36 (3): 1171-1220.
  5. ^ Muandet, Krikamol; Fukumizu, Kenji; Sriperumbudur, Bharat; Schölkopf, Bernhard (28 de junio de 2017). "Incrustación media del kernel de distribuciones: una revisión y más allá". Fundamentos y tendencias en aprendizaje automático . 10 (1–2): 1–141. arXiv : 1605.09522 . doi :10.1561/2200000060. ISSN  1935-8237.
  6. ^ abcdefghi L. Canción. (2008) Aprendizaje mediante la incrustación de distribuciones en el espacio de Hilbert. Tesis doctoral, Universidad de Sydney.
  7. ^ K. Fukumizu, A. Gretton, X. Sun y B. Schölkopf (2008). Medidas centrales de independencia condicional. Avances en sistemas de procesamiento de información neuronal 20 , MIT Press, Cambridge, MA.
  8. ^ abc L. Song, J. Huang, AJ Smola, K. Fukumizu. (2009). Incorporaciones espaciales de Hilbert de distribuciones condicionales. Proc. En t. Conf. Aprendizaje automático . Montreal, Canadá: 961–968.
  9. ^ * Steinwart, Ingo; Christmann, Andreas (2008). Máquinas de vectores de soporte . Nueva York: Springer. ISBN 978-0-387-77241-7.
  10. ^ Sriperumbudur, BK; Fukumizu, K.; Lanckriet, GRG (2011). "Universalidad, núcleos característicos e incorporación de medidas RKHS". Revista de investigación sobre aprendizaje automático . 12 (70).
  11. ^ Liang, Percy (2016), CS229T/STAT231: Teoría del aprendizaje estadístico (PDF) , notas de conferencias de Stanford
  12. ^ Sriperumbudur, BK; Fukumizu, K.; Lanckriet, GRG (2010). Sobre la relación entre universalidad, núcleos característicos y la integración de medidas en RKHS. Actas de la Decimotercera Conferencia Internacional sobre Inteligencia Artificial y Estadística. Italia.
  13. ^ Micchelli, California; Xu, Y.; Zhang, H. (2006). "Núcleos universales". Revista de investigación sobre aprendizaje automático . 7 (95): 2651–2667.
  14. ^ S. Grunewalder, G. Lever, L. Baldassarre, S. Patterson, A. Gretton, M. Pontil. (2012). Incrustaciones de medias condicionales como regresores. Proc. En t. Conf. Aprendizaje automático : 1823-1830.
  15. ^ A. Gretton, K. Borgwardt, M. Rasch, B. Schölkopf, A. Smola. (2012). Una prueba de dos muestras del núcleo. Revista de investigación sobre aprendizaje automático , 13 : 723–773.
  16. ^ M. Dudík, SJ Phillips, RE Schapire. (2007). Estimación de la distribución máxima de entropía con regularización generalizada y una aplicación al modelado de distribución de especies. Revista de investigación sobre aprendizaje automático , 8 : 1217–1260.
  17. ^ A. Gretton, O. Bousquet, A. Smola, B. Schölkopf. (2005). Medición de la dependencia estadística con normas de Hilbert-Schmidt. Proc. Internacional Conf. sobre la teoría del aprendizaje algorítmico : 63–78.
  18. ^ L. Song, A. Smola, A. Gretton, K. Borgwardt, J. Bedo. (2007). Selección de características supervisada mediante estimación de dependencia. Proc. Internacional Conf. Aprendizaje automático , Omnipress: 823–830.
  19. ^ L. Song, A. Smola, A. Gretton, K. Borgwardt. (2007). Una visión de maximización de la dependencia de la agrupación. Proc. Internacional Conf. Aprendizaje automático . Omnipress: 815–822.
  20. ^ L. Song, A. Smola, K. Borgwardt, A. Gretton. (2007). Despliegue de variación máxima de color. Sistemas de procesamiento de información neuronal .
  21. ^ Zoltán Szabó, Bharath K. Sriperumbudur. Núcleos de productos tensoriales característicos y universales. Revista de investigación sobre aprendizaje automático , 19:1–29, 2018.
  22. ^ ab K. Muandet, K. Fukumizu, F. Dinuzzo, B. Schölkopf. (2012). Aprendiendo de las distribuciones a través de máquinas de medición de soporte. Avances en los sistemas de procesamiento de información neuronal : 10–18.
  23. ^ abcd K. Zhang, B. Schölkopf, K. Muandet, Z. Wang. (2013). Adaptación del dominio bajo cambio objetivo y condicional. Revista de investigación sobre aprendizaje automático, 28 (3): 819–827.
  24. ^ ab A. Gretton, A. Smola, J. Huang, M. Schmittfull, K. Borgwardt, B. Schölkopf. (2008). Cambio de covariables y aprendizaje local mediante emparejamiento de distribución. En J. Quinonero-Candela, M. Sugiyama, A. Schwaighofer, N. Lawrence (eds.). Cambio de conjunto de datos en el aprendizaje automático , MIT Press, Cambridge, MA: 131–160.
  25. ^ abc K. Muandet, D. Balduzzi, B. Schölkopf. (2013). Generalización de dominio mediante representación de características invariantes. 30ª Conferencia Internacional sobre Aprendizaje Automático .
  26. ^ ab Z. Szabó, B. Sriperumbudur, B. Póczos, A. Gretton. Teoría del aprendizaje para la regresión distributiva. Revista de investigación sobre aprendizaje automático , 17(152):1–40, 2016.

enlaces externos