Aprendizaje federado

El aprendizaje federado (también conocido como aprendizaje colaborativo ) es un subcampo del aprendizaje automático que se centra en entornos en los que múltiples entidades (a menudo denominadas clientes) entrenan de forma colaborativa un modelo mientras garantizan que sus datos permanezcan descentralizados. ^[1] Esto contrasta con las configuraciones de aprendizaje automático en las que los datos se almacenan de forma centralizada. Una de las principales características definitorias del aprendizaje federado es la heterogeneidad de los datos. Debido a la naturaleza descentralizada de los datos de los clientes, no hay garantía de que las muestras de datos en poder de cada cliente se distribuyan de forma independiente e idéntica .

El aprendizaje federado generalmente se preocupa y está motivado por cuestiones como la privacidad de los datos , la minimización de los datos y los derechos de acceso a los datos. Sus aplicaciones involucran una variedad de áreas de investigación que incluyen defensa, telecomunicaciones, Internet de las cosas y productos farmacéuticos.

Definición

El aprendizaje federado tiene como objetivo entrenar un algoritmo de aprendizaje automático, por ejemplo, redes neuronales profundas , en múltiples conjuntos de datos locales contenidos en nodos locales sin intercambiar explícitamente muestras de datos. El principio general consiste en entrenar modelos locales a partir de muestras de datos locales e intercambiar parámetros (por ejemplo, los pesos y sesgos de una red neuronal profunda) entre estos nodos locales con cierta frecuencia para generar un modelo global compartido por todos los nodos.

La principal diferencia entre el aprendizaje federado y el aprendizaje distribuido radica en los supuestos que se hacen sobre las propiedades de los conjuntos de datos locales, ^[2] ya que el aprendizaje distribuido originalmente apunta a paralelizar la potencia informática , mientras que el aprendizaje federado originalmente apunta al entrenamiento en conjuntos de datos heterogéneos . Si bien el aprendizaje distribuido también tiene como objetivo entrenar un modelo único en múltiples servidores, una suposición subyacente común es que los conjuntos de datos locales son independientes y están distribuidos de manera idéntica (iid) y tienen aproximadamente el mismo tamaño. Ninguna de estas hipótesis está formulada para el aprendizaje federado; en cambio, los conjuntos de datos suelen ser heterogéneos y sus tamaños pueden abarcar varios órdenes de magnitud. Además, los clientes involucrados en el aprendizaje federado pueden no ser confiables, ya que están sujetos a más fallas o abandonos, ya que comúnmente dependen de medios de comunicación menos potentes (es decir, Wi-Fi ) y sistemas alimentados por baterías (es decir, teléfonos inteligentes y dispositivos IoT) en comparación con Aprendizaje distribuido donde los nodos suelen ser centros de datos que tienen poderosas capacidades computacionales y están conectados entre sí con redes rápidas. ^[3]

formulación matemática

La función objetivo del aprendizaje federado es la siguiente:

$f(\mathbf {x} _{1},\dots ,\mathbf {x} _{K})={\dfrac {1}{K}}\sum _{i=1}^{K }f_ {i} (\ mathbf {x} _ {i})$

donde es el número de nodos, son los pesos del modelo vistos por el nodo y es la función objetivo local del nodo, que describe cómo los pesos del modelo se ajustan al conjunto de datos local del nodo. $K$ $\mathbf {x} _ {i}$ $i$ ${\ Displaystyle f_ {i}}$ $i$ $\mathbf {x} _ {i}$ $i$

El objetivo del aprendizaje federado es entrenar un modelo común en todos los conjuntos de datos locales de los nodos, en otras palabras:

Optimización de la función objetivo . $f(\mathbf {x} _{1},\dots,\mathbf {x} _{K})$
Lograr consenso sobre . En otras palabras, converger hacia algo común al final del proceso de formación. $\mathbf {x} _ {i}$ $\mathbf {x} _{1},\dots,\mathbf {x} _{K}$ $\mathbf {x}$

Aprendizaje federado centralizado

En el entorno de aprendizaje federado centralizado, se utiliza un servidor central para orquestar los diferentes pasos de los algoritmos y coordinar todos los nodos participantes durante el proceso de aprendizaje. El servidor es responsable de la selección de nodos al comienzo del proceso de entrenamiento y de la agregación de las actualizaciones del modelo recibidas. Dado que todos los nodos seleccionados tienen que enviar actualizaciones a una única entidad, el servidor puede convertirse en un cuello de botella del sistema. ^[3]

Aprendizaje federado descentralizado

En el entorno de aprendizaje federado descentralizado, los nodos pueden coordinarse para obtener el modelo global. Esta configuración evita fallas de un solo punto, ya que las actualizaciones del modelo se intercambian solo entre nodos interconectados sin la orquestación del servidor central. Sin embargo, la topología de red específica puede afectar el desempeño del proceso de aprendizaje. ^[3] Consulte el aprendizaje federado basado en blockchain ^[4] y las referencias allí contenidas.

Aprendizaje federado heterogéneo

Un número cada vez mayor de dominios de aplicaciones implican un gran conjunto de clientes heterogéneos, por ejemplo, teléfonos móviles y dispositivos IoT. ^[5] La mayoría de las estrategias de aprendizaje federado existentes asumen que los modelos locales comparten la misma arquitectura del modelo global. Recientemente, se desarrolló un nuevo marco de aprendizaje federado llamado HeteroFL para abordar clientes heterogéneos equipados con capacidades de computación y comunicación muy diferentes. ^[6] La técnica HeteroFL puede permitir el entrenamiento de modelos locales heterogéneos con cálculos que varían dinámicamente y complejidades de datos no IID y, al mismo tiempo, producir un único modelo de inferencia global preciso. ^[6]^[7]

Principales características

Aprendizaje iterativo

Para garantizar un buen desempeño de las tareas de un modelo de aprendizaje automático central y final, el aprendizaje federado se basa en un proceso iterativo dividido en un conjunto atómico de interacciones cliente-servidor conocido como ronda de aprendizaje federado. Cada ronda de este proceso consiste en transmitir el estado actual del modelo global a los nodos participantes, entrenar modelos locales en estos nodos locales para producir un conjunto de actualizaciones potenciales del modelo en cada nodo y luego agregar y procesar estas actualizaciones locales en una única actualización global y aplicándolo al modelo global. ^[3]

En la metodología siguiente, se utiliza un servidor central para la agregación, mientras que los nodos locales realizan entrenamiento local dependiendo de las órdenes del servidor central. Sin embargo, otras estrategias conducen a los mismos resultados sin servidores centrales, en un enfoque peer-to-peer , utilizando metodologías de chismes ^[8] o de consenso . ^[9]

Suponiendo una ronda federada compuesta por una iteración del proceso de aprendizaje, el procedimiento de aprendizaje se puede resumir de la siguiente manera: ^[10]

Inicialización : de acuerdo con las entradas del servidor, se elige un modelo de aprendizaje automático (p. ej., regresión lineal , red neuronal, impulso ) para entrenarlo en nodos locales e inicializarlo. Luego, los nodos se activan y esperan a que el servidor central asigne las tareas de cálculo.
Selección de cliente : se selecciona una fracción de los nodos locales para comenzar a entrenar con datos locales. Los nodos seleccionados adquieren el modelo estadístico actual mientras los demás esperan la siguiente ronda federada.
Configuración : el servidor central ordena a los nodos seleccionados que se sometan al entrenamiento del modelo con sus datos locales de una manera preespecificada (por ejemplo, para algunas actualizaciones de mini lotes de descenso de gradiente ).
Informes : cada nodo seleccionado envía su modelo local al servidor para su agregación. El servidor central agrega los modelos recibidos y devuelve las actualizaciones del modelo a los nodos. También maneja fallas por nodos desconectados o actualizaciones de modelo perdidas. Se inicia la siguiente ronda federada volviendo a la fase de selección de clientes.
Terminación : una vez que se cumple un criterio de terminación predefinido (por ejemplo, se alcanza un número máximo de iteraciones o la precisión del modelo es mayor que un umbral), el servidor central agrega las actualizaciones y finaliza el modelo global.

El procedimiento considerado anteriormente supone actualizaciones sincronizadas del modelo. Los recientes desarrollos del aprendizaje federado introdujeron técnicas novedosas para abordar la asincronicidad durante el proceso de capacitación, o capacitación con modelos que varían dinámicamente. ^[6] En comparación con los enfoques sincrónicos donde los modelos locales se intercambian una vez que se han realizado los cálculos para todas las capas de la red neuronal, los asincrónicos aprovechan las propiedades de las redes neuronales para intercambiar actualizaciones del modelo tan pronto como los cálculos de una determinada capa estén disponibles. Estas técnicas también se conocen comúnmente como aprendizaje dividido ^[11]^[12] y se pueden aplicar tanto en el momento del entrenamiento como en el de inferencia, independientemente de las configuraciones de aprendizaje federado centralizado o descentralizado. ^[3]^[6]

No IIDdatos

En la mayoría de los casos, el supuesto de muestras independientes e idénticamente distribuidas entre nodos locales no se cumple para las configuraciones de aprendizaje federado. Bajo esta configuración, el rendimiento del proceso de entrenamiento puede variar significativamente según las muestras de datos locales desequilibradas, así como la distribución de probabilidad particular de los ejemplos de entrenamiento (es decir, características y etiquetas ) almacenados en los nodos locales. Para investigar más a fondo los efectos de los datos no IID, la siguiente descripción considera las principales categorías presentadas en la preimpresión de Peter Kairouz et al. desde 2019. ^[3]

La descripción de datos no IID se basa en el análisis de la probabilidad conjunta entre características y etiquetas para cada nodo. Esto permite desacoplar cada contribución según la distribución específica disponible en los nodos locales. Las principales categorías de datos no relacionados con iid se pueden resumir de la siguiente manera: ^[3]

Cambio de covariable : los nodos locales pueden almacenar ejemplos que tienen distribuciones estadísticas diferentes en comparación con otros nodos. Un ejemplo ocurre en conjuntos de datos de procesamiento de lenguaje natural donde las personas normalmente escriben los mismos dígitos/letras con diferentes anchos de trazo o inclinaciones. ^[3]
Cambio de probabilidad previo : los nodos locales pueden almacenar etiquetas que tienen distribuciones estadísticas diferentes en comparación con otros nodos. Esto puede suceder si los conjuntos de datos están divididos regional y/o demográficamente. Por ejemplo, los conjuntos de datos que contienen imágenes de animales varían significativamente de un país a otro. ^[3]
Deriva del concepto ( misma etiqueta, diferentes características ): los nodos locales pueden compartir las mismas etiquetas pero algunas de ellas corresponden a diferentes características en diferentes nodos locales. Por ejemplo, las imágenes que representan un objeto en particular pueden variar según las condiciones climáticas en las que fueron capturadas. ^[3]
Cambio de concepto ( mismas características, diferentes etiquetas ): los nodos locales pueden compartir las mismas características pero algunas de ellas corresponden a diferentes etiquetas en diferentes nodos locales. Por ejemplo, en el procesamiento del lenguaje natural, el análisis de sentimientos puede generar sentimientos diferentes incluso si se observa el mismo texto. ^[3]
Desequilibrado : la cantidad de datos disponibles en los nodos locales puede variar significativamente en tamaño. ^[3]^[6]

La pérdida de precisión debido a datos que no son iid se puede limitar mediante el uso de medios más sofisticados para realizar la normalización de datos, en lugar de la normalización por lotes. ^[13]

Hiperparámetros algorítmicos

Topología de la red

La forma en que se agrupan los resultados estadísticos locales y la forma en que los nodos se comunican entre sí pueden cambiar con respecto al modelo centralizado explicado en la sección anterior. Esto conduce a una variedad de enfoques de aprendizaje federado: por ejemplo, sin servidor de orquestación central o comunicación estocástica. ^[14]

En particular, las redes distribuidas sin orquestadores son una variación importante. En este caso, no hay un servidor central que envíe consultas a los nodos locales y agregue modelos locales. Cada nodo local envía sus resultados a varios otros seleccionados al azar, que agregan sus resultados localmente. Esto restringe el número de transacciones, lo que a veces reduce el tiempo de capacitación y el costo de computación. ^[15]

Parámetros de aprendizaje federado

Una vez elegida la topología de la red de nodos, se pueden controlar diferentes parámetros del proceso de aprendizaje federado (además de los hiperparámetros propios del modelo de aprendizaje automático) para optimizar el aprendizaje:

Número de rondas de aprendizaje federadas: $T$
Número total de nodos utilizados en el proceso: $K$
Fracción de nodos utilizados en cada iteración para cada nodo: $C$
Tamaño de lote local utilizado en cada iteración de aprendizaje: $B$

También se pueden modificar otros parámetros dependientes del modelo, como:

Número de iteraciones para el entrenamiento local antes de agrupar: $N$
Tasa de aprendizaje local: $\eta$

Esos parámetros deben optimizarse según las limitaciones de la aplicación de aprendizaje automático (por ejemplo, potencia informática disponible, memoria disponible, ancho de banda ). Por ejemplo, elegir estocásticamente una fracción limitada de nodos para cada iteración disminuye el costo de computación y puede evitar el sobreajuste ^[^{cita necesaria}^] , de la misma manera que el descenso de gradiente estocástico puede reducir el sobreajuste. $C$

Limitaciones técnicas

El aprendizaje federado requiere comunicación frecuente entre nodos durante el proceso de aprendizaje. Por lo tanto, no sólo requiere suficiente potencia informática y memoria local, sino también conexiones de gran ancho de banda para poder intercambiar parámetros del modelo de aprendizaje automático. Sin embargo, la tecnología también evita la comunicación de datos, lo que puede requerir importantes recursos antes de iniciar el aprendizaje automático centralizado. Sin embargo, los dispositivos típicamente empleados en el aprendizaje federado tienen restricciones de comunicación; por ejemplo, los dispositivos IoT o los teléfonos inteligentes generalmente están conectados a redes Wi-Fi, por lo que, incluso si los modelos suelen ser menos costosos de transmitir en comparación con los datos sin procesar, los mecanismos de aprendizaje federado Puede que no sean adecuados en su forma general. ^[3]

El aprendizaje federado plantea varios desafíos estadísticos:

Heterogeneidad entre los diferentes conjuntos de datos locales: cada nodo puede tener algún sesgo con respecto a la población general, y el tamaño de los conjuntos de datos puede variar significativamente; ^[6]
Heterogeneidad temporal: la distribución de cada conjunto de datos local puede variar con el tiempo;
La interoperabilidad del conjunto de datos de cada nodo es un requisito previo;
El conjunto de datos de cada nodo puede requerir curaciones periódicas;
Ocultar datos de entrenamiento podría permitir a los atacantes inyectar puertas traseras en el modelo global; ^[dieciséis]
La falta de acceso a datos globales sobre capacitación hace que sea más difícil identificar sesgos no deseados en la capacitación, por ejemplo, edad, género, orientación sexual;
Pérdida parcial o total de actualizaciones del modelo debido a fallas de nodos que afectan el modelo global; ^[3]
Falta de anotaciones o etiquetas por parte del cliente. ^[17]
Heterogeneidad entre plataformas de procesamiento ^[18]

Variaciones de aprendizaje federado

Se han propuesto varios algoritmos diferentes para la optimización federada.

Descenso de gradiente estocástico federado (FedSGD)

El entrenamiento de aprendizaje profundo se basa principalmente en variantes del descenso de gradiente estocástico , donde los gradientes se calculan en un subconjunto aleatorio del conjunto de datos total y luego se utilizan para realizar un paso del descenso de gradiente.

El descenso de gradiente estocástico federado ^[19] es la transposición directa de este algoritmo a la configuración federada, pero utilizando una fracción aleatoria de los nodos y utilizando todos los datos de este nodo. El servidor promedia los gradientes proporcionalmente al número de muestras de entrenamiento en cada nodo y se utilizan para realizar un paso de descenso de gradiente. $C$

Promedio federado

El promedio federado (FedAvg) es una generalización de FedSGD, que permite a los nodos locales realizar más de una actualización por lotes de datos locales e intercambia los pesos actualizados en lugar de los gradientes. La razón detrás de esta generalización es que en FedSGD, si todos los nodos locales comienzan desde la misma inicialización, promediar los gradientes es estrictamente equivalente a promediar los pesos mismos. Además, promediar los pesos sintonizados provenientes de la misma inicialización no necesariamente perjudica el rendimiento del modelo promediado resultante. ^[20] Se han propuesto variaciones de FedAvg basadas en optimizadores adaptativos como ADAM y AdaGrad , que en general superan a FedAvg. ^[21]

Aprendizaje federado con regularización dinámica (FedDyn)

Los métodos de aprendizaje federados se ven afectados cuando los conjuntos de datos de los dispositivos están distribuidos de forma heterogénea. El dilema fundamental en la configuración de dispositivos distribuidos heterogéneamente es que minimizar las funciones de pérdida del dispositivo no es lo mismo que minimizar el objetivo de pérdida global. En 2021, Acar et al. ^[22] introdujeron el método FedDyn como una solución para la configuración de conjuntos de datos heterogéneos. FedDyn regulariza dinámicamente la función de pérdida de cada dispositivo para que las pérdidas del dispositivo modificado converjan a la pérdida global real. Dado que las pérdidas locales están alineadas, FedDyn es robusto a los diferentes niveles de heterogeneidad y puede realizar de forma segura una minimización total en cada dispositivo. En teoría, FedDyn converge al óptimo (un punto estacionario para pérdidas no convexas) al ser independiente de los niveles de heterogeneidad. Estas afirmaciones se verifican con extensas experimentaciones en varios conjuntos de datos. ^[22]

Minimizar el número de comunicaciones es el estándar de oro para la comparación en el aprendizaje federado. Es posible que también queramos disminuir los niveles de cálculo local por dispositivo en cada ronda. FedDynOneGD ^[22] es una extensión de FedDyn con menos requisitos informáticos locales. FedDynOneGD calcula solo un gradiente por dispositivo en cada ronda y actualiza el modelo con una versión regularizada del gradiente. Por lo tanto, la complejidad del cálculo es lineal en el tamaño del conjunto de datos local. Además, el cálculo del gradiente se puede paralelizar dentro de cada dispositivo, lo que es diferente de los pasos sucesivos de SGD. En teoría, FedDynOneGD logra las mismas garantías de convergencia que FedDyn con menos cálculo local. ^[22]

Aprendizaje federado personalizado mediante poda (Sub-FedAvg)

Los métodos de aprendizaje federado no pueden lograr un buen rendimiento global en entornos que no sean IID, lo que motiva a los clientes participantes a generar modelos personalizados en federación. Recientemente, Vahidian et al. ^[23] introdujeron Sub-FedAvg abriendo un nuevo paradigma de algoritmo FL personalizado al proponer poda híbrida (poda estructurada + no estructurada) con promedio en la intersección de las subredes dibujadas de los clientes que maneja simultáneamente la eficiencia de la comunicación, las limitaciones de recursos y la precisión de los modelos personalizados. ^[23]

Sub-FedAvg es el primer trabajo que muestra la existencia de boletos ganadores personalizados para clientes en aprendizaje federado a través de experimentos. ^[23] Además, también propone dos algoritmos sobre cómo dibujar eficazmente las subredes personalizadas. ^[23] Sub-FedAvg intenta extender la "hipótesis del billete de lotería", que es para redes neuronales entrenadas centralmente, a redes neuronales entrenadas con aprendizaje federado, lo que lleva a este problema de investigación abierto: "¿Existen boletos ganadores para las redes neuronales de los clientes que se entrenan en aprendizaje federado?" ? En caso afirmativo, ¿cómo dibujar eficazmente las subredes personalizadas para cada cliente?

Agregación dinámica: agregación de distancia inversa

IDA (Agregación de distancia inversa) es un novedoso enfoque de ponderación adaptativa para clientes basado en metainformación que maneja datos desequilibrados y no iid. Utiliza la distancia de los parámetros del modelo como estrategia para minimizar el efecto de los valores atípicos y mejorar la tasa de convergencia del modelo. ^[24]

Ascenso Híbrido Federado de Doble Coordenada (HyFDCA)

Existen muy pocos métodos para el aprendizaje federado híbrido, donde los clientes solo tienen subconjuntos de características y muestras. Sin embargo, este escenario es muy importante en entornos prácticos. El ascenso híbrido federado de coordenadas duales (HyFDCA) ^[25] es un algoritmo novedoso propuesto en 2024 que resuelve problemas convexos en el entorno híbrido FL. Este algoritmo extiende CoCoA, un algoritmo de optimización distribuido dual primario introducido por Jaggi et al. (2014) ^[26] y Smith et al. (2017), ^[27] al caso en el que tanto las muestras como las características se dividen entre clientes.

HyFDCA afirma varias mejoras con respecto a los algoritmos existentes:

HyFDCA es un algoritmo dual primario demostrablemente convergente para FL híbrido en al menos las siguientes configuraciones.
- Configuración federada híbrida con participación completa del cliente
- Configuración federada horizontal con subconjuntos aleatorios de clientes disponibles
  - Los autores muestran que HyFDCA disfruta de una tasa de convergencia de $O$ ( 1 ⁄ t ) que coincide con la tasa de convergencia de FedAvg (ver más abajo). ^[28]
- Configuración federada vertical con participación incompleta del cliente
  - Los autores muestran que HyFDCA disfruta de una tasa de convergencia de $O$ ( log(t) ⁄ t ) mientras que FedBCD ^[29] exhibe una tasa de convergencia $O$ ( 1 ⁄ sqrt(t) ) más lenta y requiere la participación total del cliente.
HyFDCA proporciona los pasos de privacidad que garantizan la privacidad de los datos del cliente en el entorno dual primario. Estos principios se aplican a esfuerzos futuros para desarrollar algoritmos duales primarios para FL.
HyFDCA supera empíricamente a HyFEM y FedAvg en el valor de la función de pérdida y la precisión de la validación en una multitud de configuraciones de problemas y conjuntos de datos (consulte a continuación para obtener más detalles). Los autores también presentan un marco de selección de hiperparámetros para FL con métricas competitivas utilizando ideas de optimización multiobjetivo.

Sólo hay otro algoritmo que se centra en FL híbrido, HyFEM propuesto por Zhang et al. (2020). ^[30] Este algoritmo utiliza una formulación de coincidencia de características que equilibra a los clientes que crean modelos locales precisos y al servidor que aprende un modelo global preciso. Esto requiere una constante de regularización coincidente que debe ajustarse en función de los objetivos del usuario y da como resultado modelos locales y globales dispares. Además, los resultados de convergencia proporcionados para HyFEM solo prueban la convergencia de la formulación coincidente, no del problema global original. Este trabajo es sustancialmente diferente al enfoque de HyFDCA, que utiliza datos sobre clientes locales para construir un modelo global que converge a la misma solución como si el modelo hubiera sido entrenado de manera centralizada. Además, los modelos local y global están sincronizados y no requieren el ajuste de un parámetro coincidente entre los modelos local y global. Sin embargo, HyFEM es adecuado para una amplia gama de arquitecturas, incluidas arquitecturas de aprendizaje profundo, mientras que HyFDCA está diseñado para problemas convexos como la regresión logística y las máquinas de vectores de soporte.

HyFDCA se compara empíricamente con el HyFEM antes mencionado, así como con el popular FedAvg, para resolver problemas convexos (específicamente problemas de clasificación) para varios conjuntos de datos populares (MNIST, Covtype y News20). Los autores encontraron que HyFDCA converge a un valor de pérdida más bajo y una mayor precisión de validación en menos tiempo total en 33 de 36 comparaciones examinadas y 36 de 36 comparaciones examinadas con respecto al número de iteraciones externas. ^[25] Por último, HyFDCA solo requiere el ajuste de un hiperparámetro, el número de iteraciones internas, a diferencia de FedAvg (que requiere un ajuste tres) o HyFEM (que requiere un ajuste cuatro). Además de que FedAvg y HyFEM son bastante difíciles de optimizar los hiperparámetros, lo que a su vez afecta en gran medida la convergencia, el hiperparámetro único de HyFDCA permite implementaciones prácticas y metodologías de selección de hiperparámetros más simples.

federadoViTusando agregación dinámica (FED-REV)

Federated Learning (FL) proporciona capacitación de un modelo compartido global utilizando fuentes de datos descentralizadas en nodos perimetrales y al mismo tiempo preserva la privacidad de los datos. Sin embargo, su rendimiento en las aplicaciones de visión por computadora que utilizan la red neuronal convolucional (CNN) está considerablemente por detrás del de la capacitación centralizada debido a los recursos de comunicación limitados y la baja capacidad de procesamiento en los nodos de borde. Alternativamente, los modelos de transformadores Pure Vision (VIT) superan a las CNN casi cuatro veces en términos de eficiencia y precisión computacional. Por lo tanto, proponemos un nuevo modelo FL con estrategia reconstructiva llamado FED-REV, que ilustra cómo las estructuras basadas en la atención (transformadores de visión puros) mejoran la precisión de FL en datos grandes y diversos distribuidos en nodos de borde, además de la estrategia de reconstrucción propuesta que determina la La influencia de las dimensiones de cada etapa del transformador de visión y luego reduce su complejidad dimensional, lo que reduce el costo de cálculo de los dispositivos de borde, además de preservar la precisión lograda gracias al uso del transformador de visión puro. ^[31]

Temas de investigación actuales

El aprendizaje federado comenzó a emerger como un tema de investigación importante en 2015 ^[2] y 2016, ^[32] con las primeras publicaciones sobre promedios federados en entornos de telecomunicaciones. Antes de eso, en un trabajo de tesis titulado "Un marco para la captación previa de múltiples fuentes a través del peso adaptativo", ^[33] se propuso un enfoque para agregar predicciones de múltiples modelos entrenados en tres ubicaciones de un ciclo de respuesta de solicitud. Otro aspecto importante de la investigación activa es la reducción de la carga de comunicación durante el proceso de aprendizaje federado. En 2017 y 2018, las publicaciones han enfatizado el desarrollo de estrategias de asignación de recursos, especialmente para reducir los requisitos de comunicación ^[20]^[34] entre nodos con algoritmos de chismes ^[35] así como en la caracterización de la robustez ante ataques diferenciales a la privacidad. ^[36] Otras actividades de investigación se centran en la reducción del ancho de banda durante el entrenamiento a través de métodos de dispersión y cuantificación, ^[34] donde los modelos de aprendizaje automático se dispersan y/o comprimen antes de compartirlos con otros nodos. El desarrollo de arquitecturas DNN ultraligeras es esencial para el aprendizaje de dispositivos/edge y trabajos recientes reconocen tanto los requisitos de eficiencia energética ^[37] para el futuro aprendizaje federado como la necesidad de comprimir el aprendizaje profundo, especialmente durante el aprendizaje. ^[38]

Los avances de investigación recientes están comenzando a considerar canales de propagación del mundo real ^[39], ya que en implementaciones anteriores se asumieron canales ideales. Otra dirección activa de investigación es desarrollar el aprendizaje federado para entrenar modelos locales heterogéneos con diferentes complejidades computacionales y producir un modelo de inferencia global único y poderoso. ^[6]

Recientemente se desarrolló un marco de aprendizaje denominado aprendizaje asistido para mejorar las capacidades de aprendizaje de cada agente sin transmitir datos privados, modelos e incluso objetivos de aprendizaje. ^[40] En comparación con el aprendizaje federado que a menudo requiere un controlador central para orquestar el aprendizaje y la optimización, el aprendizaje asistido tiene como objetivo proporcionar protocolos para que los agentes optimicen y aprendan entre ellos sin un modelo global.

Casos de uso

El aprendizaje federado generalmente se aplica cuando los actores individuales necesitan entrenar modelos en conjuntos de datos más grandes que los suyos, pero no pueden darse el lujo de compartir los datos con otros (por ejemplo, por razones legales, estratégicas o económicas). La tecnología aún requiere buenas conexiones entre los servidores locales y una potencia computacional mínima para cada nodo. ^[3]

Transporte: coches autónomos

Los automóviles autónomos encapsulan muchas tecnologías de aprendizaje automático para funcionar: visión por computadora para analizar obstáculos, aprendizaje automático para adaptar su ritmo al entorno (por ejemplo, los baches de la carretera). Debido al elevado número potencial de vehículos autónomos y a la necesidad de que respondan rápidamente a situaciones del mundo real, el enfoque tradicional de la nube puede generar riesgos para la seguridad. El aprendizaje federado puede representar una solución para limitar el volumen de transferencia de datos y acelerar los procesos de aprendizaje. ^[41]^[42]

Industria 4.0: fabricación inteligente

En la Industria 4.0 , existe una adopción generalizada de técnicas de aprendizaje automático ^[43] para mejorar la eficiencia y eficacia del proceso industrial garantizando al mismo tiempo un alto nivel de seguridad. Sin embargo, la privacidad de los datos confidenciales para las industrias y empresas manufactureras es de suma importancia. Se pueden aplicar algoritmos de aprendizaje federado a estos problemas, ya que no revelan ningún dato confidencial. ^[32] Además, FL también implementó la predicción de PM2.5 para respaldar las aplicaciones de detección de ciudades inteligentes. ^[44]

Medicina: salud digital

El aprendizaje federado busca abordar el problema de la gobernanza y la privacidad de los datos entrenando algoritmos de forma colaborativa sin intercambiar los datos en sí. El enfoque estándar actual de centralizar datos de múltiples centros tiene el costo de preocupaciones críticas con respecto a la privacidad del paciente y la protección de datos. Para resolver este problema, la capacidad de entrenar modelos de aprendizaje automático a escala en múltiples instituciones médicas sin mover los datos es una tecnología fundamental. Nature Digital Medicine publicó el artículo "El futuro de la salud digital con el aprendizaje federado" ^[45] en septiembre de 2020, en el que los autores exploran cómo el aprendizaje federado puede proporcionar una solución para el futuro de la salud digital y destacan los desafíos y consideraciones que necesitan. ser dirigido. Recientemente, una colaboración de 20 instituciones diferentes de todo el mundo validó la utilidad de entrenar modelos de IA mediante el aprendizaje federado. En un artículo publicado en Nature Medicine "Aprendizaje federado para predecir resultados clínicos en pacientes con COVID-19", ^[46] mostraron la precisión y generalización de un modelo de IA federado para la predicción de las necesidades de oxígeno en pacientes con infecciones por COVID-19. Además, en un artículo publicado "Una revisión sistemática del aprendizaje federado en el área de la atención médica: desde la perspectiva de las propiedades y aplicaciones de los datos", los autores intentan proporcionar un conjunto de desafíos sobre los desafíos de FL desde una perspectiva centrada en los datos médicos. ^[47]

Una coalición de la industria y el mundo académico ha desarrollado MedPerf, ^[48] una plataforma de código abierto que permite la validación de modelos médicos de IA en datos del mundo real. La plataforma se basa técnicamente en una evaluación federada de modelos de IA con el objetivo de aliviar las preocupaciones sobre la privacidad del paciente y conceptualmente en diversos comités de referencia para construir las especificaciones de puntos de referencia neutrales y clínicamente impactantes. ^[49]

Robótica

La robótica incluye una amplia gama de aplicaciones de métodos de aprendizaje automático: desde la percepción y la toma de decisiones hasta el control. A medida que las tecnologías robóticas se han ido implementando desde tareas simples y repetitivas (por ejemplo, manipulación repetitiva) hasta tareas complejas e impredecibles (por ejemplo, navegación autónoma), crece la necesidad de aprendizaje automático. Federated Learning proporciona una solución para mejorar los métodos de formación de aprendizaje automático convencionales. En el artículo, ^[50] los robots móviles aprendieron a navegar en diversos entornos utilizando el método basado en FL, lo que ayudó a la generalización. En el artículo, ^[51] se aplica el aprendizaje federado para mejorar la navegación de múltiples robots en escenarios de ancho de banda de comunicación limitado, lo cual es un desafío actual en las tareas robóticas basadas en el aprendizaje del mundo real. En el artículo, ^[52] se utiliza el aprendizaje federado para aprender la navegación basada en Vision, lo que ayuda a una mejor transferencia de simulación a real.

Referencias

^ Kairuz, Peter; McMahan, H. Brendan; Avent, Brendan; Bellet, Aurélien; Bennis, Mehdi; Bhagoji, Arjun Nitin; Bonawitz, Kallista; Carlos, Zacarías; Cormode, Graham; Cummings, Raquel; D'Oliveira, Rafael GL; Eichner, Hubert; Rouayheb, Salim El; Evans, David; Gardner, Josh (22 de junio de 2021). "Avances y problemas abiertos en el aprendizaje federado". Fundamentos y tendencias en aprendizaje automático . 14 (1–2): 1–210. arXiv : 1912.04977 . doi :10.1561/2200000083. ISSN 1935-8237.
^ ab Konečný, Jakub; McMahan, Brendan; Ramage, Daniel (2015). "Optimización federada: optimización distribuida más allá del centro de datos". arXiv : 1511.03575 [cs.LG].
^ abcdefghijklmno Kairouz, Peter; Brendan McMahan, H.; Avent, Brendan; Bellet, Aurélien; Bennis, Mehdi; Arjun Nitin Bhagoji; Bonawitz, Keith; Carlos, Zacarías; Cormode, Graham; Cummings, Raquel; D'Oliveira, Rafael GL; Salim El Rouayheb; Evans, David; Gardner, Josh; Garrett, Zachary; Gascón, Adriá; Ghazi, Badih; Gibbons, Phillip B.; Gruteser, Marco; Harchaoui, Zaid; Él, Chaoyang; El Miente; Huo, Zhouyuan; Hutchinson, Ben; Hsu, Justin; Jaggi, Martín; Javidi, Tara ; Joshi, Gauri; Khodak, Mijaíl; et al. (10 de diciembre de 2019). "Avances y problemas abiertos en el aprendizaje federado". arXiv : 1912.04977 [cs.LG].
^ Pokhrel, Shiva Raj; Choi, Jinho (2020). "Aprendizaje federado con Blockchain para vehículos autónomos: desafíos de análisis y diseño". Transacciones IEEE sobre Comunicaciones . 68 (8): 4734–4746. doi :10.1109/TCOMM.2020.2990686. S2CID 219006840.
^ Xu, Zirui; Yu, Fuxun; Xiong, Jinjun; Chen, Xiang (diciembre de 2021). "Helios: aprendizaje federado consciente de la heterogeneidad con colaboración dinámicamente equilibrada". 2021 58.a Conferencia de automatización de diseño (DAC) de ACM/IEEE . págs. 997-1002. arXiv : 1912.01684 . doi :10.1109/DAC18074.2021.9586241. ISBN 978-1-6654-3274-0. S2CID 243925551.
^ abcdefg Diao, Enmao; Ding, Jie; Tarokh, Vahid (2 de octubre de 2020). "HeteroFL: aprendizaje federado eficiente en computación y comunicación para clientes heterogéneos". arXiv : 2010.01264 [cs.LG].
^ Yu, Fuxun; Zhang, Weishan; Qin, Zhuwei; Xu, Zirui; Wang, Di; Liu, Chenchen; Tian, Zhi; Chen, Xiang (14 de agosto de 2021). "Fed2". Actas de la 27ª Conferencia ACM SIGKDD sobre descubrimiento de conocimientos y minería de datos . KDD '21. Nueva York, NY, EE.UU.: Asociación de Maquinaria de Computación. págs. 2066-2074. arXiv : 2111.14248 . doi :10.1145/3447548.3467309. ISBN 978-1-4503-8332-5. S2CID 240598436.
^ Aprendizaje colaborativo descentralizado de modelos personalizados a través de redes Paul Vanhaesebrouck, Aurélien Bellet, Marc Tommasi, 2017
^ Savazzi, Stefano; Nicoli, Mónica; Rampa, Vittorio (mayo de 2020). "Aprendizaje federado con dispositivos cooperativos: un enfoque de consenso para redes masivas de IoT". Revista IEEE de Internet de las cosas . 7 (5): 4641–4654. arXiv : 1912.13163 . doi :10.1109/JIOT.2020.2964162. S2CID 209515403.
^ Hacia el aprendizaje federado a escala: diseño de sistemas, Keith Bonawitz Hubert Eichner y otros, 2019
^ Gupta, Otkrist; Raskar, Ramesh (14 de octubre de 2018). "Aprendizaje distribuido de redes neuronales profundas sobre múltiples agentes". arXiv : 1810.06060 [cs.LG].
^ Vepakomma, Praneeth; Gupta, Otkrist; sueco, Tristán; Raskar, Ramesh (3 de diciembre de 2018). "Aprendizaje dividido para la salud: aprendizaje profundo distribuido sin compartir datos sin procesar de los pacientes". arXiv : 1812.00564 [cs.LG].
^ Hsieh, Kevin; Fanishayee, Amar; Mutlu, Onur; Gibbons, Phillip (21 de noviembre de 2020). "El atolladero de datos no IID del aprendizaje automático descentralizado". Congreso Internacional sobre Aprendizaje Automático . PMLR: 4387–4398. arXiv : 1910.00189 .
^ Aprendizaje profundo colaborativo en redes de topología fija, Zhanhong Jiang, Mukesh Yadaw, Chinmay Hegde, Soumik Sarkar, 2017
^ GossipGraD: aprendizaje profundo escalable utilizando el descenso de gradiente asincrónico basado en Gossip Communication, Jeff Daily, Abhinav Vishnu, Charles Siegel, Thomas Warfel, Vinay Amatya, 2018
^ Bagdasaryan, Eugenio; Veit, Andreas; Hua, Yiqing (6 de agosto de 2019). "Cómo hacer una puerta trasera al aprendizaje federado". arXiv : 1807.00459 [cs.CR].
^ Vahid, Diao; Ding, Enmao; Tarokh, Jie (2 de junio de 2021). SemiFL: aprendizaje federado semisupervisado con comunicación eficiente con clientes sin etiquetar. OCLC 1269554828.
^ "Apache Wayang - Inicio". wayang.apache.org .
^ Privacidad que preserva el aprendizaje profundo, R. Shokri y V. Shmatikov, 2015
^ ab Aprendizaje eficiente en la comunicación de redes profundas a partir de datos descentralizados, H. Brendan McMahan y otros. 2017
^ Reddi, Sashank; Carlos, Zacarías; Zaheer, Manzil; Garrett, Zachary; Prisa, Keith; Konečný, Jakub; Kumar, Sanjiv; McMahan, H. Brendan (8 de septiembre de 2021), Optimización federada adaptativa, doi :10.48550/arXiv.2003.00295 , consultado el 24 de julio de 2024
^ abcd Acar, Durmus Alp Emre; Zhao, Yue; Navarro, Ramón Matas; Mattina, Mateo; Qué importa, Paul N.; Saligrama, Venkatesh (2021). "Aprendizaje federado basado en regularización dinámica". ICLR . arXiv : 2111.04263 .
^ abcd Vahidian, Saeed; Morafah, Mahdi; Lin, Bill (2021). "Aprendizaje federado personalizado mediante poda estructurada y no estructurada bajo heterogeneidad de datos". Icdcs-W . arXiv : 2105.00562 .
^ Yeganeh, Yousef; Farshad, Azade; Navab, Nassir; Albarqouni, Shadi (2020). "Agregación de distancia inversa para aprendizaje federado con datos que no son IID". Icdcs-W . arXiv : 2008.07665 .
^ ab Overman, T., Blum, G. y Klabjan, D. (2024). Un algoritmo primario-dual para el aprendizaje federado híbrido, https://arxiv.org/pdf/2210.08106.pdf
^ Jaggi, M., Smith, V., Takácˇ, M., Terhorst, J., Krishnan, S., Hofmann, T. y Jordan, MI (2014). Ascenso de doble coordinación distribuido eficiente en comunicación. En Actas de la 27ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural, volumen 2, páginas 3068–3076.
^ Smith, V., Forte, S., Ma, C., Takácˇ, M., Jordan, MI y Jaggi, M. (2017). Cocoa: un marco general para la optimización distribuida eficiente en la comunicación. Revista de investigación sobre aprendizaje automático, 18(1):8590–8638.
^ McMahan, HB, Moore, E., Ramage, D., Hampson, S. y Arcas, BA (2017). Aprendizaje eficiente en comunicación de redes profundas a partir de datos descentralizados. En AISTATS, volumen 54, páginas 1273–1282
^ Liu, Y., Zhang, X., Kang, Y., Li, L., Chen, T., Hong, M. y Yang, Q. (2022). Fedbcd: un marco de aprendizaje colaborativo eficiente en comunicación para funciones distribuidas. Transacciones IEEE sobre procesamiento de señales, páginas 1–12.
^ Zhang, X., Yin, W., Hong, M. y Chen, T. (2020). Aprendizaje federado híbrido: algoritmos e implementación. En NeurIPS-SpicyFL 2020.
^ Ismail, Hatem (agosto de 2022). "UN ALGORITMO TRANSFORMADOR DE VISIÓN PURA FEDERADO PARA VISIÓN POR COMPUTADORA UTILIZANDO UN MODELO DE AGREGACIÓN DINÁMICA" (PDF) . NeuroQuantology (publicado en agosto de 2022).
^ ab Optimización federada: aprendizaje automático distribuido para inteligencia en el dispositivo, Jakub Konečný, H. Brendan McMahan, Daniel Ramage y Peter Richtárik, 2016
^ Berhanu, Yoseph. "Un marco para la captación previa de múltiples fuentes mediante peso adaptativo".
^ ab Konečný, Jakub; McMahan, H. Brendan; Yu, Félix X.; Richtárik, Peter; Suresh, Ananda Theertha; Bacon, Dave (30 de octubre de 2017). "Aprendizaje federado: estrategias para mejorar la eficiencia de la comunicación". arXiv : 1610.05492 [cs.LG].
^ Entrenamiento en chismes para el aprendizaje profundo, Michael Blot y otros, 2017
^ Aprendizaje federado diferencialmente privado: una perspectiva a nivel del cliente Robin C. Geyer y otros, 2018
^ Du, Zhiyong; Deng, Yansha; Guo, Weisi; Nallanathan, Arumugam; Wu, Qihui (2021). "Aprendizaje ecológico por refuerzo profundo para la gestión de recursos de radio: arquitectura, compresión de algoritmos y desafíos". Revista de tecnología vehicular IEEE . 16 : 29–39. doi :10.1109/MVT.2020.3015184. hdl : 1826/16378 . S2CID 204401715.
^ "Aprendizaje de bocetos aleatorios para redes neuronales profundas en informática de punta". Ciencia Computacional de la Naturaleza . 1 . 2021.
^ Amiri, Mohammad Mohammadi; Gunduz, Deniz (10 de febrero de 2020). "Aprendizaje federado a través de canales inalámbricos con desvanecimiento". arXiv : 1907.09769 [cs.IT].
^ Xian, Xun; Wang, Xinran; Ding, Jie; Ghanés, Reza (2020). "Aprendizaje asistido: un marco para el aprendizaje multiorganizacional". Avances en los sistemas de procesamiento de información neuronal . 33 . arXiv : 2004.00566 .
^ Pokhrel, Shiva Raj (2020). "El aprendizaje federado se encuentra con blockchain en el borde 6G: una red asistida por drones para la respuesta a desastres": 49–54. doi :10.1145/3414045.3415949. S2CID 222179104. {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Elbir, Ahmet M.; Coleri, S. (2 de junio de 2020). "Aprendizaje federado para redes vehiculares". arXiv : 2006.01412 [eess.SP].
^ Cioffi, Raffaele; Travaglioni, Marta; Piscitelli, Giuseppina; Petrillo, Antonella; De Felice, Fabio (2019). "Aplicaciones de inteligencia artificial y aprendizaje automático en la producción inteligente: avances, tendencias y direcciones". Sostenibilidad . 12 (2): 492. doi : 10.3390/su12020492 .
^ Putra, Karisma Trinanda; Chen, Hsing-Chung; Prayitno; Ogiela, Marek R.; Chou, Chao-Lung; Weng, Chien-Erh; Shae, Zon-Yin (enero de 2021). "Marco informático de vanguardia de aprendizaje comprimido federado que garantiza la privacidad de los datos para la predicción de PM2.5 en aplicaciones de detección de ciudades inteligentes". Sensores . 21 (13): 4586. Código bibliográfico : 2021Senso..21.4586P. doi : 10.3390/s21134586 . PMC 8271576 . PMID 34283140.
^ Rieke, Nicola; Hancox, Jonny; Li, Wenqi; Milletarì, Fausto; Roth, Holger R.; Albarqouni, Shadi; Bakas, Espiridón; Galtier, Mathieu N.; Landman, Bennett A.; Maier-Hein, Klaus; Ourselin, Sébastien; Sheller, Miqueas; Veranos, Ronald M.; Trask, Andrés; Xu, Daguang; Baust, Maximiliano; Cardoso, M. Jorge (14 de septiembre de 2020). "El futuro de la salud digital con el aprendizaje federado". npj Medicina digital . 3 (1): 119. arXiv : 2003.08119 . doi :10.1038/s41746-020-00323-1. PMC 7490367 . PMID 33015372. S2CID 212747909.
^ Dayan, Ittai; Roth, Holger R.; Zhong, Aoxiao; et al. (2021). "Aprendizaje federado para predecir resultados clínicos en pacientes con COVID-19". Medicina de la Naturaleza . 27 (10): 1735-1743. doi :10.1038/s41591-021-01506-3. PMC 9157510 . PMID 34526699. S2CID 237536154.
^ Prayitno; Shyu, Chi-Ren; Putra, Karisma Trinanda; Chen, Hsing-Chung; Tsai, Yuan-Yu; Hossain, KSM Tozammel; Jiang, Wei; Shae, Zon-Yin (enero de 2021). "Una revisión sistemática del aprendizaje federado en el área de la salud: desde la perspectiva de las propiedades y aplicaciones de los datos". Ciencias Aplicadas . 11 (23): 11191. doi : 10.3390/app112311191 .
^ Karárgyris, Alexandros; Umetón, Renato; Sheller, Micah J.; et al. (17 de julio de 2023). "Evaluación comparativa federada de inteligencia artificial médica con MedPerf". Inteligencia de la máquina de la naturaleza . 5 (7). Springer Science y Business Media LLC: 799–810. arXiv : 2110.01406 . doi : 10.1038/s42256-023-00652-2 . ISSN 2522-5839. PMC 11068064 . PMID 38706981.
^ "Anuncio de la plataforma abierta de evaluación comparativa MedPerf para IA médica". MLCommons . 2023-07-17 . Consultado el 13 de septiembre de 2023 .
^ Liu, Boyi; Wang, Lujia; Liu, Ming (2019). "Aprendizaje de refuerzo federado permanente: una arquitectura de aprendizaje para la navegación en sistemas robóticos en la nube". Conferencia internacional IEEE/RSJ 2019 sobre robots y sistemas inteligentes (IROS) . págs. 1688-1695. arXiv : 1901.06455 . doi :10.1109/IROS40897.2019.8967908. ISBN 978-1-7281-4004-9. S2CID 210972473.
^ Na, Seongin; Rouček, Tomaš; Ulrich, Jiří; Pikman, enero; Krajník, Tomaš; Lennox, Barry; Arvin, Farshad (2023). "Aprendizaje por refuerzo federado para la navegación colectiva de enjambres robóticos". Transacciones IEEE sobre sistemas cognitivos y de desarrollo . 15 (4): 1. arXiv : 2202.01141 . doi :10.1109/TCDS.2023.3239815. S2CID 246473085.
^ Yu, Xianjia; Queralta, Jorge Peña; Westerlund, Tomi (2022). "Hacia el aprendizaje federado permanente en robots móviles autónomos con transferencia continua de Sim a Real". Procedia Ciencias de la Computación . 210 : 86–93. arXiv : 2205.15496 . doi :10.1016/j.procs.2022.10.123.

enlaces externos

"Reglamento (UE) 2016/679 del Parlamento Europeo y del Consejo, de 27 de abril de 2016", en eur-lex.europa.eu. Consultado el 18 de octubre de 2019.
"Técnicas de minimización de datos y preservación de la privacidad en sistemas de inteligencia artificial" Archivado el 23 de julio de 2020 en Wayback Machine en la Oficina del Comisionado de Información del Reino Unido. Consultado el 22 de julio de 2020.
"Aprovechar el potencial de los datos preservando la privacidad con EyA y Conclave de R3" en eya.global. Consultado el 31 de marzo de 2022.