Aprendizaje federado

El aprendizaje federado (también conocido como aprendizaje colaborativo ) es una técnica de aprendizaje automático que se centra en entornos en los que varias entidades (a menudo denominadas clientes) entrenan de forma colaborativa un modelo al tiempo que garantizan que sus datos permanezcan descentralizados . ^[1] Esto contrasta con los entornos de aprendizaje automático en los que los datos se almacenan de forma centralizada. Una de las principales características definitorias del aprendizaje federado es la heterogeneidad de los datos . Debido a la naturaleza descentralizada de los datos de los clientes, no hay garantía de que las muestras de datos que posee cada cliente se distribuyan de forma independiente e idéntica .

El aprendizaje federado generalmente se ocupa de cuestiones como la privacidad de los datos , la minimización de los datos y los derechos de acceso a los mismos y está motivado por ellas. Sus aplicaciones abarcan una variedad de áreas de investigación, entre ellas la defensa , las telecomunicaciones , la Internet de las cosas y los productos farmacéuticos .

Definición

El aprendizaje federado tiene como objetivo entrenar un algoritmo de aprendizaje automático, por ejemplo, redes neuronales profundas , en múltiples conjuntos de datos locales contenidos en nodos locales sin intercambiar muestras de datos explícitamente. El principio general consiste en entrenar modelos locales en muestras de datos locales e intercambiar parámetros (por ejemplo, los pesos y sesgos de una red neuronal profunda) entre estos nodos locales con cierta frecuencia para generar un modelo global compartido por todos los nodos.

La principal diferencia entre el aprendizaje federado y el aprendizaje distribuido radica en las suposiciones realizadas sobre las propiedades de los conjuntos de datos locales, ^[2] ya que el aprendizaje distribuido originalmente apunta a paralelizar la potencia informática , mientras que el aprendizaje federado originalmente apunta al entrenamiento en conjuntos de datos heterogéneos . Si bien el aprendizaje distribuido también apunta al entrenamiento de un solo modelo en múltiples servidores, una suposición subyacente común es que los conjuntos de datos locales son independientes e idénticamente distribuidos (iid) y tienen aproximadamente el mismo tamaño. Ninguna de estas hipótesis se hace para el aprendizaje federado; en cambio, los conjuntos de datos son típicamente heterogéneos y sus tamaños pueden abarcar varios órdenes de magnitud. Además, los clientes involucrados en el aprendizaje federado pueden ser poco confiables, ya que están sujetos a más fallas o abandonos, ya que comúnmente dependen de medios de comunicación menos potentes (es decir, Wi-Fi ) y sistemas alimentados por batería (es decir, teléfonos inteligentes y dispositivos IoT) en comparación con el aprendizaje distribuido donde los nodos son típicamente centros de datos que tienen potentes capacidades computacionales y están conectados entre sí con redes rápidas. ^[3]

Formulación matemática

La función objetivo para el aprendizaje federado es la siguiente:

$f(\mathbf {x} _{1},\puntos ,\mathbf {x} _{K})={\dfrac {1}{K}}\sum _{i=1}^{K}f_{i}(\mathbf {x} _{i})$

donde es el número de nodos, son los pesos del modelo tal como los ve el nodo y es la función objetivo local del nodo, que describe cómo los pesos del modelo se ajustan al conjunto de datos local del nodo. ${\estilo de visualización K}$ $\mathbf {x} _ {i}$ ${\estilo de visualización i}$ $estilo de visualización f_{i}}$ ${\estilo de visualización i}$ $\mathbf {x} _ {i}$ ${\estilo de visualización i}$

El objetivo del aprendizaje federado es entrenar un modelo común en todos los conjuntos de datos locales de los nodos, en otras palabras:

Optimización de la función objetivo . $f(\mathbf {x} _{1},\puntos ,\mathbf {x} _{K})$
Lograr un consenso sobre . En otras palabras, converger en algún punto común al final del proceso de capacitación. $\mathbf {x} _ {i}$ $\mathbf {x} _{1},\puntos ,\mathbf {x} _{K}$ $\mathbf {x}$

Aprendizaje federado centralizado

En el contexto del aprendizaje federado centralizado, se utiliza un servidor central para orquestar los diferentes pasos de los algoritmos y coordinar todos los nodos participantes durante el proceso de aprendizaje. El servidor es responsable de la selección de nodos al comienzo del proceso de entrenamiento y de la agregación de las actualizaciones del modelo recibidas. Dado que todos los nodos seleccionados tienen que enviar actualizaciones a una sola entidad, el servidor puede convertirse en un cuello de botella del sistema. ^[3]

Aprendizaje federado descentralizado

En el entorno de aprendizaje federado descentralizado, los nodos pueden coordinarse para obtener el modelo global. Esta configuración evita fallas puntuales, ya que las actualizaciones del modelo se intercambian solo entre nodos interconectados sin la orquestación del servidor central. Sin embargo, la topología de red específica puede afectar el rendimiento del proceso de aprendizaje. ^[3] Consulte el aprendizaje federado basado en blockchain ^[4] y las referencias allí incluidas.

Aprendizaje federado heterogéneo

Un número cada vez mayor de dominios de aplicación implican un gran conjunto de clientes heterogéneos, por ejemplo, teléfonos móviles y dispositivos IoT. ^[5] La mayoría de las estrategias de aprendizaje federado existentes suponen que los modelos locales comparten la misma arquitectura de modelo global. Recientemente, se desarrolló un nuevo marco de aprendizaje federado llamado HeteroFL para abordar clientes heterogéneos equipados con capacidades de computación y comunicación muy diferentes. ^{[6] La técnica HeteroFL puede permitir el entrenamiento de modelos locales heterogéneos con complejidades de computación y datos no}IID que varían dinámicamente y al mismo tiempo producen un único modelo de inferencia global preciso. ^[6]^[7]

Características principales

Aprendizaje iterativo

Para garantizar un buen rendimiento de las tareas de un modelo de aprendizaje automático central y final, el aprendizaje federado se basa en un proceso iterativo dividido en un conjunto atómico de interacciones cliente-servidor conocido como ronda de aprendizaje federado. Cada ronda de este proceso consiste en transmitir el estado actual del modelo global a los nodos participantes, entrenar modelos locales en estos nodos locales para producir un conjunto de posibles actualizaciones del modelo en cada nodo y luego agregar y procesar estas actualizaciones locales en una única actualización global y aplicarla al modelo global. ^[3]

En la metodología que se presenta a continuación, se utiliza un servidor central para la agregación, mientras que los nodos locales realizan el entrenamiento local en función de las órdenes del servidor central. Sin embargo, otras estrategias conducen a los mismos resultados sin servidores centrales, en un enfoque peer-to-peer , utilizando metodologías de consenso o de chismes ^{[8] .}^[9]

Suponiendo una ronda federada compuesta por una iteración del proceso de aprendizaje, el procedimiento de aprendizaje se puede resumir de la siguiente manera: ^[10]

Inicialización : según las entradas del servidor, se elige un modelo de aprendizaje automático (por ejemplo, regresión lineal , red neuronal, boosting ) para entrenarlo en nodos locales e inicializarlo. Luego, los nodos se activan y esperan a que el servidor central les asigne las tareas de cálculo.
Selección de clientes : se selecciona una fracción de nodos locales para comenzar el entrenamiento con datos locales. Los nodos seleccionados adquieren el modelo estadístico actual mientras que los demás esperan la siguiente ronda federada.
Configuración : el servidor central ordena a los nodos seleccionados que realicen el entrenamiento del modelo en sus datos locales de una manera preestablecida (por ejemplo, para algunas actualizaciones de minilotes del descenso de gradiente ).
Informes : cada nodo seleccionado envía su modelo local al servidor para su agregación. El servidor central agrega los modelos recibidos y envía las actualizaciones de los modelos a los nodos. También gestiona los fallos de los nodos desconectados o las actualizaciones de los modelos perdidos. La siguiente ronda federada se inicia volviendo a la fase de selección del cliente.
Terminación : una vez que se cumple un criterio de terminación predefinido (por ejemplo, se alcanza un número máximo de iteraciones o la precisión del modelo es mayor que un umbral), el servidor central agrega las actualizaciones y finaliza el modelo global.

El procedimiento considerado anteriormente supone actualizaciones sincronizadas del modelo. Los recientes desarrollos de aprendizaje federado introdujeron técnicas novedosas para abordar la asincronicidad durante el proceso de entrenamiento, o el entrenamiento con modelos que varían dinámicamente. ^[6] En comparación con los enfoques sincrónicos en los que los modelos locales se intercambian una vez que se han realizado los cálculos para todas las capas de la red neuronal, los asincrónicos aprovechan las propiedades de las redes neuronales para intercambiar actualizaciones del modelo tan pronto como estén disponibles los cálculos de una determinada capa. Estas técnicas también se conocen comúnmente como aprendizaje dividido ^[11]^[12] y se pueden aplicar tanto en el momento del entrenamiento como en el de la inferencia, independientemente de las configuraciones de aprendizaje federado centralizadas o descentralizadas. ^[3]^[6]

Datos no IID

En la mayoría de los casos, la suposición de muestras independientes e idénticamente distribuidas en los nodos locales no se cumple en las configuraciones de aprendizaje federado. En esta configuración, el rendimiento del proceso de entrenamiento puede variar significativamente según las muestras de datos locales desequilibradas, así como la distribución de probabilidad particular de los ejemplos de entrenamiento (es decir, características y etiquetas ) almacenados en los nodos locales. Para investigar más a fondo los efectos de los datos no IID, la siguiente descripción considera las categorías principales presentadas en la preimpresión de Peter Kairouz et al. de 2019. ^[3]

La descripción de datos no IID se basa en el análisis de la probabilidad conjunta entre características y etiquetas para cada nodo. Esto permite desacoplar cada contribución según la distribución específica disponible en los nodos locales. Las principales categorías de datos no IID se pueden resumir de la siguiente manera: ^[3]

Cambio de covariable : los nodos locales pueden almacenar ejemplos que tienen distribuciones estadísticas diferentes en comparación con otros nodos. Un ejemplo se da en los conjuntos de datos de procesamiento de lenguaje natural , donde las personas suelen escribir los mismos dígitos o letras con diferentes anchos de trazo o inclinaciones. ^[3]
Cambio de probabilidad previa : los nodos locales pueden almacenar etiquetas que tienen distribuciones estadísticas diferentes en comparación con otros nodos. Esto puede suceder si los conjuntos de datos están divididos regionalmente o demográficamente. Por ejemplo, los conjuntos de datos que contienen imágenes de animales varían significativamente de un país a otro. ^[3]
Desviación conceptual ( misma etiqueta, características diferentes ): los nodos locales pueden compartir las mismas etiquetas, pero algunas de ellas corresponden a características diferentes en distintos nodos locales. Por ejemplo, las imágenes que representan un objeto en particular pueden variar según las condiciones climáticas en las que fueron capturadas. ^[3]
Cambio de concepto ( mismas características, diferentes etiquetas ): los nodos locales pueden compartir las mismas características, pero algunas de ellas corresponden a diferentes etiquetas en diferentes nodos locales. Por ejemplo, en el procesamiento del lenguaje natural, el análisis de sentimientos puede producir diferentes sentimientos incluso si se observa el mismo texto. ^[3]
Desequilibrado : la cantidad de datos disponibles en los nodos locales puede variar significativamente en tamaño. ^[3]^[6]

La pérdida de precisión debido a datos no iid se puede limitar mediante el uso de medios más sofisticados de normalización de datos, en lugar de la normalización por lotes. ^[13]

Hiperparámetros algorítmicos

Topología de red

La forma en que se agrupan los resultados estadísticos locales y la forma en que los nodos se comunican entre sí pueden cambiar con respecto al modelo centralizado explicado en la sección anterior. Esto conduce a una variedad de enfoques de aprendizaje federado: por ejemplo, sin un servidor central de orquestación o comunicación estocástica. ^[14]

En particular, las redes distribuidas sin orquestador son una variación importante. En este caso, no hay un servidor central que envíe consultas a los nodos locales y agregue modelos locales. Cada nodo local envía sus resultados a varios otros seleccionados aleatoriamente, que agregan sus resultados localmente. Esto limita el número de transacciones, lo que a veces reduce el tiempo de entrenamiento y el costo computacional. ^[15]

Parámetros de aprendizaje federados

Una vez elegida la topología de la red de nodos, se pueden controlar diferentes parámetros del proceso de aprendizaje federado (además de los propios hiperparámetros del modelo de aprendizaje automático) para optimizar el aprendizaje:

Número de rondas de aprendizaje federado: $T$
Número total de nodos utilizados en el proceso: $K$
Fracción de nodos utilizados en cada iteración para cada nodo: $C$
Tamaño de lote local utilizado en cada iteración de aprendizaje: $B$

También se pueden modificar otros parámetros que dependen del modelo, como por ejemplo:

Número de iteraciones para el entrenamiento local antes de la agrupación: $N$
Tasa de aprendizaje local: $\eta$

Esos parámetros deben optimizarse en función de las limitaciones de la aplicación de aprendizaje automático (por ejemplo, potencia de cálculo disponible, memoria disponible, ancho de banda ). Por ejemplo, la elección estocástica de una fracción limitada de nodos para cada iteración disminuye el costo de cálculo y puede evitar el sobreajuste ^[^{cita requerida}^] , de la misma manera que el descenso de gradiente estocástico puede reducir el sobreajuste. $C$

Limitaciones técnicas

El aprendizaje federado requiere una comunicación frecuente entre nodos durante el proceso de aprendizaje. Por lo tanto, no solo requiere suficiente potencia de procesamiento local y memoria, sino también conexiones de alto ancho de banda para poder intercambiar parámetros del modelo de aprendizaje automático. Sin embargo, la tecnología también evita la comunicación de datos, lo que puede requerir recursos significativos antes de comenzar el aprendizaje automático centralizado. No obstante, los dispositivos que se emplean normalmente en el aprendizaje federado tienen limitaciones de comunicación; por ejemplo, los dispositivos IoT o los teléfonos inteligentes generalmente están conectados a redes Wi-Fi; por lo tanto, incluso si los modelos suelen ser menos costosos de transmitir en comparación con los datos sin procesar, los mecanismos de aprendizaje federado pueden no ser adecuados en su forma general. ^[3]

El aprendizaje federado plantea varios desafíos estadísticos:

Heterogeneidad entre los diferentes conjuntos de datos locales: cada nodo puede tener algún sesgo con respecto a la población general y el tamaño de los conjuntos de datos puede variar significativamente; ^[6]
Heterogeneidad temporal: la distribución de cada conjunto de datos locales puede variar con el tiempo;
La interoperabilidad del conjunto de datos de cada nodo es un requisito previo;
El conjunto de datos de cada nodo puede requerir curaciones periódicas;
Ocultar los datos de entrenamiento podría permitir a los atacantes inyectar puertas traseras en el modelo global; ^[16]
La falta de acceso a datos de capacitación global dificulta la identificación de sesgos no deseados que entran en la capacitación, por ejemplo, edad, género, orientación sexual;
Pérdida parcial o total de actualizaciones del modelo debido a fallas de nodos que afectan el modelo global; ^[3]
Falta de anotaciones o etiquetas en el lado del cliente. ^[17]
Heterogeneidad entre plataformas de procesamiento ^[18]

Variaciones del aprendizaje federado

Se han propuesto varios algoritmos diferentes para la optimización federada.

Descenso de gradiente estocástico federado (FedSGD)

El entrenamiento de aprendizaje profundo se basa principalmente en variantes del descenso de gradiente estocástico , donde los gradientes se calculan en un subconjunto aleatorio del conjunto de datos total y luego se utilizan para realizar un paso del descenso de gradiente.

El descenso de gradiente estocástico federado ^[19] es la transposición directa de este algoritmo a la configuración federada, pero utilizando una fracción aleatoria de los nodos y utilizando todos los datos de este nodo. El servidor promedia los gradientes proporcionalmente a la cantidad de muestras de entrenamiento en cada nodo y los utiliza para realizar un paso de descenso de gradiente. $C$

Promedio federado

El promedio federado (FedAvg) es una generalización de FedSGD, que permite a los nodos locales realizar más de una actualización por lotes de datos locales e intercambia los pesos actualizados en lugar de los gradientes. La razón detrás de esta generalización es que en FedSGD, si todos los nodos locales comienzan desde la misma inicialización, promediar los gradientes es estrictamente equivalente a promediar los pesos mismos. Además, promediar los pesos ajustados que provienen de la misma inicialización no necesariamente perjudica el rendimiento del modelo promediado resultante. ^[20] Se han propuesto variaciones de FedAvg basadas en optimizadores adaptativos como ADAM y AdaGrad , y generalmente superan a FedAvg. ^[21]

Aprendizaje federado con regularización dinámica (FedDyn)

Los métodos de aprendizaje federado sufren cuando los conjuntos de datos de dispositivos están distribuidos de forma heterogénea. El dilema fundamental en la configuración de dispositivos distribuidos de forma heterogénea es que minimizar las funciones de pérdida de dispositivos no es lo mismo que minimizar el objetivo de pérdida global. En 2021, Acar et al. ^[22] introdujeron el método FedDyn como una solución a la configuración de conjuntos de datos heterogéneos. FedDyn regulariza dinámicamente la función de pérdida de cada dispositivo de modo que las pérdidas de dispositivo modificadas converjan a la pérdida global real. Dado que las pérdidas locales están alineadas, FedDyn es robusto a los diferentes niveles de heterogeneidad y puede realizar de forma segura una minimización completa en cada dispositivo. En teoría, FedDyn converge al óptimo (un punto estacionario para pérdidas no convexas) al ser agnóstico a los niveles de heterogeneidad. Estas afirmaciones se verifican con amplias experimentaciones en varios conjuntos de datos. ^[22]

Minimizar la cantidad de comunicaciones es el estándar de oro para la comparación en el aprendizaje federado. También podemos querer disminuir los niveles de computación local por dispositivo en cada ronda. FedDynOneGD ^[22] es una extensión de FedDyn con menos requisitos de computación local. FedDynOneGD calcula solo un gradiente por dispositivo en cada ronda y actualiza el modelo con una versión regularizada del gradiente. Por lo tanto, la complejidad de computación es lineal en el tamaño del conjunto de datos local. Además, la computación de gradiente puede ser paralelizable dentro de cada dispositivo, lo que es diferente de los pasos sucesivos de SGD. Teóricamente, FedDynOneGD logra las mismas garantías de convergencia que en FedDyn con menos computación local. ^[22]

Aprendizaje federado personalizado por poda (Sub-FedAvg)

Los métodos de aprendizaje federado no pueden lograr un buen rendimiento global en entornos que no sean IID, lo que motiva a los clientes participantes a generar modelos personalizados en la federación. Recientemente, Vahidian et al. ^[23] introdujeron Sub-FedAvg, lo que abrió un nuevo paradigma de algoritmo de aprendizaje federado personalizado al proponer una poda híbrida (poda estructurada + no estructurada) con un promedio en la intersección de las subredes dibujadas por los clientes, que maneja simultáneamente la eficiencia de la comunicación, las limitaciones de recursos y la precisión de los modelos personalizados. ^[23]

Sub-FedAvg es el primer trabajo que muestra la existencia de boletos ganadores personalizados para clientes en aprendizaje federado a través de experimentos. ^[23] Además, también propone dos algoritmos sobre cómo dibujar efectivamente las subredes personalizadas. ^[23] Sub-FedAvg intenta extender la "hipótesis del boleto de lotería", que es para redes neuronales entrenadas centralmente a redes neuronales entrenadas en aprendizaje federado, lo que conduce a este problema de investigación abierto: "¿Existen boletos ganadores para las redes neuronales de los clientes que se entrenan en aprendizaje federado? Si es así, ¿cómo dibujar efectivamente las subredes personalizadas para cada cliente?"

Agregación dinámica: agregación por distancia inversa

IDA (Inverse Distance Aggregation) es un nuevo enfoque de ponderación adaptativa para clientes basado en metainformación que maneja datos no balanceados y no iid. Utiliza la distancia de los parámetros del modelo como estrategia para minimizar el efecto de los valores atípicos y mejorar la tasa de convergencia del modelo. ^[24]

Ascenso híbrido de doble coordenada federada (HyFDCA)

Existen muy pocos métodos para el aprendizaje federado híbrido, donde los clientes solo tienen subconjuntos de características y muestras. Sin embargo, este escenario es muy importante en entornos prácticos. Hybrid Federated Dual Coordinate Ascent (HyFDCA) ^[25] es un algoritmo novedoso propuesto en 2024 que resuelve problemas convexos en el entorno FL híbrido. Este algoritmo extiende CoCoA, un algoritmo de optimización distribuida primal-dual introducido por Jaggi et al. (2014) ^[26] y Smith et al. (2017), ^[27] al caso donde tanto las muestras como las características están particionadas entre los clientes.

HyFDCA afirma varias mejoras con respecto a los algoritmos existentes:

HyFDCA es un algoritmo primal-dual demostrablemente convergente para FL híbrido en al menos las siguientes configuraciones.
- Configuración híbrida federada con participación total del cliente
- Configuración federada horizontal con subconjuntos aleatorios de clientes disponibles
  - Los autores muestran que HyFDCA disfruta de una tasa de convergencia de $O$ ( 1 ⁄ t ) que coincide con la tasa de convergencia de FedAvg (ver más abajo). ^[28]
- Configuración federada vertical con participación incompleta del cliente
  - Los autores muestran que HyFDCA disfruta de una tasa de convergencia de $O$ ( log(t) ⁄ t ) mientras que FedBCD ^[29] exhibe una tasa de convergencia más lenta $de O$ ( 1 ⁄ sqrt(t) ) y requiere la participación total del cliente.
La HyFDCA proporciona los pasos de privacidad que garantizan la privacidad de los datos del cliente en el entorno primario-dual. Estos principios se aplican a los esfuerzos futuros en el desarrollo de algoritmos primario-dual para FL.
HyFDCA supera empíricamente a HyFEM y FedAvg en cuanto a valor de función de pérdida y precisión de validación en una multitud de configuraciones de problemas y conjuntos de datos (consulte a continuación para obtener más detalles). Los autores también presentan un marco de selección de hiperparámetros para FL con métricas competitivas utilizando ideas de optimización multiobjetivo.

Solo hay otro algoritmo que se centra en FL híbrido, HyFEM propuesto por Zhang et al. (2020). ^[30] Este algoritmo utiliza una formulación de coincidencia de características que equilibra los clientes que construyen modelos locales precisos y el servidor que aprende un modelo global preciso. Esto requiere una constante de regularizador de coincidencia que debe ajustarse en función de los objetivos del usuario y da como resultado modelos locales y globales dispares. Además, los resultados de convergencia proporcionados para HyFEM solo prueban la convergencia de la formulación de coincidencia, no del problema global original. Este trabajo es sustancialmente diferente al enfoque de HyFDCA, que utiliza datos sobre clientes locales para construir un modelo global que converge a la misma solución como si el modelo se hubiera entrenado de forma centralizada. Además, los modelos locales y globales están sincronizados y no requieren el ajuste de un parámetro de coincidencia entre los modelos locales y globales. Sin embargo, HyFEM es adecuado para una amplia gama de arquitecturas, incluidas las arquitecturas de aprendizaje profundo, mientras que HyFDCA está diseñado para problemas convexos como la regresión logística y las máquinas de vectores de soporte.

HyFDCA se compara empíricamente con el mencionado HyFEM, así como con el popular FedAvg para resolver problemas convexos (específicamente problemas de clasificación) para varios conjuntos de datos populares (MNIST, Covtype y News20). Los autores encontraron que HyFDCA converge a un valor de pérdida más bajo y una mayor precisión de validación en menos tiempo general en 33 de las 36 comparaciones examinadas y 36 de las 36 comparaciones examinadas con respecto al número de iteraciones externas. ^[25] Por último, HyFDCA solo requiere el ajuste de un hiperparámetro, el número de iteraciones internas, a diferencia de FedAvg (que requiere el ajuste de tres) o HyFEM (que requiere el ajuste de cuatro). Además de que FedAvg y HyFEM son hiperparámetros bastante difíciles de optimizar, lo que a su vez afecta en gran medida la convergencia, el hiperparámetro único de HyFDCA permite implementaciones prácticas más simples y metodologías de selección de hiperparámetros.

Temas de investigación actuales

El aprendizaje federado comenzó a surgir como un tema de investigación importante en 2015 ^[2] y 2016 ^[31] , con las primeras publicaciones sobre promedios federados en entornos de telecomunicaciones. Antes de eso, en un trabajo de tesis titulado "Un marco para la precarga de múltiples fuentes a través de peso adaptativo", ^[32] se propuso un enfoque para agregar predicciones de múltiples modelos entrenados en tres ubicaciones de un ciclo de respuesta de solicitud. Otro aspecto importante de la investigación activa es la reducción de la carga de comunicación durante el proceso de aprendizaje federado. En 2017 y 2018, las publicaciones han enfatizado el desarrollo de estrategias de asignación de recursos, especialmente para reducir los requisitos de comunicación ^[20]^[33] entre nodos con algoritmos de chismes ^[34], así como en la caracterización de la robustez a los ataques de privacidad diferencial ^[35] . Otras actividades de investigación se centran en la reducción del ancho de banda durante el entrenamiento a través de métodos de esparsificación y cuantificación, ^[33] donde los modelos de aprendizaje automático se esparcen y/o comprimen antes de compartirlos con otros nodos. El desarrollo de arquitecturas DNN ultralivianas es esencial para el aprendizaje de dispositivos y bordes, y trabajos recientes reconocen tanto los requisitos de eficiencia energética ^[36] para el futuro aprendizaje federado como la necesidad de comprimir el aprendizaje profundo, especialmente durante el aprendizaje. ^[37]

Los últimos avances en la investigación están empezando a considerar canales de propagación del mundo real ^[38], ya que en las implementaciones anteriores se asumían canales ideales. Otra dirección activa de la investigación es desarrollar el aprendizaje federado para entrenar modelos locales heterogéneos con diferentes complejidades computacionales y producir un único modelo de inferencia global poderoso. ^[6]

Recientemente se desarrolló un marco de aprendizaje denominado aprendizaje asistido para mejorar las capacidades de aprendizaje de cada agente sin transmitir datos privados, modelos e incluso objetivos de aprendizaje. ^[39] En comparación con el aprendizaje federado, que a menudo requiere un controlador central para orquestar el aprendizaje y la optimización, el aprendizaje asistido tiene como objetivo proporcionar protocolos para que los agentes optimicen y aprendan entre ellos sin un modelo global.

Casos de uso

El aprendizaje federado se aplica normalmente cuando los actores individuales necesitan entrenar modelos en conjuntos de datos más grandes que los suyos, pero no pueden permitirse compartir los datos con otros (por ejemplo, por razones legales, estratégicas o económicas). La tecnología aún requiere buenas conexiones entre servidores locales y una potencia computacional mínima para cada nodo. ^[3]

Transporte: coches autónomos

Los coches autónomos encapsulan muchas tecnologías de aprendizaje automático para funcionar: visión artificial para analizar obstáculos, aprendizaje automático para adaptar su ritmo al entorno (por ejemplo, los baches de la carretera). Debido a la gran cantidad potencial de coches autónomos y la necesidad de que respondan rápidamente a situaciones del mundo real, el enfoque tradicional en la nube puede generar riesgos de seguridad. El aprendizaje federado puede representar una solución para limitar el volumen de transferencia de datos y acelerar los procesos de aprendizaje. ^[40]^[41]

Industria 4.0: fabricación inteligente

En la Industria 4.0 , existe una adopción generalizada de técnicas de aprendizaje automático ^[42] para mejorar la eficiencia y la eficacia del proceso industrial al tiempo que se garantiza un alto nivel de seguridad. Sin embargo, la privacidad de los datos confidenciales para las industrias y las empresas manufactureras es de suma importancia. Los algoritmos de aprendizaje federado se pueden aplicar a estos problemas, ya que no revelan ningún dato confidencial. ^[31] Además, FL también se implementó para la predicción de PM2.5 para respaldar las aplicaciones de detección de ciudades inteligentes. ^[43]

Medicina: salud digital

El aprendizaje federado busca abordar el problema de la gobernanza y la privacidad de los datos mediante el entrenamiento de algoritmos de forma colaborativa sin intercambiar los datos en sí. El enfoque estándar actual de centralizar los datos de múltiples centros tiene el costo de preocupaciones críticas con respecto a la privacidad del paciente y la protección de datos. Para resolver este problema, la capacidad de entrenar modelos de aprendizaje automático a escala en múltiples instituciones médicas sin mover los datos es una tecnología fundamental. Nature Digital Medicine publicó el artículo "El futuro de la salud digital con el aprendizaje federado" ^[44] en septiembre de 2020, en el que los autores exploran cómo el aprendizaje federado puede proporcionar una solución para el futuro de la salud digital y destacan los desafíos y consideraciones que deben abordarse. Recientemente, una colaboración de 20 instituciones diferentes de todo el mundo validó la utilidad de entrenar modelos de IA utilizando el aprendizaje federado. En un artículo publicado en Nature Medicine "Aprendizaje federado para predecir los resultados clínicos en pacientes con COVID-19", ^[45] mostraron la precisión y la generalización de un modelo de IA federado para la predicción de las necesidades de oxígeno en pacientes con infecciones por COVID-19. Además, en un artículo publicado "Una revisión sistemática del aprendizaje federado en el área de atención médica: desde la perspectiva de las propiedades y aplicaciones de los datos", los autores intentan proporcionar un conjunto de desafíos para el aprendizaje federado en una perspectiva centrada en los datos médicos. ^[46]

Una coalición de la industria y el mundo académico ha desarrollado MedPerf, ^[47] una plataforma de código abierto que permite la validación de modelos de IA médica en datos del mundo real. La plataforma se basa técnicamente en la evaluación federada de modelos de IA con el objetivo de aliviar las preocupaciones sobre la privacidad del paciente y conceptualmente en diversos comités de referencia para construir las especificaciones de puntos de referencia neutrales con impacto clínico. ^[48]

Robótica

La robótica incluye una amplia gama de aplicaciones de métodos de aprendizaje automático: desde la percepción y la toma de decisiones hasta el control. A medida que las tecnologías robóticas se han implementado cada vez más desde tareas simples y repetitivas (por ejemplo, manipulación repetitiva) hasta tareas complejas e impredecibles (por ejemplo, navegación autónoma), aumenta la necesidad de aprendizaje automático. El aprendizaje federado proporciona una solución para mejorar los métodos de entrenamiento de aprendizaje automático convencionales. En el artículo, ^[49] los robots móviles aprendieron la navegación en diversos entornos utilizando el método basado en FL, lo que ayuda a la generalización. En el artículo, ^[50] el aprendizaje federado se aplica para mejorar la navegación de múltiples robots en escenarios de ancho de banda de comunicación limitado, que es un desafío actual en tareas robóticas basadas en aprendizaje del mundo real. En el artículo, ^[51] el aprendizaje federado se utiliza para aprender la navegación basada en visión, lo que ayuda a una mejor transferencia de simulación a realidad.

Referencias

^ Kairouz, Peter; McMahan, H. Brendan; Avent, Brendan; Bellet, Aurélien; Bennis, Mehdi; Bhagoji, Arjun Nitin; Bonawitz, Kallista; Charles, Zachary; Cormode, Graham; Cummings, Rachel; D'Oliveira, Rafael GL; Eichner, Hubert; Rouayheb, Salim El; Evans, David; Gardner, Josh (22 de junio de 2021). "Avances y problemas abiertos en el aprendizaje federado". Fundamentos y tendencias en aprendizaje automático . 14 (1–2): 1–210. arXiv : 1912.04977 . doi :10.1561/2200000083. ISSN 1935-8237.
^ ab Konečný, Jakub; McMahan, Brendan; Ramage, Daniel (2015). "Optimización federada: optimización distribuida más allá del centro de datos". arXiv : 1511.03575 [cs.LG].
^ abcdefghijklmno Kairouz, Peter; Brendan McMahan, H.; Avent, Brendan; Bellet, Aurélien; Bennis, Mehdi; Arjun Nitin Bhagoji; Bonawitz, Keith; Carlos, Zacarías; Cormode, Graham; Cummings, Raquel; D'Oliveira, Rafael GL; Salim El Rouayheb; Evans, David; Gardner, Josh; Garrett, Zachary; Gascón, Adriá; Ghazi, Badih; Gibbons, Phillip B.; Gruteser, Marco; Harchaoui, Zaid; Él, Chaoyang; Él, mentira; Huo, Zhouyuan; Hutchinson, Ben; Hsu, Justin; Jaggi, Martín; Javidi, Tara ; Joshi, Gauri; Khodak, Mijaíl; et al. (10 de diciembre de 2019). "Avances y problemas abiertos en el aprendizaje federado". arXiv : 1912.04977 [cs.LG].
^ Pokhrel, Shiva Raj; Choi, Jinho (2020). "Aprendizaje federado con blockchain para vehículos autónomos: análisis y desafíos de diseño". IEEE Transactions on Communications . 68 (8): 4734–4746. doi :10.1109/TCOMM.2020.2990686. S2CID 219006840.
^ Xu, Zirui; Yu, Fuxun; Xiong, Jinjun; Chen, Xiang (diciembre de 2021). "Helios: aprendizaje federado consciente de la heterogeneidad con colaboración equilibrada dinámicamente". 2021 58.ª Conferencia de automatización del diseño ACM/IEEE (DAC) . págs. 997–1002. arXiv : 1912.01684 . doi :10.1109/DAC18074.2021.9586241. ISBN 978-1-6654-3274-0.S2CID243925551 .
^ abcdefg Diao, Enmao; Ding, Jie; Tarokh, Vahid (2020-10-02). "HeteroFL: aprendizaje federado eficiente en computación y comunicación para clientes heterogéneos". arXiv : 2010.01264 [cs.LG].
^ Yu, Fuxun; Zhang, Weishan; Qin, Zhuwei; Xu, Zirui; Wang, Di; Liu, Chenchen; Tian, Zhi; Chen, Xiang (14 de agosto de 2021). "Fed2". Actas de la 27ª Conferencia ACM SIGKDD sobre descubrimiento de conocimientos y minería de datos . KDD '21. Nueva York, NY, EE.UU.: Asociación de Maquinaria de Computación. págs. 2066-2074. arXiv : 2111.14248 . doi :10.1145/3447548.3467309. ISBN 978-1-4503-8332-5.S2CID240598436 .
^ Aprendizaje colaborativo descentralizado de modelos personalizados en redes Paul Vanhaesebrouck, Aurélien Bellet, Marc Tommasi, 2017
^ Savazzi, Stefano; Nicoli, Monica; Rampa, Vittorio (mayo de 2020). "Aprendizaje federado con dispositivos cooperativos: un enfoque de consenso para redes masivas de IoT". Revista IEEE Internet of Things . 7 (5): 4641–4654. arXiv : 1912.13163 . doi :10.1109/JIOT.2020.2964162. S2CID 209515403.
^ Hacia un aprendizaje federado a escala: diseño de sistemas, Keith Bonawitz Hubert Eichner y otros, 2019
^ Gupta, Otkrist; Raskar, Ramesh (14 de octubre de 2018). "Aprendizaje distribuido de redes neuronales profundas sobre múltiples agentes". arXiv : 1810.06060 [cs.LG].
^ Vepakomma, Praneeth; Gupta, Otkrist; Swedish, Tristan; Raskar, Ramesh (3 de diciembre de 2018). "Aprendizaje dividido para la salud: aprendizaje profundo distribuido sin compartir datos brutos de pacientes". arXiv : 1812.00564 [cs.LG].
^ Hsieh, Kevin; Phanishayee, Amar; Mutlu, Onur; Gibbons, Phillip (21 de noviembre de 2020). "El atolladero de datos no IID del aprendizaje automático descentralizado". Conferencia internacional sobre aprendizaje automático . PMLR: 4387–4398. arXiv : 1910.00189 .
^ Aprendizaje profundo colaborativo en redes de topología fija, Zhanhong Jiang, Mukesh Yadaw, Chinmay Hegde, Soumik Sarkar, 2017
^ GossipGraD: Aprendizaje profundo escalable mediante el uso de la comunicación de chismes basada en el descenso de gradiente asincrónico, Jeff Daily, Abhinav Vishnu, Charles Siegel, Thomas Warfel, Vinay Amatya, 2018
^ Bagdasaryan, Eugene; Veit, Andreas; Hua, Yiqing (6 de agosto de 2019). "Cómo implementar una puerta trasera en el aprendizaje federado". arXiv : 1807.00459 [cs.CR].
^ Vahid, Diao; Ding, Enmao; Tarokh, Jie (2 de junio de 2021). SemiFL: Aprendizaje federado semisupervisado y eficiente en la comunicación con clientes no etiquetados. OCLC 1269554828.
^ "Apache Wayang - Inicio". wayang.apache.org .
^ Aprendizaje profundo que preserva la privacidad, R. Shokri y V. Shmatikov, 2015
^ ab Aprendizaje eficiente en comunicación de redes profundas a partir de datos descentralizados, H. Brendan McMahan y otros, 2017
^ Reddi, Sashank; Charles, Zachary; Zaheer, Manzil; Garrett, Zachary; Rush, Keith; Konečný, Jakub; Kumar, Sanjiv; McMahan, H. Brendan (8 de septiembre de 2021). "Optimización federada adaptativa". arXiv : 2003.00295 [cs.LG].
^ abcd Acar, Durmus Alp Emre; Zhao, Yue; Navarro, Ramon Matas; Mattina, Matthew; Whatmough, Paul N.; Saligrama, Venkatesh (2021). "Aprendizaje federado basado en regularización dinámica". ICLR . arXiv : 2111.04263 .
^ abcd Vahidian, Saeed; Morafah, Mahdi; Lin, Bill (2021). "Aprendizaje federado personalizado mediante poda estructurada y no estructurada bajo heterogeneidad de datos". Icdcs-W . arXiv : 2105.00562 .
^ Yeganeh, Yousef; Farshad, Azade; Navab, Nassir; Albarqouni, Shadi (2020). "Agregación de distancia inversa para aprendizaje federado con datos no IID". Icdcs-W . arXiv : 2008.07665 .
^ ab Overman, Tom; Blum, Garrett; Klabjan, Diego (2022). "Un algoritmo primal-dual para el aprendizaje federado híbrido". arXiv : 2210.08106 [cs.LG].
^ Jaggi, M., Smith, V., Takácˇ, M., Terhorst, J., Krishnan, S., Hofmann, T. y Jordan, MI (2014). Ascenso distribuido de doble coordenada con eficiencia de comunicación. En Actas de la 27.ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural, volumen 2, páginas 3068–3076.
^ Smith, V., Forte, S., Ma, C., Takácˇ, M., Jordan, MI y Jaggi, M. (2017). Cocoa: Un marco general para la optimización distribuida eficiente en comunicación. Journal of Machine Learning Research, 18(1):8590–8638.
^ McMahan, HB, Moore, E., Ramage, D., Hampson, S. y Arcas, BA (2017). Aprendizaje eficiente en comunicación de redes profundas a partir de datos descentralizados. En AISTATS, volumen 54, páginas 1273–1282
^ Liu, Y., Zhang, X., Kang, Y., Li, L., Chen, T., Hong, M. y Yang, Q. (2022). Fedbcd: Un marco de aprendizaje colaborativo eficiente en comunicación para funciones distribuidas. IEEE Transactions on Signal Processing, páginas 1–12.
^ Zhang, X., Yin, W., Hong, M. y Chen, T. (2020). Aprendizaje federado híbrido: algoritmos e implementación. En NeurIPS-SpicyFL 2020.
^ ab Optimización federada: aprendizaje automático distribuido para inteligencia en el dispositivo, Jakub Konečný, H. Brendan McMahan, Daniel Ramage y Peter Richtárik, 2016
^ Berhanu, Yoseph. "Un marco para la precarga de múltiples fuentes a través de peso adaptativo".
^ ab Konečný, Jakub; McMahan, H. Brendan; Yu, Felix X.; Richtárik, Peter; Suresh, Ananda Theertha; Bacon, Dave (30 de octubre de 2017). "Aprendizaje federado: estrategias para mejorar la eficiencia de la comunicación". arXiv : 1610.05492 [cs.LG].
^ Entrenamiento de chismes para el aprendizaje profundo, Michael Blot y otros, 2017
^ Aprendizaje federado privado diferencial: una perspectiva a nivel de cliente Robin C. Geyer y otros, 2018
^ Du, Zhiyong; Deng, Yansha; Guo, Weisi; Nallanathan, Arumugam; Wu, Qihui (2021). "Aprendizaje de refuerzo profundo ecológico para la gestión de recursos de radio: arquitectura, compresión de algoritmos y desafíos". Revista de tecnología vehicular IEEE . 16 : 29–39. doi :10.1109/MVT.2020.3015184. hdl : 1826/16378 . S2CID 204401715.
^ "Aprendizaje de bocetos aleatorios para redes neuronales profundas en computación de borde". Nature Computational Science . 1 . 2021.
^ Amiri, Mohammad Mohammadi; Gunduz, Deniz (10 de febrero de 2020). "Aprendizaje federado sobre canales inalámbricos con atenuación". arXiv : 1907.09769 [cs.IT].
^ Xian, Xun; Wang, Xinran; Ding, Jie; Ghanadan, Reza (2020). "Aprendizaje asistido: un marco para el aprendizaje multiorganizacional". Avances en sistemas de procesamiento de información neuronal . 33 . arXiv : 2004.00566 .
^ Pokhrel, Shiva Raj (2020). "El aprendizaje federado se encuentra con la cadena de bloques en el borde 6G: una red asistida por drones para la respuesta ante desastres". Actas del 2.º Taller ACM MobiCom sobre comunicaciones inalámbricas asistidas por drones para 5G y más allá . págs. 49–54. doi :10.1145/3414045.3415949. ISBN 978-1-4503-8105-5. Número de identificación del sujeto 222179104.
^ Elbir, Ahmet M.; Coleri, S. (2 de junio de 2020). "Aprendizaje federado para redes vehiculares". arXiv : 2006.01412 [eess.SP].
^ Cioffi, Raffaele; Travaglioni, Marta; Piscitelli, Giuseppina; Petrillo, Antonella; De Felice, Fabio (2019). "Aplicaciones de inteligencia artificial y aprendizaje automático en la producción inteligente: avances, tendencias y direcciones". Sostenibilidad . 12 (2): 492. doi : 10.3390/su12020492 .
^ Putra, Karisma Trinanda; Chen, Hsing-Chung; Prayitno; Ogiela, Marek R.; Chou, Chao-Lung; Weng, Chien-Erh; Shae, Zon-Yin (enero de 2021). "Marco de computación de borde de aprendizaje comprimido federado con garantía de privacidad de datos para predicción de PM2.5 en aplicaciones de detección de ciudades inteligentes". Sensores . 21 (13): 4586. Bibcode :2021Senso..21.4586P. doi : 10.3390/s21134586 . PMC 8271576 . PMID 34283140.
^ Rieke, Nicola; Hancox, Jonny; Li, Wenqi; Milletarì, Fausto; Roth, Holger R.; Albarqouni, Shadi; Bakas, Spyridon; Galtier, Mathieu N.; Landman, Bennett A.; Maier-Hein, Klaus; Ourselin, Sébastien; Sheller, Micah; Summers, Ronald M.; Trask, Andrew; Xu, Daguang; Baust, Maximilian; Cardoso, M. Jorge (14 de septiembre de 2020). "El futuro de la salud digital con aprendizaje federado". npj Medicina Digital . 3 (1): 119. arXiv : 2003.08119 . doi :10.1038/s41746-020-00323-1. PMC 7490367 . Número de modelo: PMID 33015372. Número de modelo: S2CID 212747909.
^ Dayan, Ittai; Roth, Holger R.; Zhong, Aoxiao; et al. (2021). "Aprendizaje federado para predecir resultados clínicos en pacientes con COVID-19". Nature Medicine . 27 (10): 1735–1743. doi :10.1038/s41591-021-01506-3. PMC 9157510 . PMID 34526699. S2CID 237536154.
^ Prayitno; Shyu, Chi-Ren; Putra, Karisma Trinanda; Chen, Hsing-Chung; Tsai, Yuan-Yu; Hossain, KSM Tozammel; Jiang, Wei; Shae, Zon-Yin (enero de 2021). "Una revisión sistemática del aprendizaje federado en el área de la salud: desde la perspectiva de las propiedades y aplicaciones de los datos". Applied Sciences . 11 (23): 11191. doi : 10.3390/app112311191 .
^ Karargyris, Alexandros; Umeton, Renato; Sheller, Micah J.; et al. (17 de julio de 2023). "Evaluación comparativa federada de inteligencia artificial médica con MedPerf". Nature Machine Intelligence . 5 (7). Springer Science and Business Media LLC: 799–810. arXiv : 2110.01406 . doi : 10.1038/s42256-023-00652-2 . ISSN 2522-5839. PMC 11068064 . PMID 38706981.
^ "Anuncio de la plataforma de evaluación comparativa abierta MedPerf para IA médica". MLCommons . 2023-07-17 . Consultado el 2023-09-13 .
^ Liu, Boyi; Wang, Lujia; Liu, Ming (2019). "Aprendizaje de refuerzo federado permanente: una arquitectura de aprendizaje para la navegación en sistemas robóticos en la nube". Conferencia internacional IEEE/RSJ de 2019 sobre robots y sistemas inteligentes (IROS) . págs. 1688–1695. arXiv : 1901.06455 . doi :10.1109/IROS40897.2019.8967908. ISBN . 978-1-7281-4004-9.S2CID210972473 .
^ Na, Seongin; Rouček, Tomaš; Ulrich, Jiří; Pikman, enero; Krajník, Tomaš; Lennox, Barry; Arvin, Farshad (2023). "Aprendizaje por refuerzo federado para la navegación colectiva de enjambres robóticos". Transacciones IEEE sobre sistemas cognitivos y de desarrollo . 15 (4): 1. arXiv : 2202.01141 . doi :10.1109/TCDS.2023.3239815. S2CID 246473085.
^ Yu, Xianjia; Queralta, Jorge Pena; Westerlund, Tomi (2022). "Hacia el aprendizaje federado permanente en robots móviles autónomos con transferencia continua de simulación a realidad". Procedia Computer Science . 210 : 86–93. arXiv : 2205.15496 . doi :10.1016/j.procs.2022.10.123.

Enlaces externos

«Reglamento (UE) 2016/679 del Parlamento Europeo y del Consejo, de 27 de abril de 2016», en eur-lex.europa.eu. Consultado el 18 de octubre de 2019.
"Técnicas de minimización de datos y preservación de la privacidad en sistemas de IA" Archivado el 23 de julio de 2020 en Wayback Machine en la Oficina del Comisionado de Información del Reino Unido. Consultado el 22 de julio de 2020
"Desarrollar el potencial de los datos preservando la privacidad con EyA y Conclave de R3" en eya.global. Consultado el 31 de marzo de 2022.