stringtranslate.com

Red neuronal cuántica

Modelo simple de una red neuronal de propagación hacia adelante. Para una red de aprendizaje profundo, aumente la cantidad de capas ocultas.

Las redes neuronales cuánticas son modelos de redes neuronales computacionales que se basan en los principios de la mecánica cuántica . Las primeras ideas sobre computación neuronal cuántica fueron publicadas de forma independiente en 1995 por Subhash Kak y Ron Chrisley, [1] [2] comprometidos con la teoría de la mente cuántica , que postula que los efectos cuánticos juegan un papel en la función cognitiva. Sin embargo, la investigación típica en redes neuronales cuánticas implica combinar modelos clásicos de redes neuronales artificiales (que se usan ampliamente en el aprendizaje automático para la importante tarea de reconocimiento de patrones) con las ventajas de la información cuántica para desarrollar algoritmos más eficientes. [3] [4] [5] Una motivación importante para estas investigaciones es la dificultad de entrenar redes neuronales clásicas, especialmente en aplicaciones de big data . La esperanza es que las características de la computación cuántica , como el paralelismo cuántico o los efectos de interferencia y entrelazamiento , se puedan utilizar como recursos. Dado que la implementación tecnológica de una computadora cuántica aún se encuentra en una etapa prematura, dichos modelos de redes neuronales cuánticas son en su mayoría propuestas teóricas que esperan su implementación completa en experimentos físicos.

La mayoría de las redes neuronales cuánticas se desarrollan como redes de propagación hacia adelante . De manera similar a sus contrapartes clásicas, esta estructura toma la entrada de una capa de qubits y pasa esa entrada a otra capa de qubits. Esta capa de qubits evalúa esta información y pasa la salida a la siguiente capa. Finalmente, el camino conduce a la capa final de qubits. [6] [7] Las capas no tienen que tener el mismo ancho, lo que significa que no tienen que tener la misma cantidad de qubits que la capa anterior o posterior. Esta estructura se entrena en qué camino tomar de manera similar a las redes neuronales artificiales clásicas . Esto se analiza en una sección inferior. Las redes neuronales cuánticas se refieren a tres categorías diferentes: computadora cuántica con datos clásicos, computadora clásica con datos cuánticos y computadora cuántica con datos cuánticos. [6]

Ejemplos

La investigación sobre redes neuronales cuánticas está todavía en pañales y se han presentado un conglomerado de propuestas e ideas de alcance y rigor matemático diversos. La mayoría de ellas se basan en la idea de sustituir las neuronas binarias clásicas o de McCulloch-Pitts por un cúbit (que puede denominarse “quron”), lo que da como resultado unidades neuronales que pueden estar en una superposición del estado de “activación” y “reposo”.

Perceptrones cuánticos

Muchas propuestas intentan encontrar un equivalente cuántico para la unidad perceptrón a partir de la cual se construyen las redes neuronales. Un problema es que las funciones de activación no lineales no corresponden inmediatamente a la estructura matemática de la teoría cuántica, ya que una evolución cuántica se describe mediante operaciones lineales y conduce a una observación probabilística. Las ideas para imitar la función de activación del perceptrón con un formalismo mecánico cuántico abarcan desde mediciones especiales [8] [9] hasta la postulación de operadores cuánticos no lineales (un marco matemático que es discutido). [10] [11] Schuld, Sinayskiy y Petruccione propusieron recientemente una implementación directa de la función de activación utilizando el modelo basado en circuitos de computación cuántica basándose en el algoritmo de estimación de fase cuántica . [12]

Redes cuánticas

A mayor escala, los investigadores han intentado generalizar las redes neuronales al entorno cuántico. Una forma de construir una neurona cuántica es generalizar primero las neuronas clásicas y luego generalizarlas aún más para hacer puertas unitarias. Las interacciones entre neuronas se pueden controlar de forma cuántica, con puertas unitarias , o de forma clásica, mediante la medición de los estados de la red. Esta técnica teórica de alto nivel se puede aplicar ampliamente, tomando diferentes tipos de redes y diferentes implementaciones de neuronas cuánticas, como las neuronas implementadas fotónicamente [7] [13] y el procesador de reservorio cuántico (versión cuántica de la computación de reservorio ). [14] La mayoría de los algoritmos de aprendizaje siguen el modelo clásico de entrenamiento de una red neuronal artificial para aprender la función de entrada-salida de un conjunto de entrenamiento dado y usar bucles de retroalimentación clásicos para actualizar los parámetros del sistema cuántico hasta que converjan a una configuración óptima. El aprendizaje como un problema de optimización de parámetros también ha sido abordado por modelos adiabáticos de computación cuántica. [15]

Las redes neuronales cuánticas se pueden aplicar al diseño de algoritmos: dados qubits con interacciones mutuas ajustables, uno puede intentar aprender interacciones siguiendo la regla clásica de retropropagación a partir de un conjunto de entrenamiento de relaciones de entrada-salida deseadas, tomadas como el comportamiento del algoritmo de salida deseado. [16] [17] La ​​red cuántica, por tanto, "aprende" un algoritmo.

Memoria asociativa cuántica

El primer algoritmo de memoria asociativa cuántica fue introducido por Dan Ventura y Tony Martinez en 1999. [18] Los autores no intentan traducir la estructura de los modelos de redes neuronales artificiales a la teoría cuántica, sino que proponen un algoritmo para una computadora cuántica basada en circuitos que simula la memoria asociativa . Los estados de memoria (en las redes neuronales de Hopfield guardados en los pesos de las conexiones neuronales) se escriben en una superposición, y un algoritmo de búsqueda cuántica similar a Grover recupera el estado de memoria más cercano a una entrada dada. Como tal, esta no es una memoria completamente direccionable por contenido, ya que solo se pueden recuperar patrones incompletos.

La primera memoria cuántica verdaderamente direccionable por contenido, que puede recuperar patrones también de entradas corruptas, fue propuesta por Carlo A. Trugenberger. [19] [20] [21] Ambas memorias pueden almacenar una cantidad exponencial (en términos de n qubits) de patrones, pero pueden usarse solo una vez debido al teorema de no clonación y su destrucción tras la medición.

Trugenberger, [20] sin embargo, ha demostrado que su modelo probabilístico de memoria asociativa cuántica se puede implementar de manera eficiente y reutilizar múltiples veces para cualquier número polinomial de patrones almacenados, una gran ventaja con respecto a las memorias asociativas clásicas.

Redes neuronales clásicas inspiradas en la teoría cuántica

Se ha prestado un gran interés a un modelo “inspirado en la teoría cuántica” que utiliza ideas de la teoría cuántica para implementar una red neuronal basada en lógica difusa . [22]

Capacitación

Las redes neuronales cuánticas se pueden entrenar teóricamente de manera similar al entrenamiento de redes neuronales clásicas/artificiales. Una diferencia clave radica en la comunicación entre las capas de una red neuronal. Para las redes neuronales clásicas, al final de una operación dada, el perceptrón actual copia su salida a la siguiente capa de perceptrones en la red. Sin embargo, en una red neuronal cuántica, donde cada perceptrón es un cúbit, esto violaría el teorema de no clonación . [6] [23] Una solución generalizada propuesta para esto es reemplazar el método de abanico clásico con un unitario arbitrario que extiende, pero no copia, la salida de un cúbit a la siguiente capa de cúbits. Usando este abanico Unitario ( ) con un cúbit de estado ficticio en un estado conocido (Ej. en la base computacional ), también conocido como bit Ancilla , la información del cúbit se puede transferir a la siguiente capa de cúbits. [7] Este proceso se adhiere al requisito de operación cuántica de reversibilidad . [7] [24]

Utilizando esta red cuántica de propagación hacia adelante, las redes neuronales profundas pueden ejecutarse y entrenarse de manera eficiente. Una red neuronal profunda es esencialmente una red con muchas capas ocultas, como se ve en la red neuronal del modelo de muestra anterior. Dado que la red neuronal cuántica que se analiza utiliza operadores unitarios en abanico, y cada operador solo actúa sobre su entrada respectiva, solo se utilizan dos capas en un momento dado. [6] En otras palabras, ningún operador unitario actúa sobre toda la red en un momento dado, lo que significa que la cantidad de cúbits necesarios para un paso determinado depende de la cantidad de entradas en una capa determinada. Dado que las computadoras cuánticas son conocidas por su capacidad de ejecutar múltiples iteraciones en un corto período de tiempo, la eficiencia de una red neuronal cuántica depende únicamente de la cantidad de cúbits en una capa determinada, y no de la profundidad de la red. [24]

Funciones de costos

Para determinar la efectividad de una red neuronal, se utiliza una función de costo, que mide esencialmente la proximidad de la salida de la red a la salida esperada o deseada. En una red neuronal clásica, los pesos ( ) y los sesgos ( ) en cada paso determinan el resultado de la función de costo . [6] Al entrenar una red neuronal clásica, los pesos y los sesgos se ajustan después de cada iteración, y dada la ecuación 1 a continuación, donde  es la salida deseada y  es la salida real, la función de costo se optimiza cuando = 0. Para una red neuronal cuántica, la función de costo se determina midiendo la fidelidad del estado del resultado ( ) con el estado del resultado deseado ( ), visto en la ecuación 2 a continuación. En este caso, los operadores unitarios se ajustan después de cada iteración, y la función de costo se optimiza cuando C = 1. [6]

Ecuación 1
Ecuación 2

Mesetas estériles

El problema de la meseta estéril se vuelve cada vez más grave a medida que se expande la VQA
Mesetas áridas de VQA [25] La figura muestra que el problema de las mesetas áridas se torna cada vez más grave a medida que VQA se expande.

El descenso de gradiente se utiliza ampliamente y con éxito en algoritmos clásicos. Sin embargo, aunque la estructura simplificada es muy similar a las redes neuronales como las CNN, las QNN tienen un rendimiento mucho peor.

Dado que el espacio cuántico se expande exponencialmente a medida que crece el q-bit, las observaciones se concentrarán alrededor del valor medio a una tasa exponencial, donde también tendrán gradientes exponencialmente pequeños. [26]

Esta situación se conoce como mesetas estériles, porque la mayoría de los parámetros iniciales están atrapados en una "meseta" de gradiente casi nulo, que se aproxima a un vagabundeo aleatorio [26] en lugar de un descenso de gradiente. Esto hace que el modelo no se pueda entrenar.

De hecho, no solo QNN, sino casi todos los algoritmos VQA más profundos tienen este problema. En la era NISQ actual, este es uno de los problemas que se deben resolver si se quieren hacer más aplicaciones de los diversos algoritmos VQA, incluido QNN.

Véase también

Referencias

  1. ^ Kak, S. (1995). "Sobre computación neuronal cuántica". Avances en imágenes y física electrónica . 94 : 259–313. doi :10.1016/S1076-5670(08)70147-2. ISBN 9780120147366.
  2. ^ Chrisley, R. (1995). "Aprendizaje cuántico". En Pylkkänen, P.; Pylkkö, P. (eds.). Nuevas direcciones en la ciencia cognitiva: Actas del simposio internacional, Saariselka, 4-9 de agosto de 1995, Laponia, Finlandia . Helsinki: Asociación Finlandesa de Inteligencia Artificial. págs. 77-89. ISBN 951-22-2645-6.
  3. ^ da Silva, Adenilton J.; Ludermir, Teresa B.; de Oliveira, Wilson R. (2016). "Perceptrón cuántico sobre un campo y selección de arquitectura de red neuronal en una computadora cuántica". Redes neuronales . 76 : 55–64. arXiv : 1602.00709 . Bibcode :2016arXiv160200709D. doi :10.1016/j.neunet.2016.01.002. PMID  26878722. S2CID  15381014.
  4. ^ Panella, Massimo; Martinelli, Giuseppe (2011). "Redes neuronales con arquitectura cuántica y aprendizaje cuántico". Revista internacional de teoría de circuitos y aplicaciones . 39 : 61–77. doi :10.1002/cta.619. S2CID  3791858.
  5. ^ Schuld, M.; Sinayskiy, I.; Petruccione, F. (2014). "La búsqueda de una red neuronal cuántica". Procesamiento de información cuántica . 13 (11): 2567–2586. arXiv : 1408.7005 . Bibcode :2014QuIP...13.2567S. doi :10.1007/s11128-014-0809-8. S2CID  37238534.
  6. ^ abcdef Beer, Kerstin; Bondarenko, Dmytro; Farrelly, Terry; Osborne, Tobias J.; Salzmann, Robert; Scheiermann, Daniel; Wolf, Ramona (10 de febrero de 2020). "Entrenamiento de redes neuronales cuánticas profundas". Nature Communications . 11 (1): 808. arXiv : 1902.10445 . Código Bibliográfico :2020NatCo..11..808B. doi :10.1038/s41467-020-14454-2. ISSN  2041-1723. PMC 7010779 . PMID  32041956. 
  7. ^ abcd Wan, Kwok-Ho; Dahlsten, Oscar; Kristjansson, Hler; Gardner, Robert; Kim, Myungshik (2017). "Generalización cuántica de redes neuronales de propagación hacia adelante". npj Quantum Information . 3 : 36. arXiv : 1612.01045 . Bibcode :2017npjQI...3...36W. doi :10.1038/s41534-017-0032-4. S2CID  51685660.
  8. ^ Perus, M. (2000). "Redes neuronales como base para la memoria asociativa cuántica". Neural Network World . 10 (6): 1001. CiteSeerX 10.1.1.106.4583 . 
  9. ^ Zak, M.; Williams, CP (1998). "Redes neuronales cuánticas". Revista internacional de física teórica . 37 (2): 651–684. doi :10.1023/A:1026656110699. S2CID  55783801.
  10. ^ Gupta, Sanjay; Zia, RKP (2001). "Redes neuronales cuánticas". Revista de ciencias de la computación y de sistemas . 63 (3): 355–383. arXiv : quant-ph/0201144 . doi :10.1006/jcss.2001.1769. S2CID  206569020.
  11. ^ Faber, J.; Giraldi, GA (2002). "Modelos cuánticos para redes neuronales artificiales".
  12. ^ Schuld, M.; Sinayskiy, I.; Petruccione, F. (2014). "Simulación de un perceptrón en una computadora cuántica". Physics Letters A . 379 (7): 660–663. arXiv : 1412.3635 . doi :10.1016/j.physleta.2014.11.061. S2CID  14288234.
  13. ^ Narayanan, A.; Menneer, T. (2000). "Arquitecturas y componentes de redes neuronales artificiales cuánticas". Ciencias de la información . 128 (3–4): 231–255. doi :10.1016/S0020-0255(00)00055-4. S2CID  10901562.
  14. ^ Ghosh, S.; Opala, A.; Matuszewski, M.; Paterek, P.; Liew, TCH (2019). "Procesamiento cuántico de yacimientos". npj Quantum Information . 5 : 35. arXiv : 1811.10335 . Código Bibliográfico :2019npjQI...5...35G. doi :10.1038/s41534-019-0149-8. S2CID  119197635.
  15. ^ Neven, H.; et al. (2008). "Entrenamiento de un clasificador binario con el algoritmo adiabático cuántico". arXiv : 0811.0416 [quant-ph].
  16. ^ Bang, J.; et al. (2014). "Una estrategia para el diseño de algoritmos cuánticos asistidos por aprendizaje automático". New Journal of Physics . 16 (7): 073017. arXiv : 1301.1132 . Bibcode :2014NJPh...16g3017B. doi :10.1088/1367-2630/16/7/073017. S2CID  55377982.
  17. ^ Behrman, EC; Steck, JE; Kumar, P.; Walsh, KA (2008). "Diseño de algoritmos cuánticos mediante aprendizaje dinámico". Información y computación cuántica . 8 (1–2): 12–29. arXiv : 0808.1558 . doi :10.26421/QIC8.1-2-2. S2CID  18587557.
  18. ^ Ventura, D.; Martínez, T. (1999). "Una memoria asociativa cuántica basada en el algoritmo de Grover" (PDF) . Redes neuronales artificiales y algoritmos genéticos . pp. 22–27. doi :10.1007/978-3-7091-6384-9_5. ISBN . 978-3-211-83364-3. S2CID  3258510. Archivado desde el original (PDF) el 11 de septiembre de 2017.
  19. ^ Trugenberger, CA (18 de julio de 2001). "Memorias cuánticas probabilísticas". Physical Review Letters . 87 (6): 067901. arXiv : quant-ph/0012100 . Código Bibliográfico :2001PhRvL..87f7901T. doi :10.1103/physrevlett.87.067901. ISSN  0031-9007. PMID  11497863. S2CID  23325931.
  20. ^ ab Trugenberger, Carlo A. (2002). "Reconocimiento de patrones cuánticos". Procesamiento de información cuántica . 1 (6): 471–493. arXiv : quant-ph/0210176 . Código Bib : 2002QuiP....1..471T. doi :10.1023/A:1024022632303. S2CID  1928001.
  21. ^ Trugenberger, CA (19 de diciembre de 2002). "Transiciones de fase en el reconocimiento de patrones cuánticos". Physical Review Letters . 89 (27): 277903. arXiv : quant-ph/0204115 . Código Bibliográfico :2002PhRvL..89A7903T. doi :10.1103/physrevlett.89.277903. ISSN  0031-9007. PMID  12513243. S2CID  33065081.
  22. ^ Purushothaman, G.; Karayiannis, N. (1997). "Redes neuronales cuánticas (QNN): redes neuronales de propagación hacia adelante inherentemente difusas" (PDF) . IEEE Transactions on Neural Networks . 8 (3): 679–93. doi :10.1109/72.572106. PMID  18255670. S2CID  1634670. Archivado desde el original (PDF) el 2017-09-11.
  23. ^ Nielsen, Michael A; Chuang, Isaac L (2010). Computación cuántica e información cuántica. Cambridge; Nueva York: Cambridge University Press. ISBN 978-1-107-00217-3.OCLC 665137861  .
  24. ^ ab Feynman, Richard P. (1986-06-01). "Computadoras mecánicas cuánticas". Fundamentos de la física . 16 (6): 507–531. Bibcode :1986FoPh...16..507F. doi :10.1007/BF01886518. ISSN  1572-9516. S2CID  122076550.
  25. ^ Wang, Sansón; Fontana, Enrico; Cerezo, M.; Sharma, Kunal; Hijo, Akira; Cincio, Lukasz; Coles, Patrick J. (29 de noviembre de 2021). "Mesetas estériles inducidas por ruido en algoritmos cuánticos variacionales". Comunicaciones de la naturaleza . 12 (1): 6961. arXiv : 2007.14384 . Código Bib : 2021NatCo..12.6961W. doi :10.1038/s41467-021-27045-6. ISSN  2041-1723. PMC 8630047 . PMID  34845216. 
  26. ^ ab McClean, Jarrod R.; Boixo, Sergio; Smelyanskiy, Vadim N.; Babbush, Ryan; Neven, Hartmut (16 de noviembre de 2018). "Mesetas estériles en paisajes de entrenamiento de redes neuronales cuánticas". Nature Communications . 9 (1): 4812. arXiv : 1803.11173 . Bibcode :2018NatCo...9.4812M. doi :10.1038/s41467-018-07090-4. ISSN  2041-1723. PMC 6240101 . PMID  30446662. 

Enlaces externos