U-Net es una red neuronal convolucional que se desarrolló para la segmentación de imágenes . [1] La red se basa en una red neuronal completamente convolucional [2] cuya arquitectura se modificó y amplió para trabajar con menos imágenes de entrenamiento y para producir una segmentación más precisa . La segmentación de una imagen de 512 × 512 toma menos de un segundo en una GPU moderna (2015) que utiliza la arquitectura U-Net. [1] [3] [4] [5]
La arquitectura U-Net también se ha empleado en modelos de difusión para la eliminación iterativa de ruido de imágenes. [6] Esta tecnología es la base de muchos modelos modernos de generación de imágenes, como DALL-E , Midjourney y Stable Diffusion .
Descripción
La arquitectura U-Net se deriva de la denominada "red totalmente convolucional". [2]
La idea principal es complementar una red de contracción habitual con capas sucesivas, donde las operaciones de agrupamiento se sustituyen por operadores de sobremuestreo . Por tanto, estas capas aumentan la resolución de la salida. Una capa convolucional sucesiva puede entonces aprender a ensamblar una salida precisa en función de esta información. [1]
Una modificación importante en U-Net es que hay una gran cantidad de canales de características en la parte de sobremuestreo, lo que permite que la red propague información de contexto a capas de mayor resolución. Como consecuencia, la ruta expansiva es más o menos simétrica a la parte contráctil y produce una arquitectura en forma de U. La red solo utiliza la parte válida de cada convolución sin ninguna capa completamente conectada. [2] Para predecir los píxeles en la región del borde de la imagen, el contexto faltante se extrapola reflejando la imagen de entrada. Esta estrategia de mosaico es importante para aplicar la red a imágenes grandes, ya que de lo contrario la resolución estaría limitada por la memoria de la GPU .
Arquitectura de red
La red consta de un camino de contracción y un camino de expansión, lo que le da la arquitectura en forma de U. El camino de contracción es una red convolucional típica que consiste en la aplicación repetida de convoluciones , cada una seguida de una unidad lineal rectificada (ReLU) y una operación de agrupación máxima . Durante la contracción, la información espacial se reduce mientras que la información de las características aumenta. El camino de expansión combina la información espacial y de las características a través de una secuencia de convoluciones ascendentes y concatenaciones con características de alta resolución del camino de contracción. [7]
Aplicaciones
Existen muchas aplicaciones de U-Net en la segmentación de imágenes biomédicas , como la segmentación de imágenes cerebrales ("BRATS" [8] ) y la segmentación de imágenes hepáticas ("siliver07" [9] ), así como la predicción de sitios de unión de proteínas. [10] Las implementaciones de U-Net también han encontrado uso en las ciencias físicas, por ejemplo en el análisis de micrografías de materiales. [11] [12] [13] También se han aplicado variaciones de U-Net para la reconstrucción de imágenes médicas. [14] A continuación, se presentan algunas variantes y aplicaciones de U-Net:
Regresión píxel por píxel utilizando U-Net y su aplicación en el enfoque pan-sharpening; [15]
3D U-Net: aprendizaje de la segmentación volumétrica densa a partir de anotaciones dispersas; [16]
TernausNet: U-Net con codificador VGG11 preentrenado en ImageNet para segmentación de imágenes. [17]
Traducción de imagen a imagen para estimar manchas fluorescentes [18]
En la predicción del sitio de unión de la estructura de la proteína. [10]
Historia
U-Net fue creado por Olaf Ronneberger, Philipp Fischer y Thomas Brox en 2015 y se informó sobre él en el artículo "U-Net: redes convolucionales para la segmentación de imágenes biomédicas". [1] Es una mejora y desarrollo de FCN: Evan Shelhamer, Jonathan Long, Trevor Darrell (2014). "Redes totalmente convolucionales para la segmentación semántica". [2]
Referencias
^ abcd Ronneberger O, Fischer P, Brox T (2015). "U-Net: Redes convolucionales para segmentación de imágenes biomédicas". arXiv : 1505.04597 [cs.CV].
^ abcd Shelhamer E, Long J, Darrell T (noviembre de 2014). "Redes totalmente convolucionales para segmentación semántica". IEEE Transactions on Pattern Analysis and Machine Intelligence . 39 (4): 640–651. arXiv : 1411.4038 . doi :10.1109/TPAMI.2016.2572683. PMID 27244717. S2CID 1629541.
^ Nazem, Fatemeh; Ghasemi, Fahimeh; Fassihi, Afshin; Mehri Dehnavi, Alireza (2021). "3D U-Net: un método basado en vóxeles para la predicción del sitio de unión de la estructura de las proteínas". Revista de bioinformática y biología computacional . 19 (2). doi :10.1142/S0219720021500062. PMID 33866960.
^ Nazem, Fatemeh; Ghasemi, Fahimeh; Fassihi, Afshin; Mehri Dehnavi, Alireza (2023). "Una arquitectura basada en GU-Net que predice átomos de unión a proteína-ligando". Revista de señales y sensores médicos . 13 (1): 1–10. doi : 10.4103/jmss.jmss_142_21 . PMC 10246592 . PMID 37292445.
^ Nazem, Fatemeh; Ghasemi, Fahimeh; Fassihi, Afshin; Mehri Dehnavi, Alireza (2024). "Red de atención profunda para identificar sitios de unión de ligando-proteína". Revista de Ciencias Computacionales . 81 . doi :10.1016/j.jocs.2024.102368.
^ Ho, Jonathan (2020). "Modelos probabilísticos de difusión para eliminar ruido". arXiv : 2006.11239 [cs.LG].
^ "Código U-Net".
^ "MICCAI BraTS 2017: Alcance | Sección de Análisis de Imágenes Biomédicas (SBIA) | Facultad de Medicina Perelman de la Universidad de Pensilvania". www.med.upenn.edu . Consultado el 24 de diciembre de 2018 .
^ "SLIVER07: Inicio". www.sliver07.org . Consultado el 24 de diciembre de 2018 .
^ ab Nazem F, Ghasemi F, Fassihi A, Dehnavi AM (abril de 2021). "3D U-Net: un método basado en vóxeles para la predicción del sitio de unión de la estructura de las proteínas". Revista de bioinformática y biología computacional . 19 (2): 2150006. doi :10.1142/S0219720021500062. PMID 33866960. S2CID 233300145.
^ Chen, Fu-Xiang Rikudo; Lin, Chia-Yu; Siao, Hui-Ying; Jian, Cheng-Yuan; Yang, Yong-Cheng; Lin, Chun-Liang (14 de febrero de 2023). "Marco de detección de defectos atómicos basado en aprendizaje profundo para materiales bidimensionales". Datos científicos . 10 (1): 91. Código bibliográfico : 2023NatSD..10...91C. doi :10.1038/s41597-023-02004-6. ISSN 2052-4463. PMC 9929095 . PMID 36788235.
^ Shi, Peng; Duan, Mengmeng; Yang, Lifang; Feng, Wei; Ding, Lianhong; Jiang, Liwu (2022-06-22). "Un método de segmentación de imágenes U-Net mejorado y su aplicación para estadísticas de tamaño de grano metálico". Materiales . 15 (13): 4417. Bibcode :2022Mate...15.4417S. doi : 10.3390/ma15134417 . ISSN 1996-1944. PMC 9267311 . PMID 35806543.
^ Patrick, Matthew J; Eckstein, James K; Lopez, Javier R; Toderas, Silvia; Asher, Sarah A; Whang, Sylvia I; Levine, Stacey; Rickman, Jeffrey M; Barmak, Katayun (15 de noviembre de 2023). "Detección automatizada de límites de grano para imágenes de microscopía electrónica de transmisión de campo brillante a través de U-Net". Microscopía y microanálisis . 29 (6): 1968–1979. arXiv : 2312.09392 . doi : 10.1093/micmic/ozad115 . ISSN 1431-9276. PMID 37966960.
^ Andersson J, Ahlström H, Kullberg J (septiembre de 2019). "Separación de la señal de agua y grasa en ecografías de gradiente de cuerpo entero utilizando redes neuronales convolucionales". Resonancia magnética en medicina . 82 (3): 1177–1186. doi :10.1002/mrm.27786. PMC 6618066 . PMID 31033022.
^ Yao W, Zeng Z, Lian C, Tang H (27 de octubre de 2018). "Regresión por píxel usando U-Net y su aplicación en pansharpening". Neurocomputing . 312 : 364–371. doi :10.1016/j.neucom.2018.05.103. ISSN 0925-2312. S2CID 207119255.
^ Çiçek Ö, Abdulkadir A, Lienkamp SS, Brox T, Ronneberger O (2016). "3D U-Net: aprendizaje de segmentación volumétrica densa a partir de anotaciones dispersas". arXiv : 1606.06650 [cs.CV].
^ Iglovikov V, Shvets A (2018). "TernausNet: U-Net con codificador VGG11 preentrenado en ImageNet para segmentación de imágenes". arXiv : 1801.05746 [cs.CV].
^ Kandel ME, He YR, Lee YJ, Chen TH, Sullivan KM, Aydin O, et al. (diciembre de 2020). "Imágenes de fase con especificidad computacional (PICS) para medir cambios de masa seca en compartimentos subcelulares". Nature Communications . 11 (1): 6256. arXiv : 2002.08361 . Bibcode :2020NatCo..11.6256K. doi :10.1038/s41467-020-20062-x. PMC 7721808 . PMID 33288761.
Implementaciones
Tensorflow Unet de J. Akeret (2017)
Código fuente de U-Net del Departamento de Reconocimiento de Patrones y Procesamiento de Imágenes de la Universidad de Friburgo, Alemania.