El almacenamiento de datos digitales de ADN es el proceso de codificación y decodificación de datos binarios hacia y desde cadenas sintetizadas de ADN . [1] [2]
Si bien el ADN como medio de almacenamiento tiene un potencial enorme debido a su alta densidad de almacenamiento, su uso práctico actualmente está muy limitado debido a su alto costo y a sus tiempos de lectura y escritura muy lentos. [3]
En junio de 2019, los científicos informaron que los 16 GB de texto de la Wikipedia en inglés se habían codificado en ADN sintético . [4] En 2021, los científicos informaron que se había desarrollado un escritor de datos de ADN personalizado que era capaz de escribir datos en ADN a 1 Mbps. [5]
Existen muchos métodos para codificar datos en el ADN. Los métodos óptimos son aquellos que hacen un uso económico del ADN y protegen contra errores. [6] Si se pretende almacenar el ADN mensaje durante un largo período de tiempo, por ejemplo, 1.000 años, también es útil que la secuencia sea claramente artificial y que el marco de lectura sea fácil de identificar. [6]
Se han propuesto varios métodos sencillos para codificar texto. La mayoría de ellos implican la traducción de cada letra en un "codón" correspondiente, que consiste en una pequeña secuencia única de nucleótidos en una tabla de búsqueda . Algunos ejemplos de estos esquemas de codificación incluyen códigos de Huffman , códigos de coma y códigos alternados. [6]
Para codificar datos arbitrarios en el ADN, los datos se convierten primero en datos ternarios (base 3) en lugar de datos binarios (base 2). Luego, cada dígito (o "trit") se convierte en un nucleótido mediante una tabla de búsqueda. Para evitar homopolímeros (nucleótidos repetidos), que pueden causar problemas con la secuenciación precisa, el resultado de la búsqueda también depende del nucleótido anterior. Usando la tabla de búsqueda de ejemplo a continuación, si el nucleótido anterior en la secuencia es T ( timina ), y el trit es 2, el siguiente nucleótido será G ( guanina ). [7] [8]
Se pueden incorporar diversos sistemas para dividir y direccionar los datos, así como para protegerlos de errores. Un enfoque para la corrección de errores es intercalar regularmente nucleótidos de sincronización entre los nucleótidos que codifican la información. Estos nucleótidos de sincronización pueden actuar como andamios al reconstruir la secuencia a partir de múltiples cadenas superpuestas. [8]
El código genético de los organismos vivos puede ser potencialmente cooptado para almacenar información. Además, la biología sintética puede utilizarse para diseñar células con "registradores moleculares" que permitan el almacenamiento y la recuperación de la información almacenada en el material genético de la célula. [1] La edición genética CRISPR también puede utilizarse para insertar secuencias de ADN artificiales en el genoma de la célula. [1] Para codificar datos de linaje de desarrollo (registrador molecular de vuelo), aproximadamente 30 billones de núcleos celulares por ratón * 60 sitios de registro por núcleo * 7-15 bits por sitio producen aproximadamente 2 TeraBytes por ratón escritos (pero solo leídos de forma muy selectiva). [9]
Se demostró un sistema de registro directo de datos de ADN in vivo de prueba de concepto mediante la incorporación de recombinasas reguladas optogenéticamente como parte de un "grabador molecular" diseñado que permite la codificación directa de estímulos basados en luz en células de E. coli diseñadas . [10] Este enfoque también se puede paralelizar para almacenar y escribir texto o datos en formato de 8 bits mediante el uso de cultivos celulares individuales separados físicamente en placas de cultivo celular.
Este enfoque aprovecha la edición de un " plásmido registrador " por las recombinasas reguladas por la luz, lo que permite la identificación de poblaciones celulares expuestas a diferentes estímulos. Este enfoque permite que el estímulo físico se codifique directamente en el "plásmido registrador" a través de la acción de la recombinasa. A diferencia de otros enfoques, este enfoque no requiere el diseño, la inserción y la clonación manuales de secuencias artificiales para registrar los datos en el código genético. En este proceso de registro, cada población celular individual en cada pocillo de cultivo de la placa de cultivo celular puede tratarse como un "bit" digital, que funciona como un transistor biológico capaz de registrar un solo bit de datos.
La idea del almacenamiento de datos digitales de ADN se remonta a 1959, cuando el físico Richard P. Feynman , en "Hay mucho espacio en el fondo: una invitación a entrar en un nuevo campo de la física", esbozó las perspectivas generales para la creación de objetos artificiales similares a los objetos del microcosmos (incluidos los biológicos) y que tuvieran capacidades similares o incluso más amplias. [11] En 1964-65, Mikhail Samoilovich Neiman , el físico soviético, publicó 3 artículos sobre la microminiaturización en electrónica a nivel atómico-molecular, que presentaban de forma independiente consideraciones generales y algunos cálculos sobre la posibilidad de registro, almacenamiento y recuperación de información sobre moléculas de ADN y ARN sintetizadas. [12] [13] [14] Después de la publicación del primer artículo de MS Neiman y después de recibir por parte del editor el manuscrito de su segundo artículo (el 8 de enero de 1964, como se indica en dicho artículo) se publicó la entrevista con el cibernético Norbert Wiener . [15] N. Wiener expresó ideas sobre la miniaturización de la memoria de la computadora, cercanas a las ideas propuestas por MS Neiman de forma independiente. Estas ideas de Wiener fueron mencionadas por MS Neiman en el tercero de sus artículos. Esta historia se describe en detalle. [16]
Uno de los primeros usos del almacenamiento de ADN se produjo en 1988 en una colaboración entre el artista Joe Davis e investigadores de la Universidad de Harvard . La imagen, almacenada en una secuencia de ADN en E. coli , se organizó en una matriz de 5 x 7 que, una vez decodificada, formó una imagen de una antigua runa germánica que representaba la vida y la Tierra femenina. En la matriz, los unos correspondían a píxeles oscuros, mientras que los ceros correspondían a píxeles claros. [17]
En 2007, en la Universidad de Arizona se creó un dispositivo que utilizaba moléculas de direccionamiento para codificar los sitios de desajuste dentro de una cadena de ADN. Estos desajustes se podían leer luego mediante una digestión de restricción, recuperando así los datos. [18]
En 2011, George Church, Sri Kosuri y Yuan Gao llevaron a cabo un experimento para codificar un libro de 659 kb escrito en coautoría con Church. Para ello, el equipo de investigación realizó una correspondencia de dos a uno en la que un cero binario estaba representado por una adenina o una citosina y un uno binario estaba representado por una guanina o una timina. Después del examen, se encontraron 22 errores en el ADN. [17]
En 2012, George Church y sus colegas de la Universidad de Harvard publicaron un artículo en el que se codificaba el ADN con información digital que incluía un borrador HTML de un libro de 53.400 palabras escrito por el investigador principal, once imágenes JPEG y un programa JavaScript . Se añadieron varias copias para redundancia y se pueden almacenar 5,5 petabits en cada milímetro cúbico de ADN. [19] Los investigadores utilizaron un código simple en el que los bits se asignaban uno a uno con las bases, [ aclaración necesaria ] que tenía el defecto de que conducía a largas ejecuciones de la misma base, cuya secuenciación es propensa a errores. Este resultado mostró que, además de sus otras funciones, el ADN también puede ser otro tipo de medio de almacenamiento, como unidades de disco duro y cintas magnéticas . [20]
En 2013, un artículo dirigido por investigadores del Instituto Europeo de Bioinformática (EBI) y presentado aproximadamente al mismo tiempo que el artículo de Church y sus colegas detallaba el almacenamiento, la recuperación y la reproducción de más de cinco millones de bits de datos. Todos los archivos de ADN reproducían la información con una precisión de entre el 99,99% y el 100%. [21] Las principales innovaciones de esta investigación fueron el uso de un esquema de codificación con corrección de errores para garantizar una tasa de pérdida de datos extremadamente baja, así como la idea de codificar los datos en una serie de oligonucleótidos cortos superpuestos identificables a través de un esquema de indexación basado en secuencias. [20] Además, las secuencias de las hebras individuales de ADN se superponían de tal manera que cada región de datos se repetía cuatro veces para evitar errores. Dos de estas cuatro hebras se construyeron al revés, también con el objetivo de eliminar errores. [21] Los costos por megabyte se estimaron en 12.400 dólares para codificar los datos y 220 dólares para la recuperación. Sin embargo, se observó que la disminución exponencial de los costos de síntesis y secuenciación de ADN, si continúa en el futuro, debería hacer que la tecnología sea rentable para el almacenamiento de datos a largo plazo para 2023. [20]
En 2013, Manish K. Gupta y sus colaboradores desarrollaron un software llamado DNACloud para codificar archivos informáticos en su representación de ADN. Implementa una versión de eficiencia de memoria del algoritmo propuesto por Goldman et al. para codificar (y decodificar) datos en ADN (archivos .dnac). [22] [23]
En febrero de 2015, investigadores de la ETH de Zúrich informaron sobre la estabilidad a largo plazo de los datos codificados en ADN . El equipo añadió redundancia mediante la codificación de corrección de errores Reed-Solomon y encapsulando el ADN dentro de esferas de vidrio de sílice mediante la química sol-gel . [24]
En 2016 se publicó una investigación de Church y Technicolor Research and Innovation en la que se almacenaron y recuperaron 22 MB de una secuencia de película comprimida en formato MPEG a partir de ADN. Se descubrió que la recuperación de la secuencia no tenía ningún error. [25]
En marzo de 2017, Yaniv Erlich y Dina Zielinski, de la Universidad de Columbia y el Centro Genómico de Nueva York, publicaron un método conocido como DNA Fountain, que almacenaba datos a una densidad de 215 petabytes por gramo de ADN. La técnica se acerca a la capacidad de almacenamiento de ADN de Shannon, alcanzando el 85% del límite teórico. El método no estaba listo para su uso a gran escala, ya que cuesta 7000 dólares sintetizar 2 megabytes de datos y otros 2000 dólares leerlos. [26] [27] [28]
En marzo de 2018, la Universidad de Washington y Microsoft publicaron resultados que demostraban el almacenamiento y la recuperación de aproximadamente 200 MB de datos. La investigación también propuso y evaluó un método para el acceso aleatorio a elementos de datos almacenados en ADN. [29] [30] En marzo de 2019, el mismo equipo anunció que había demostrado un sistema completamente automatizado para codificar y decodificar datos en ADN. [31]
Una investigación publicada por Eurecom y el Imperial College en enero de 2019 demostró la capacidad de almacenar datos estructurados en ADN sintético. La investigación mostró cómo codificar datos estructurados o, más específicamente, datos relacionales en ADN sintético y también demostró cómo realizar operaciones de procesamiento de datos (similares a SQL ) directamente en el ADN como procesos químicos. [32] [33]
En abril de 2019, gracias a una colaboración con TurboBeads Labs en Suiza, Mezzanine de Massive Attack se codificó en ADN sintético, convirtiéndose en el primer álbum almacenado de esta manera. [34]
En junio de 2019, los científicos informaron que los 16 GB de Wikipedia se habían codificado en ADN sintético. [4] En 2021, CATALOG informó que habían desarrollado un escritor de ADN personalizado capaz de escribir datos a 1 Mbps en ADN. [5]
El primer artículo que describe el almacenamiento de datos en secuencias de ADN nativas mediante corte enzimático se publicó en abril de 2020. En el artículo, los científicos demuestran un nuevo método de registro de información en la estructura principal del ADN que permite el acceso aleatorio bit a bit y la computación en memoria. [35]
En 2021, un equipo de investigación de la Universidad de Newcastle dirigido por N. Krasnogor implementó una estructura de datos de pila utilizando ADN, lo que permite el registro y la recuperación de datos de último en entrar, primero en salir (LIFO). Su enfoque utilizó la hibridación y el desplazamiento de hebras para registrar señales de ADN en polímeros de ADN, que luego se liberaron en orden inverso. El estudio demostró que las operaciones similares a las estructuras de datos son posibles en el ámbito molecular. Los investigadores también exploraron las limitaciones y las futuras mejoras de las estructuras de datos de ADN dinámicas, destacando el potencial de los sistemas computacionales basados en ADN. [36]
El 21 de enero de 2015, Nick Goldman del Instituto Europeo de Bioinformática (EBI), uno de los autores originales del artículo de 2013 en Nature , [21] anunció el Davos Bitcoin Challenge en la reunión anual del Foro Económico Mundial en Davos. [37] [38] Durante su presentación, se entregaron tubos de ADN a la audiencia, con el mensaje de que cada tubo contenía la clave privada de exactamente un bitcoin , todo codificado en ADN. El primero en secuenciar y decodificar el ADN podría reclamar el bitcoin y ganar el desafío. El desafío se estableció por tres años y se cerraría si nadie reclamaba el premio antes del 21 de enero de 2018. [38]
Casi tres años después, el 19 de enero de 2018, el EBI anunció que un estudiante de doctorado belga, Sander Wuyts, de la Universidad de Amberes y la Vrije Universiteit Brussel , fue el primero en completar el desafío. [39] [40] Junto a las instrucciones sobre cómo reclamar el bitcoin (almacenadas como un texto sin formato y un archivo PDF ), se recuperaron del ADN el logotipo del EBI, el logotipo de la empresa que imprimió el ADN (CustomArray) y un boceto de James Joyce . [41]
La Biblioteca Lunar, lanzada en el módulo de aterrizaje Beresheet por la Arch Mission Foundation , contiene información codificada en ADN, que incluye 20 libros famosos y 10.000 imágenes. Esta era una de las opciones óptimas de almacenamiento, ya que el ADN puede durar mucho tiempo. La Arch Mission Foundation sugiere que aún se puede leer después de miles de millones de años. [42] El módulo de aterrizaje se estrelló el 11 de abril de 2019 y se perdió. [43]
El concepto de ADN de las cosas (DoT) fue introducido en 2019 por un equipo de investigadores de Israel y Suiza, entre ellos Yaniv Erlich y Robert Grass. [44] [45] [46] DoT codifica datos digitales en moléculas de ADN, que luego se incrustan en objetos. Esto brinda la capacidad de crear objetos que llevan su propio plano, similar a los organismos biológicos. A diferencia de Internet de las cosas , que es un sistema de dispositivos informáticos interrelacionados, DoT crea objetos que son objetos de almacenamiento independientes, completamente fuera de la red .
Como prueba de concepto de DoT, el investigador imprimió en 3D un conejo de Stanford que contiene su plano en el filamento de plástico utilizado para la impresión. Al cortar un trocito de la oreja del conejo, pudieron leer el plano, multiplicarlo y producir una nueva generación de conejos. Además, la capacidad de DoT para servir con fines esteganográficos se demostró mediante la producción de lentes no distinguibles que contienen un vídeo de YouTube integrado en el material.