El almacenamiento de datos digitales de ADN es el proceso de codificar y decodificar datos binarios hacia y desde hebras sintetizadas de ADN . [1] [2]
Si bien el ADN como medio de almacenamiento tiene un enorme potencial debido a su alta densidad de almacenamiento, su uso práctico está actualmente muy limitado debido a su alto costo y tiempos de lectura y escritura muy lentos. [3]
En junio de 2019, los científicos informaron que los 16 GB de texto de la Wikipedia en inglés habían sido codificados en ADN sintético . [4] En 2021, los científicos informaron que se había desarrollado un escritor de datos de ADN personalizado que era capaz de escribir datos en ADN a 1 Mbps. [5]
Son posibles muchos métodos para codificar datos en el ADN. Los métodos óptimos son aquellos que hacen un uso económico del ADN y protegen contra errores. [6] Si el mensaje de ADN está destinado a almacenarse durante un largo período de tiempo, por ejemplo, 1.000 años, también es útil si la secuencia es obviamente artificial y el marco de lectura es fácil de identificar. [6]
Se han propuesto varios métodos simples para codificar texto. La mayoría de ellos implican traducir cada letra a un "codón" correspondiente, que consiste en una pequeña secuencia única de nucleótidos en una tabla de búsqueda . Algunos ejemplos de estos esquemas de codificación incluyen códigos Huffman , códigos de coma y códigos alternos. [6]
Para codificar datos arbitrarios en el ADN, los datos normalmente se convierten primero en datos ternarios (base 3) en lugar de datos binarios (base 2). Luego, cada dígito (o "trit") se convierte en un nucleótido mediante una tabla de búsqueda. Para evitar homopolímeros (nucleótidos repetidos), que pueden causar problemas con una secuenciación precisa, el resultado de la búsqueda también depende del nucleótido anterior. Usando la tabla de búsqueda de ejemplo a continuación, si el nucleótido anterior en la secuencia es T ( timina ) y el trit es 2, el siguiente nucleótido será G ( guanina ). [7] [8]
Se podrán incorporar diversos sistemas para particionar y direccionar los datos, así como para protegerlos de errores. Un enfoque para la corrección de errores es intercalar periódicamente nucleótidos de sincronización entre los nucleótidos que codifican la información. Estos nucleótidos de sincronización pueden actuar como andamios al reconstruir la secuencia a partir de múltiples hebras superpuestas. [8]
El código genético dentro de los organismos vivos puede potencialmente ser cooptado para almacenar información. Además, la biología sintética se puede utilizar para diseñar células con "grabadores moleculares" que permitan el almacenamiento y la recuperación de información almacenada en el material genético de la célula. [1] La edición de genes CRISPR también se puede utilizar para insertar secuencias de ADN artificiales en el genoma de la célula. [1] Para codificar datos de linaje de desarrollo (registrador de vuelo molecular), aproximadamente 30 billones de núcleos celulares por ratón * 60 sitios de grabación por núcleo * 7-15 bits por sitio producen aproximadamente 2 TeraBytes por ratón escritos (pero solo leídos de manera muy selectiva). [9]
Se demostró una prueba de concepto de sistema de registro directo de datos de ADN in vivo mediante la incorporación de recombinasas reguladas optogenéticamente como parte de un "grabador molecular" diseñado que permite la codificación directa de estímulos basados en luz en células de E. coli diseñadas. [10] Este enfoque también se puede paralelizar para almacenar y escribir texto o datos en formato de 8 bits mediante el uso de cultivos celulares individuales físicamente separados en placas de cultivo celular.
Este enfoque aprovecha la edición de un " plásmido registrador " mediante recombinasas reguladas por luz, lo que permite la identificación de poblaciones de células expuestas a diferentes estímulos. Este enfoque permite que el estímulo físico se codifique directamente en el "plásmido registrador" mediante la acción de la recombinasa. A diferencia de otros enfoques, este enfoque no requiere diseño, inserción y clonación manual de secuencias artificiales para registrar los datos en el código genético. En este proceso de registro, cada población de células individuales en cada pocillo de cultivo en placa de cultivo celular puede tratarse como un "bit" digital, que funciona como un transistor biológico capaz de registrar un solo bit de datos.
La idea del almacenamiento digital de datos de ADN se remonta a 1959, cuando el físico Richard P. Feynman , en "Hay mucho espacio en el fondo: una invitación a entrar en un nuevo campo de la física", esbozó las perspectivas generales para la creación de objetos artificiales. similar a los objetos del microcosmos (incluidos los biológicos) y con capacidades similares o incluso más amplias. [11] En 1964-65, Mikhail Samoilovich Neiman , el físico soviético, publicó 3 artículos sobre la microminiaturización en electrónica a nivel atómico-molecular, que presentaban de forma independiente consideraciones generales y algunos cálculos sobre la posibilidad de registro, almacenamiento y recuperación de información. sobre moléculas de ADN y ARN sintetizadas. [12] [13] [14] Después de la publicación del primer artículo de MS Neiman y después de recibir por parte del editor el manuscrito de su segundo artículo (8 de enero de 1964, como se indica en ese artículo) se realizó la entrevista con el cibernético Norbert Wiener . publicado. [15] N. Wiener expresó ideas sobre la miniaturización de la memoria de la computadora, cercanas a las ideas propuestas por MS Neiman de forma independiente. Estas ideas de Wiener las menciona MS Neiman en el tercero de sus artículos. Esta historia se describe en detalle. [dieciséis]
Uno de los primeros usos del almacenamiento de ADN se produjo en una colaboración de 1988 entre el artista Joe Davis e investigadores de la Universidad de Harvard . La imagen, almacenada en una secuencia de ADN en E. coli , estaba organizada en una matriz de 5 x 7 que, una vez decodificada, formaba una imagen de una antigua runa germánica que representaba la vida y la Tierra femenina. En la matriz, los unos correspondían a píxeles oscuros mientras que los ceros correspondían a píxeles claros. [17]
En 2007, se creó un dispositivo en la Universidad de Arizona que utiliza moléculas de direccionamiento para codificar sitios que no coinciden dentro de una cadena de ADN. Luego, estas discrepancias se pudieron leer realizando un resumen de restricción, recuperando así los datos. [18]
En 2011, George Church, Sri Kosuri y Yuan Gao llevaron a cabo un experimento que codificaría un libro de 659 kb del que Church era coautor. Para hacer esto, el equipo de investigación hizo una correspondencia de dos a uno donde un cero binario estaba representado por una adenina o una citosina y un uno binario estaba representado por una guanina o timina. Tras el examen, se encontraron 22 errores en el ADN. [17]
En 2012, George Church y sus colegas de la Universidad de Harvard publicaron un artículo en el que el ADN estaba codificado con información digital que incluía un borrador HTML de un libro de 53.400 palabras escrito por el investigador principal, once imágenes JPEG y un programa JavaScript . Se agregaron múltiples copias para redundancia y se pueden almacenar 5,5 petabits en cada milímetro cúbico de ADN. [19] Los investigadores utilizaron un código simple en el que los bits se asignaban uno a uno con las bases, [ se necesita aclaración ], lo que tenía el inconveniente de que conducía a ejecuciones largas de la misma base, cuya secuenciación es propensa a errores. Este resultado demostró que, además de sus otras funciones, el ADN también puede ser otro tipo de medio de almacenamiento, como discos duros y cintas magnéticas . [20]
En 2013, un artículo dirigido por investigadores del Instituto Europeo de Bioinformática (EBI) y presentado aproximadamente al mismo tiempo que el artículo de Church y sus colegas detallaba el almacenamiento, la recuperación y la reproducción de más de cinco millones de bits de datos. Todos los archivos de ADN reprodujeron la información con una precisión de entre el 99,99% y el 100%. [21] Las principales innovaciones en esta investigación fueron el uso de un esquema de codificación de corrección de errores para garantizar una tasa de pérdida de datos extremadamente baja, así como la idea de codificar los datos en una serie de oligonucleótidos cortos superpuestos identificables a través de una secuencia. esquema de indexación basado en [20] Además, las secuencias de las hebras individuales de ADN se superpusieron de tal manera que cada región de datos se repitió cuatro veces para evitar errores. Dos de estos cuatro hilos se construyeron al revés, también con el objetivo de eliminar errores. [21] Los costos por megabyte se estimaron en 12.400 dólares para codificar datos y 220 dólares para recuperarlos. Sin embargo, se observó que la disminución exponencial de los costos de síntesis y secuenciación de ADN, si continúa en el futuro, debería hacer que la tecnología sea rentable para el almacenamiento de datos a largo plazo para 2023. [20]
En 2013, Manish K. Gupta y sus compañeros de trabajo desarrollaron un software llamado DNACloud para codificar archivos de computadora según su representación de ADN. Implementa una versión de eficiencia de memoria del algoritmo propuesto por Goldman et al. para codificar (y decodificar) datos en ADN (archivos .dnac). [22] [23]
La estabilidad a largo plazo de los datos codificados en el ADN se informó en febrero de 2015 en un artículo de investigadores de ETH Zurich . El equipo añadió redundancia mediante la codificación de corrección de errores Reed-Solomon y encapsulando el ADN dentro de esferas de vidrio de sílice mediante la química Sol-gel . [24]
En 2016, se publicó una investigación de Church y Technicolor Research and Innovation en la que se almacenaron y recuperaron del ADN 22 MB de una secuencia de película comprimida MPEG . Se encontró que la recuperación de la secuencia no tenía errores. [25]
En marzo de 2017, Yaniv Erlich y Dina Zielinski de la Universidad de Columbia y el Centro del Genoma de Nueva York publicaron un método conocido como Fuente de ADN que almacenaba datos a una densidad de 215 petabytes por gramo de ADN. La técnica se acerca a la capacidad de Shannon de almacenamiento de ADN, alcanzando el 85% del límite teórico. El método no estaba preparado para su uso a gran escala, ya que cuesta 7.000 dólares sintetizar 2 megabytes de datos y otros 2.000 dólares leerlos. [26] [27] [28]
En marzo de 2018, la Universidad de Washington y Microsoft publicaron resultados que demuestran el almacenamiento y recuperación de aproximadamente 200 MB de datos. La investigación también propuso y evaluó un método para el acceso aleatorio a elementos de datos almacenados en el ADN. [29] [30] En marzo de 2019, el mismo equipo anunció que había demostrado un sistema totalmente automatizado para codificar y decodificar datos en el ADN. [31]
Una investigación publicada por Eurecom y el Imperial College en enero de 2019 demostró la capacidad de almacenar datos estructurados en ADN sintético. La investigación mostró cómo codificar datos estructurados o, más específicamente, relacionales en ADN sintético y también demostró cómo realizar operaciones de procesamiento de datos (similares a SQL ) directamente en el ADN como procesos químicos. [32] [33]
En abril de 2019, gracias a una colaboración con TurboBeads Labs en Suiza, Mezzanine de Massive Attack fue codificado en ADN sintético, convirtiéndose en el primer álbum almacenado de esta manera. [34]
En junio de 2019, los científicos informaron que los 16 GB de Wikipedia habían sido codificados en ADN sintético. [4] En 2021, CATALOG informó que habían desarrollado un escritor de ADN personalizado capaz de escribir datos a 1 Mbps en ADN. [5]
El primer artículo que describe el almacenamiento de datos en secuencias de ADN nativas mediante mellado enzimático se publicó en abril de 2020. En el artículo, los científicos demuestran un nuevo método para registrar información en la columna vertebral del ADN que permite el acceso aleatorio bit a bit y la computación en memoria. [35]
En 2021, un equipo de investigación de la Universidad de Newcastle dirigido por N. Krasnogor implementó una estructura de datos de pila utilizando ADN, lo que permitió el registro y la recuperación de datos de último en entrar, primero en salir (LIFO). Su enfoque utilizó la hibridación y el desplazamiento de cadenas para registrar señales de ADN en polímeros de ADN, que luego se liberaron en orden inverso. El estudio demostró que las operaciones similares a estructuras de datos son posibles en el ámbito molecular. Los investigadores también exploraron las limitaciones y futuras mejoras de las estructuras dinámicas de datos de ADN, destacando el potencial de los sistemas computacionales basados en ADN. [36]
El 21 de enero de 2015, Nick Goldman del Instituto Europeo de Bioinformática (EBI), uno de los autores originales del artículo de Nature de 2013 , [21] anunció el Davos Bitcoin Challenge en la reunión anual del Foro Económico Mundial en Davos. [37] [38] Durante su presentación, se entregaron tubos de ADN a la audiencia, con el mensaje de que cada tubo contenía la clave privada de exactamente un bitcoin , todo codificado en ADN. El primero en secuenciar y decodificar el ADN podría reclamar el bitcoin y ganar el desafío. El desafío se fijó para tres años y se cerraría si nadie reclamaba el premio antes del 21 de enero de 2018. [38]
Casi tres años después, el 19 de enero de 2018, la EBI anunció que un estudiante de doctorado belga, Sander Wuyts, de la Universidad de Amberes y la Vrije Universiteit Brussel , fue el primero en completar el desafío. [39] [40] Junto a las instrucciones sobre cómo reclamar el bitcoin (almacenadas como texto sin formato y archivo PDF ), el logotipo de EBI, el logotipo de la empresa que imprimió el ADN (CustomArray) y un boceto de James Joyce fueron recuperados del ADN. [41]
La Biblioteca Lunar, lanzada en el Beresheet Lander por la Arch Mission Foundation , contiene información codificada en ADN, que incluye 20 libros famosos y 10.000 imágenes. Esta fue una de las mejores opciones de almacenamiento, ya que el ADN puede durar mucho tiempo. La Arch Mission Foundation sugiere que todavía se puede leer después de miles de millones de años. [42] El módulo de aterrizaje se estrelló el 11 de abril de 2019 y se perdió. [43]
El concepto de ADN de las cosas (DoT) fue introducido en 2019 por un equipo de investigadores de Israel y Suiza, incluidos Yaniv Erlich y Robert Grass. [44] [45] [46] DoT codifica datos digitales en moléculas de ADN, que luego se incrustan en objetos. Esto brinda la capacidad de crear objetos que llevan su propio modelo, similar a los organismos biológicos. A diferencia del Internet de las cosas , que es un sistema de dispositivos informáticos interrelacionados, DoT crea objetos que son objetos de almacenamiento independientes, completamente fuera de la red .
Como prueba de concepto para DoT, el investigador imprimió en 3D un conejito de Stanford que contiene su plano en el filamento de plástico utilizado para la impresión. Al cortar un poquito de la oreja del conejito, pudieron leer el plano, multiplicarlo y producir una próxima generación de conejitos. Además, la capacidad del DoT para servir con fines esteganográficos se demostró mediante la producción de lentes no distinguibles que contienen un vídeo de YouTube integrado en el material.