Almacenamiento de datos en ADN: la nueva frontera para la preservación a largo plazo

No todos los nueve zetabytes de almacenamiento de datos que IDC predice serán necesarios para 2024 contendrán información que deba almacenarse durante largos períodos; las lecturas de sensores de IoT y la telemetría del rendimiento de las aplicaciones pueden no ser lo suficientemente útiles como para mantenerlas durante décadas. Pero en los negocios y la ciencia, existen grandes conjuntos de datos que deben archivarse, ya sea que se trate de flujos de información del Gran Colisionador de Hadrones o datos de pensiones (que, según la ley del Reino Unido, deben conservarse durante toda la vida de todos los miembros del plan de pensiones).

En 2020, GitHub depositó 21 TB de datos en el Arctic Code Vault junto con manuscritos escaneados de la Biblioteca Apostólica Vaticana, utilizando el sistema de preservación digital PIQL que imprime códigos QR de datos comprimidos en tiras de película que aún serán legibles dentro de cientos de años. Eso es mucho más tiempo que la vida útil de los archivos de cinta, que deben reescribirse aproximadamente cada 30 años, pero si realmente desea un almacenamiento a largo plazo, ¿qué tal la molécula que ya almacena información durante miles de años: el ADN, que podría almacenar más de un exabyte de datos en una pulgada cúbica? En lugar de habitaciones llenas de cartuchos de cinta, esos nueve zetabytes (además del equipo para leer y escribirlos) cabrían en un rack de un centro de datos.

Ya tenemos equipos para sintetizar, copiar y leer ADN para el secuenciamiento genético y la investigación científica (y no dejaremos de necesitar hacer eso, por lo que la tecnología para leer ADN no quedará obsoleta en unos cientos de años). "Usar ADN nos permite aprovechar un ecosistema que ya está presente y estará ahí por mucho tiempo", dijo Karin Strauss, directora principal de investigación en Microsoft.

El uso de ADN para almacenar datos requiere algunos pasos adicionales, empezando por un software de codificación que convierte los habituales unos y ceros de un archivo digital en las cuatro bases (A, C, T y G) que se encuentran en el ADN, así como un sintetizador de ADN que crea cadenas de ADN con la secuencia correcta de bases.

Cuando esté listo para leer la información, un secuenciador de ADN transcribe la secuencia de bases en esa cadena de ADN y el software de decodificación la vuelve a convertir en bytes.

Almacenamiento de datos en ADN: la nueva frontera para la preservación a largo plazo - Almacenamiento | Imagen 1 Newsmatic

Cómo ahorrar millones de dólares en el sector público mediante la reutilización de unidades SSD
Índice de Contenido
  1. Aplicando la Ley de Moore al almacenamiento de ADN
  2. El rendimiento importa más que la velocidad de escritura

Aplicando la Ley de Moore al almacenamiento de ADN

La cantidad de puntos de síntesis de ADN que se pueden empaquetar sin que interfieran entre sí dicta la cantidad de cadenas de ADN que se pueden construir al mismo tiempo (y se necesitan hacer múltiples copias de cada cadena para la redundancia). Para agregar una nueva base a la cadena de ADN, primero se agrega la base y luego se usa ácido para preparar la cadena para la siguiente base, y no se quiere que la base o el ácido lleguen al lugar equivocado.

Enfoques anteriores han utilizado espejos pequeños o patrones de luz (llamados fotomáscaras) en lugar de ácido o han rociado pequeñas gotas de ácido como tinta de una impresora de inyección de tinta. Siguiendo otra lección de las CPUs, Microsoft Research (en colaboración con la Universidad de Washington) está utilizando una matriz de electrodos en pequeños pozos de vidrio, cada uno rodeado de cátodos, para crear los puntos en los que crece el ADN y empaquetarlos mil veces más cerca entre sí.

"Lo que es realmente importante es la distancia, o la separación, entre esos puntos, y también el tamaño de esos puntos", dijo Nguyen. "Realmente hemos reducido tanto el tamaño de los puntos, de aproximadamente 20 micrones a 650 nanómetros. Y también hemos reducido la distancia entre ellos a dos micrones. Y eso nos permite agregar tantos puntos diferentes en los que se pueden crecer diferentes y únicas hebras de ADN".

Aplicar un voltaje genera ácido en el ánodo para preparar la cadena de ADN para adjuntar la siguiente base y también libera la base correcta para agregar a la cadena en el cátodo. Si algún ácido se derrama de un pozo de vidrio, fluirá hacia la base generada por el cátodo y no podrá llegar a un pozo diferente.

En esencia, esto es un controlador molecular y un escritor de ADN en un chip, completo con una interfaz PCIe. Microsoft lo tiene en funcionamiento, aunque actualmente es una prueba de concepto y se utilizó para construir cuatro hebras de ADN sintético a la vez, almacenando una versión de la declaración de misión de la empresa: ¡"Potenciando a cada persona para almacenar más!"

Como una prueba de concepto en lugar de hardware terminado, el mecanismo de escritura de ADN produce actualmente hebras que tienen 100 bases. Las hebras más largas mostraron más errores, pero eso se puede mejorar a medida que el hardware se desarrolla, tal vez mediante la sofisticación de la entrega de los fluidos reactivos.

Windows Server 2022: Mejoras en seguridad y compresión de archivos

El almacenamiento de datos en ADN no necesita ser completamente libre de errores, al igual que los sistemas de almacenamiento actuales. Hay varios niveles de redundancia incorporados, comenzando por la creación de múltiples copias del ADN, lo que Strauss llama redundancia física: "Estamos creando muchas moléculas que codifican la misma información". También hay corrección de errores incorporada, utilizando redundancia lógica, que, según dijo, incurre en aproximadamente el mismo costo adicional que la memoria de corrección de errores: "Por ejemplo, si todas las copias del ADN que se están haciendo en el mismo lugar tienen un error, entonces puedes corregirlo".

"Este trabajo consiste en hacer que el punto sea más pequeño, y cuanto más pequeño hagas el punto, menos copias tienes. Sin embargo, todavía estamos en el tamaño en el que tenemos muchas, muchas copias del ADN y eso no es un problema. En el futuro, es posible que termines con solo unas pocas copias del ADN, pero creemos que aún hay bastante margen para reducir el tamaño de esta parte y mantener la redundancia mínima."

Con el hardware de prueba de concepto, la velocidad de escritura es equivalente a 2 KB/segundo. "Podríamos aumentar eso creando más de esas matrices o podríamos reducir aún más el tamaño y la separación", dijo Nguyen.

En el futuro, Microsoft planea agregar lógica para controlar millones de puntos de electrodos, utilizando el mismo nodo de proceso de 130 nm utilizado para construir este sistema. Eso es lo que los constructores de chips estaban utilizando hace 20 años, y pasar a procesos más pequeños y modernos significa que las matrices pueden escalar hasta billones de electrodos y megabytes por segundo de almacenamiento de datos; más cercano al almacenamiento en cinta en rendimiento y costo.

"Cuantas más partes del mismo tamaño podamos hacer, mayor será el rendimiento de escritura", agregó Strauss. "Para hacer eso, puedes hacer puntos más pequeños y poner más de ellos en la misma área, o puedes aumentar el área, y el área es proporcional al costo. Por lo tanto, cuanto más empacas, menor es el costo. Básicamente estás amortizando todo el costo, sobre el mayor número de piezas de ADN".

El rendimiento importa más que la velocidad de escritura

Hasta ahora, Microsoft ha estado optimizando el ancho de banda para escribir datos de ADN, que según ella es la medida más importante, pero también hay planes para mejorar la latencia para la lectura.

Las mejores alternativas no Apple para hacer una copia de seguridad de tu Mac

"Consideramos que el almacenamiento de ADN es algo bueno para el almacenamiento de archivos y en la nube, al menos inicialmente. Para las escrituras, la latencia no es tan importante porque puedes almacenar en búfer la información en un sistema electrónico y luego escribir en lotes, como hacemos aquí, y no importa cuánto tiempo tarde en escribir, siempre y cuando el rendimiento pueda mantenerse al día con la cantidad de información que estás almacenando".

Cuando esté leyendo el ADN de nuevo, la latencia afectará cuánto tiempo debe esperar para obtener la información, y las técnicas actuales de secuenciación de ADN también se basan en leer el ADN en lotes. "Eso tiene una alta latencia, pero estamos viendo el desarrollo de lectores de nanoporos que son en tiempo real", dijo Strauss, lo que acelerará el proceso.

Microsoft también planea trabajar en la química de los disolventes y reactivos utilizados con el ADN, que actualmente son de origen fósil. Cambiar a enzimas (que es la forma en que el ADN se construye y lee en animales y plantas) será más sostenible desde el punto de vista ambiental y también acelerará las reacciones químicas que realmente construyen la cadena de ADN. "Las reacciones enzimáticas ocurren a escalas de tiempo mucho más rápidas de lo que se podría lograr ahora mismo con procesos químicos", dijo Nguyen.

La capacidad de utilizar la electrónica para controlar moléculas como esta es una tecnología emocionante que también podría ser útil en muchas otras áreas más allá del almacenamiento, desde la detección de nuevos tratamientos farmacológicos y la búsqueda de biomarcadores de enfermedades hasta la detección de contaminantes ambientales. Y tener múltiples usos probablemente reduciría el costo gracias a las economías de escala.

Hay más de 40 empresas en la Alianza de Almacenamiento de Datos en ADN, incluidos fabricantes de unidades conocidos como Seagate y Western Digital, así como expertos en cintas como Quantum y Spectra Logic, junto con organizaciones de biociencia. Los sistemas de producción para el almacenamiento de ADN todavía están lejos, advirtió Strauss. "Aún se necesita bastante ingeniería para tener un sistema comercial, para reducir las tasas de error, hacer que el sistema sea más automático e integrado, y así sucesivamente".

Pero la investigación que Microsoft está publicando aquí muestra que los archivos de datos de ADN a gran escala parecen ser bastante factibles.

¡Almacenamiento en la nube ilimitado para siempre por solo $140!

En Newsmatic nos especializamos en tecnología de vanguardia, contamos con los artículos mas novedosos sobre Almacenamiento, allí encontraras muchos artículos similares a Almacenamiento de datos en ADN: la nueva frontera para la preservación a largo plazo , tenemos lo ultimo en tecnología 2023.

Artículos Relacionados

Subir

Utilizamos cookies para mejorar su experiencia de navegación, mostrarle anuncios o contenidos personalizados y analizar nuestro tráfico. Al hacer clic en “Aceptar todo” usted da su consentimiento a nuestro uso de las cookies.