DNA“字母表”存储容量翻了一番竟然是因为它！

2022-03-08 11:12:40

来源：前瞻网

与大多数事物一样，大自然的数据存储系统-DNA远远超过了我们创造的任何东西。近日，伊利诺伊大学厄巴纳-香槟分校的研究人员通过在其“字母表”中添加额外的字母，将存储容量翻了一番，并开发了一种新的读取方式。

DNA由四种核碱基的组合组成：腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶。这些碱基用字母 A、G、C 和 T 表示，以不同的顺序组合在一起而形成单个生物体的蓝图。这个信息存储系统的容量非常惊人，一克 DNA 能够存储多达215 PB(2.15 亿 GB)的数据。

这当然使它成为现代社会非常有吸引力的潜在存储解决方案—互联网的全部内容可以装在一个装满 DNA 的“盒子”中。现在，科学家找到了一种新方法，可将这种存储容量再翻一倍。

除了通常的 A、G、C 和 T，该团队有效地在 DNA 字母表中添加了额外的七个“字母”。这些字母采用化学修饰核苷酸的形式，开辟了更多不同的组合，并允许在相同数量的物理空间内存储更多信息。

研究作者Kasra Tabatabaei说：“如果你只有四个字母可以使用，那么创造的单词也是有限的。但如果你有完整的字母表，便可以产生无限的单词组合。”

当然，添加额外的核苷酸意味着现有的读取数据的系统将无法识别它们，因此该团队还开发了一个可以识别它们的新系统。DNA 链通过特殊设计的蛋白质中的纳米孔来检测到单个单元，无论它们是天然的还是合成的。然后，机器学习算法对存储在其中的信息进行解码。

研究的另一作者Chao Pan 说：“我们尝试了 11 种核苷酸的 77 种不同组合，我们的方法能够完美区分每一种。而且，识别不同核苷酸的深度学习框架是通用的，可以推广到许多其他应用。”

除了扩大存储容量外，新方法还将信息写入DNA所需的时间减少了一半，这对于DNA来说通常是一个相当缓慢的过程。

该研究论文题为“Expanding the Molecular Alphabet of DNA-Based Data Storage Systems with Neural Network Nanopore Readout Processing”，已发表在《纳米快报》上。

DNA“字母表”存储容量翻了一番 竟然是因为它！