与大多数事物一样,大自然的数据存储系统-DNA远远超过了我们创造的任何东西。近日,伊利诺伊大学厄巴纳-香槟分校的研究人员通过在其“字母表”中添加额外的字母,将存储容量翻了一番,并开发了一种新的读取方式。
DNA由四种核碱基的组合组成:腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶。这些碱基用字母 A、G、C 和 T 表示,以不同的顺序组合在一起而形成单个生物体的蓝图。这个信息存储系统的容量非常惊人,一克 DNA 能够存储多达215 PB(2.15 亿 GB)的数据。
这当然使它成为现代社会非常有吸引力的潜在存储解决方案—互联网的全部内容可以装在一个装满 DNA 的“盒子”中。现在,科学家找到了一种新方法,可将这种存储容量再翻一倍。
除了通常的 A、G、C 和 T,该团队有效地在 DNA 字母表中添加了额外的七个“字母”。这些字母采用化学修饰核苷酸的形式,开辟了更多不同的组合,并允许在相同数量的物理空间内存储更多信息。
研究作者Kasra Tabatabaei说:“如果你只有四个字母可以使用,那么创造的单词也是有限的。但如果你有完整的字母表,便可以产生无限的单词组合。”
当然,添加额外的核苷酸意味着现有的读取数据的系统将无法识别它们,因此该团队还开发了一个可以识别它们的新系统。DNA 链通过特殊设计的蛋白质中的纳米孔来检测到单个单元,无论它们是天然的还是合成的。然后,机器学习算法对存储在其中的信息进行解码。
研究的另一作者Chao Pan 说:“我们尝试了 11 种核苷酸的 77 种不同组合,我们的方法能够完美区分每一种。而且,识别不同核苷酸的深度学习框架是通用的,可以推广到许多其他应用。”
除了扩大存储容量外,新方法还将信息写入DNA所需的时间减少了一半,这对于DNA来说通常是一个相当缓慢的过程。
该研究论文题为“Expanding the Molecular Alphabet of DNA-Based Data Storage Systems with Neural Network Nanopore Readout Processing”,已发表在《纳米快报》上。