数据存储革命之DNA“打孔卡”的应用

在当今大数据时代,由于数字信息的数量爆炸性的增长,需要一种可靠的能够进行大规模数字数据存档的储存介质.但是目前储存容量的增长并不能跟上数字信息量的增长,而且常规储存介质如磁设备和光学设备的持久性有限. 

基于合成DNA的数据存储系统因其具有超高存储密度和长期稳定性而受到了广泛关注。其主要方法是通过编码DNA的方式将数据记录存储在人工合成的DNA寡核苷酸上,并借助下一代(NGS)或纳米孔测序(Nanopore sequencing)技术能够将储存在DNA上的数据读出。这种方法存在成本高、读写延迟和错误率高的缺陷,这使其与现代存储设备相比失去竞争力。

 避免上述问题的一种方法是使用容易获得的天然DNA。由于天然DNA的序列是固定的,因此可以通过修改DNA分子的拓扑结构来编码信息。最近,研究人员通过利用DNA打孔卡的大分子存储机制,以刻痕的形式将数据写入天然双链DNA骨架的预定位置。该平台可在正交DNA片段上进行平行刻痕,并创建酶切位点,从而实现单比特随机存取和内存计算。 

与之前提出的所有基于DNA的数据存储方法不同,该系统将信息存储在DNA分子的糖-磷酸骨架中,而不是其序列内容。更准确地说,将带有二进制信息的字符串转换为位置编码,该编码描述了是否要对选择的刻痕点进行切割。类似于基于合成的数据储存方法,可以使用NGS技术以无错误的方式检索刻痕中存储的信息。这是通过酶切的方式在特定的刻痕点酶切过程获得的DNA片段与已知的参考基因组DNA链进行比对来实现的。如果相关技术的进一步发展实现了较高的读取精度,则可以替代使用其他读取方法,例如非破坏性固态纳米孔测序。 

为了实现基于刻痕的数据存储平台,需要确定具有优化编程能力的切口酶。已知的内切酶只能检测并结合DNA链中的特定序列,而这些序列往往受到其上下游序列的高度限制。为了解决这些问题,使用DNA引导序列的可编程限制性酶Pyrococcus furiosus Argonaute (PfAgo)作为书写工具

PfAgo是一种高度精确的人工限制性内切酶,使用16 nt的DNA引导序列(gDNA)可在任意位置进行有效的双链切割,从而产生各种长度的定义序列粘性末端。与Streptococcus pyogenes Cas9(SpCas9)切口酶相比,该酶在双链DNA切割中具有更大的灵活性,因为它不受其识别位点上任何特殊序列的限制。最重要的是,该酶具有很高的周转率,一个酶分子可用于产生大量切口

图示:在写入单元中,用户数据内容将转换为二进制数据。然后将数据解析为m位的数据块,其中m对应于寄存器(天然DNA)上的可切刻位置数(图示中m=10)。可以使用不同的(正交)寄存器来并行编码信息,如图示中不同颜色的DNA链。随后将二进制信息转换为在哪里刻痕的位置信息。刻痕反应通过PfAgo和引导序列的组合进行。在读出单元中,对带切口的产物进行纯化和变性,以获得不同长度的ssDNA池。ssDNA池通过MiSeq进行测序。通过对比参考序列来组装测序结果,然后使用覆盖率确定刻痕位置来处理数据输出。

 基于天然DNA的存储系统减轻了使用长合成DNA链存储数据的麻烦,并在DNA骨架而不是序列中记录数据内容。与基于合成的方法相比,由于酶能够并行编码信息,因此该平台显著减少了写入延迟

此外,与基于合成DNA的数据存储(需高速合成且存在核苷酸缺失错误)相比,该方法具有极高的可靠性。由于刻痕很容易叠加在合成DNA分子上,因此刻痕也可以用于编码元数据,这些元数据可以被删除(通过简单的连接),并且可以以省时的方式重新创建或更改。 

参考文献

Tabatabaei, S. K.; Wang, B.; Athreya, N. B. M.; Enghiad,B.; Hernandez, A. G.; Fields, C. J.; Leburton, J.-P.; Soloveichik, D.; Zhao,H.; Milenkovic, O. DNA Punch Cards for Storing Data on Native DNA Sequences ViaEnzymatic Nicking. Nat. Commun. 2020, 11, 1742

© Copyright 2019 安序源生物科技(深圳)有限公司 All Rights Reserved.