|
|
两斤DNA装下“全世界” |
现代数据存储技术瞄准基因序列 |
或许最多10年之后,没有人会再相信磁带储存。图片来源:Wes Fernandes
对于Nick Goldman来说,在DNA中编码数据的想法始于一个笑话。
那是2011年2月16日,Glodman和一些生物信息学领域的朋友在德国汉堡聊天,话题是他们如何才能储存全世界涌来的基因组序列和其他数据洪流。他记得当时谈话的科学家因为传统计算机技术成本昂贵和具有局限性而懊恼不已,他们开始开玩笑说或许可以尝试科幻方法。“我们想,‘有什么能阻止我们利用DNA储存信息呢?’”
随后,笑声戛然而止。“那是恍然明悟的一刻。”Goldman说,他是英国辛克斯顿欧洲生物信息学研究所(EBI)的一名团队负责人,那时他们想到的是与硅基记忆芯片读写信息的微秒时间量程相比,DNA储存可能会非常缓慢。它可能需要花费数个小时,通过合成DNA链条以形成具体的基础模式来编码数据,还会花费FC碰碰胡老虎机法典-提高赢钱机率的下注技巧时间利用一种测序机器恢复这些信息。但是如果采用DNA,整个人类基因组都能够装入人类肉眼看不见的一个细胞中。对于信息储存的纯粹密度来说,DNA可能是硅以外进行长期数量级信息储存的最好方式。
“我们坐在酒吧里拿着餐巾纸和圆珠笔。”Goldman说,然后开始记录我们的想法:“需要做些什么让它发挥作用呢?”研究人员的最大担心是DNA合成和测序经常发生错误,而且比值高达每100个核苷酸基中就会出现一例错误。这会让大规模数据储存完全不可靠,除非他们能够找到一种可用的纠错方法。他们能够编码这些信息成为碱基对从而辨别并解除错误吗?“经过一个晚上的商讨。”Goldman说,“我们知道我们可以。”
DNA数据储存
Goldman和EBI的同事Ewan Birney将这一想法搬进了实验室,两年后,他们宣布成功利用DNA编码了5个文件,其中包括莎士比亚的十四行诗和一小段马丁·路德·金的《我有一个梦想》的演讲。而那时,美国哈佛大学生物学家George Church及其位于马萨诸塞州剑桥的团队已经公开了利用DNA编码的单独示范。但是当时EBI的文件为739千字节(kB),直到今年7月,来自微软和华盛顿大学的研究人员宣称编成200兆字节(MB)的文件之前,它一直是曾经编码的最大DNA档案。
利用DNA作为储存介质的最新实验信号已经超越了基因组学的范畴:全世界正面临数据倾轧。到2020年,从天文学图像和期刊论文到YouTube视频,全球数据档案预计将达44万亿千兆字节(GB),是2013年信息储量的10倍。
这正是为什么难以获得的数据现在需要依赖老式的磁盘记录永久档案的原因。这些信息媒介储存比硅的储存密度大得多,但是读起来却非常慢。然而,即便这一方法也变得日益不可持续,华盛顿特区美国情报先进研究计划署(IARPA)计算神经学家David Markowitz说。
他表示,很难想象一个数据中心的磁带驱动器上拥有艾字节(10亿GB)的信息。这样的一个中心将需要10年间花费10亿美元来建造和运行,并且需要数亿瓦的电量。“分子信息储存具有将这些条件减少三个数量级的潜力。”Markowitz说。如果信息能被打包成类似大肠杆菌基因的密度,那些全球的信息储存需求可能只需要大约1公斤的DNA。
实现这一潜在目标并不容易。在DNA能够作为传统储存技术的可行竞争者之前,研究人员需要克服从DNA编码信息可靠性和恢复用户需要的信息到让核苷酸链获得价格低廉、方便迅捷的一系列挑战。
尽管如此,解决这些挑战的工作正在进行。北卡罗来纳州半导体研究公司(SRC)正在进行DNA信息储存工作。“10年来,我们一直在寻找硅以外的物质”进行数据储存,SRC主任及首席科学家Victor Zhirnov说,“它很难置换。”他说,但是DNA作为其中的一名具有实力的候选途径,“似乎很有可能实现”。
长期记忆
第一个用4个DNA碱基对绘制1和0等数据信息的人是艺术家Joe Davis,他在1988年曾与哈佛大学研究人员合作。他们在大肠杆菌中插入了DNA序列,编码了仅仅35个比特。在组成5×7的矩阵后,使所有的1均对应暗像素,所有的零均对应亮像素,形成了记录生活和女性故事的古德国诗歌。
现在,Davis正在与Church的实验室合作,从2011年开始探索DNA数据储存。这个哈佛团队希望,这一应用有助于减少合成DNA的高成本,正如基因组学已经降低了测序成本那样。Church在2011年11月与现在加州大学洛杉矶分校工作的Sri Kosuri以及约翰斯·霍普金斯大学基因组专家Yuan Gao合作,进行了概念验证实验。该团队利用许多DNA短链编码了一本Church共同编著的659kB的书籍。每个短链的一部分都是一个地址,阐述了这些片段经过测序之后应该如何整理,而其余的短链则包含了数据。最终,在对这些链条进行测序之后,Kosuri、Church 和Gao发现了22处错误,对于可靠信息储存来说,这些错误显然过多。
同时,在EBI,Goldman、Birney及其同事也在利用大量DNA链条编码其739kB的数据储存,其中包括图像、文本、视频文件以及Watson和Crick关于DNA双螺旋结构的一篇标志性论文的PDF文件。为了避免重复性的碱基和其他错误,ENI团队采用了更加复杂的方式。通过使用被25个碱基逐渐改变的相互重合的100个碱基长链,ENI科学家还确保碱基组件中都有不同的纠错以及相互对照版本。
尽管如此,具有讽刺意味的是,他们依然丢失了25个碱基中的两个。然而,这些研究结果让Goldman相信,DNA拥有成为价格低廉、长期数据储存介质的潜力,那将需要极少的能量实现海量数据储存。“或许最多10年之后,没有人会再相信磁带储存。如果你需要保证文件复本的安全,一旦你能够将其写在DNA上,就可以把它丢在一个洞穴里忘掉它,直到你希望重新读取它的那一天。”
新兴领域
自从在2013年访问英国时听到Goldman谈起DNA储存之后,这种可能性已经吸引了华盛顿大学计算学家Luis Ceze和雷德蒙德微软研究公司的Karin Strauss的关注。“DNA的密度、稳定性以及成熟度让我们对它非常感兴趣。”Strauss说。
在伊利诺伊大学香槟分校,计算学家Olgica Milenkovic及其同事已经开发出一种随机存取方式,可以重新编辑编码的数据。他们的方法可以在处理DNA长链两端的序列时储存数据。研究人员随后或是利用聚合酶链反应或是利用CRISPR-Cas9等方法挑选、增加以及重新编写DNA链条。
DNA数据储存方面面临的其他挑战是规模化以及加速合成分子,Kosuri说,他承认因为这些原因,他本人对该方法并不看好。他回忆说,在哈佛大学做实验的初期,“我们做到了700kB。使其增加1000倍达到700MB,才是一张CD的容量”。而若要真正解决全世界的数据档案问题,至少需要拍字节的储存能力。“这并非不可能。”Kosuri说,“但是人们需要意识到这样大的规模是建立在提高百万倍的基础上。”而这肯定不容易。
Goldman坚信这只是时间问题。“我们的估计是需要使其储存能力提高10万倍才能让这种技术的效益看得见,我们认为它非常可靠。”他说,“过去的表现或许不能说明什么。现在每一两年就会出现新的读取技术。六个数量级的增长对于基因组学来说只是小菜一碟。请拭目以待。”(晋楠)
《中国科学报》 (2016-09-12 第3版 国际)