2024年10月23日,北京大学定量生物学中心钱珑团队与计算机学院张成团队合作,在国际学术期刊Nature 上发表题为“Parallel molecular data storage by printing epigenetic bits on DNA”(https://www.nature.com/articles/s41586-024-08040-5)的研究论文,提出了一种无需从头合成的DNA存储策略,通过DNA自组装与选择性酶促甲基化的组合原理,成功将5-甲基胞嘧啶编码的数字信息并行打印在DNA分子上,实现了高效、低成本的大规模DNA存储,为未来实用型DNA存储技术的发展提供了全新思路。
大数据时代,全球数据洪流对数据存储技术提出了严峻挑战。DNA分子具有超高的数据存储密度和超长寿命,已成为备受瞩目的颠覆性存储介质。然而,传统DNA存储依赖“从头合成”的信息写入路线,在成本和速度上面临巨大挑战。不同于传统技术路线,钱珑、张成团队开发的“表观比特(epi-bit)”DNA存储利用预制的DNA模板和分子活字块,通过DNA自组装介导的分子信息排版,经选择性酶促甲基修饰转移,实现了分子级“活字印刷”信息打印(图1)。
图1. 表观比特DNA存储的基本原理(a-b)和流程(c-e)。
团队在实验中,将中国汉代“白虎”瓦当和国宝大熊猫“飞云”的高清图片成功写入DNA分子中,数据量超过27.5万比特,相比此前发表的其他非传统DNA存储技术,数据规模提升超300倍。信息读取使用便携式纳米孔测序仪,实现了对DNA模板上复杂表观比特信息的高通量读取,并通过单次超240种不同修饰模式的并行解析,无损还原了原始数据。实验结果验证了该创新型分子存储技术的可行性和准确性,还展示了表观比特的稳定性(图2)。
图2. 大规模表观比特DNA存储和读取结果分析。
值得关注的是,团队还展示了这项技术的分布式存储应用潜力。在个人定制DNA存储(iDNAdrive)的实验中,团队邀请了60名背景广泛的青年志愿者,由他们在非专业环境下(普通教室),将私人数据亲手写入DNA,相关数据直到测序才能够被解读。这种分布式DNA存储方式,不仅能极大降低DNA存储的使用门槛,且保障了数据隐私,有望推动DNA存储的个人应用(图3)。
图3. iDNAdrive存储实验。
“在DNA这张白纸上批量打印信息,相比于传统“从头合成”路线的逐个添加分子比特信息,代表着DNA存储的重要技术突破。”钱珑研究员表示,“未来,任何人在任何地点都能实现简单、准确、高效的DNA数据存储,而无需依赖大型实验仪器。同时,结合更多样的碱基修饰、碱基类似物和更精确的测序技术,epi-bit DNA存储的规模和可靠性都将进一步提升。”
表观比特DNA存储框架为大规模数据存储提供了全新的解决方案,有望突破DNA存储的成本和速度壁垒。该技术的开发,还展现了非传统分子比特在数据存储中的独特优势,为未来相关分子信息系统的研究奠定了基础。北京大学钱珑研究员、张成研究员、欧阳颀教授和美国亚利桑那州立大学颜颢教授为本文的共同通讯作者。本研究获得了德国斯图加特大学刘娜团队、成都瀚辰光翼科技有限责任公司、大连理工大学张强团队、华北电力大学杨静团队的大力支持。本研究的iDNAdrive实验获得了北京大学2024年iGEM团队的大力支持。