你能否想象,DNA(脱氧核糖核酸)也可成为一个“超级硬盘”,存储人类历史遗留下来的庞大数据,并将这些珍贵数据妥善保管,使其得以“存活”千万年?
近日,天津大学合成生物学研究团队利用DNA信息存储技术实现了人类文化遗产的长期保存:将敦煌研究院提供的10幅精选敦煌壁画存入DNA中,通过加速降解实验验证,通过DNA存储创新算法,壁画信息可在实验室常温下可靠保存超过千年,或9.4℃下两万年。
该算法支持DNA分子有望成为世界上最持久的数据存储介质之一,为长期保存人类历史文化遗产提供了一个潜在的数字化解决方案。
创新DNA信息存储技术
进入21世纪以来,全球数字信息呈爆炸式增长。据数据预测,全球数字信息5年平均复合增长率8%,总量在2025年将达到惊人的175ZB。这些数据需要1750亿个1TB机械硬盘才能完全存储。随着数据的快速增长,在可预见的未来,传统存储介质的发展速度都将无法满足数据增长需求。因此,开发新的数据存储技术就显得尤为重要。
该研究团队近年来致力于DNA存储这一颇具潜力的存储技术的攻关研究。2021年8月,团队从头编码设计合成了一条长度为254886碱基的数据存储专用的人工酵母染色体,存储了两张经典图片和一段视频。并利用酵母繁殖实现了数据可靠复制和基于纳米孔测序仪的精确快速数据读取。该方法在“活”细胞内部利用几百K碱基对实现了几十KB外部数据存储,与以前只实现几K碱基的验证相比,是新的突破。该成果让团队意识到他们已经具备了将信息写入DNA并读取的能力,因此他们开展了诸如“酵母光盘”“DNA硬盘”等一系列的创新研究。考虑到该成果对人类文化遗产的长期保存的潜在价值,团队选取并存储了中华民族数千年历史文化的典型──敦煌壁画。
DNA存储作为一种分子链式存储介质,长期保存时会面临分子链降解断裂等,严重影响信息的长期可靠性,是亟待解决的关键问题。为解决该问题,团队设计了基于德布莱英图理论的序列重建算法,首次在实验室验证了其处理DNA链降解断裂问题的能力。结合该序列重建算法(内码)与喷泉码算法(外码),团队设计编码了6.8MB敦煌壁画,合成了承载图片信息的DNA片段21万条。为验证数据的长期可靠性,团队制备了一个没有任何特殊保护的DNA水溶液样本,并在70℃下加速样本降解长达十周。加速降解处理后,80%以上的片段都发生了断裂错误,依靠设计的序列重建算法依然可以准确组装解码96.4%以上的片段。再通过喷泉码解决少量片段丢失的问题,原始的敦煌壁画图片依然能够完美恢复。根据理论推算,这种程度的高温破坏相当于能够承受实验室常温25℃一千年或者9.4℃两万年的自然降解。
反复实验优化算法
研究人员介绍,此前没有用DNA存储文物信息的先例。为能实现我国悠久历史文化的长期传承,技术层面需要应对存储过程中产生的各类复杂错误。从理论到方法,DNA存储都与信息领域其他存储方式不同,也与生物技术传统研究范式有差别,对团队也是一个挑战。
因此,在研究前期,团队针对算法进行了必要的理论准备,从理论层面上进行分析并证明了其可行性,随后便开始实施实验,并在过程中不断优化算法。从研究开始,到最终实验成功,花费了三年的时间,在此期间对算法做了大量的优化甚至重写,还挑战了更大规模尺度的实验验证。
DNA信息存储技术逐步升级
DNA存储数字信息的想法由来已久,早在上世纪60年代,随着DNA双螺旋结构的发现,就有研究人员提出了利用DNA存储数据。国内的很多研究机构也都开展了一系列研究,除了天津大学团队,东南大学、清华大学、华大生命科学研究院等都开展了相关研究。2021年11月,东南大学生物电子学国家重点实验室研究团队成功将学校校训存入一段DNA序列中,并构建了一个小型的读写融合器件。2022年4月,深圳华大生命科学研究院团队建立了一种有特色的比特—碱基转换系统——“阴阳编码系统”。
DNA存储拥有超越传统存储介质6~7个数量级的存储密度优势,且具备长时间数据存储能力,其未来的主要应用方向是对占比80%以上的冷数据进行存储。然而DNA存储想要大规模应用,尤其是在国内实用化还需要突破DNA合成成本高、读写速度慢、与现有存储架构互融互通难等几个瓶颈,还需不断深入研究。