【卷首语:用数据谱写“生命乐章”】当基因的音符敲响生命的乐章之时,DNA便是名副其实的“词曲作者”,数据则记录了各种不同的细胞乐队按照DNA编排的曲谱。虽然曲调旋律或悲伤低沉,或高亢激昂,或明艳动人,或轻快活泼,但数据都忠实记录了生命按照进化法则,不断地调整自己与外界“互通”,不断地修正自我,突破自我,并最终世代相传。自人类基因组计划启动以来,人类获得了海量的生物医学大数据。这些数据既是观察疾病发生发展过程的重要窗口,也是国家的重要基础性战略资源。同时,这些数据的安全性已经上升到维护国家主权的高度。因此,掌控数据主权,把握生产过程,对数据进行分析与解读,实现数据驱动的行业发展,这些关键技术必须由我们自主掌控……【详细】
生物医学大数据蕴含极其丰富的信息和知识,对于人类健康具有重要意义。2001年,全球科学家经过10年攻关,花费30亿美元完成了人类第一个基因组草图的绘制。2007年,第一个亚洲人的全基因组测定完成,花费30万元。目前,测定一个人的全基因组序列(WGS)只需5000元。
尽管生物医学大数据展现出举足轻重的作用,但人类对数据的了解和应用还只是“冰山一角”。
据国际数据公司和数据存储公司希捷开展的一项研究发现,2018年全球约产生33ZB(1ZB=1012GB)的数据。其中,中国约产生7.6ZB的数据,预计到2025年该数字将增至48.6ZB;美国约产生6.9ZB数据,预计将在2025年增至30.6ZB。
“目前,既懂得生命科学又具备计算机技能的复合型人才非常缺乏。”
囿于传统观念与现行教育、科研体制,生物医学大数据领域的研究人员始终“寄居”在生物学、医学或者计算机等学科之下,从未找到自己应有的位置,既难以形成专业研究队伍与组织,更缺乏人才的专属培养基地与学术研究平台。
面向人类健康大数据,我们不能简单地将其理解为需要大规模存储和处理的数据。大数据的概念有别于统计抽样,它不是根据小规模抽样调查来推测被观察对象的全貌,而是试图用对该对象的所有测量数据来刻画对象。
目前,生命科学与计算科学的融合正在孕育第三次生物革命,计算科学已经渗透到器官、组织、细胞、分子和基因等生命科学的全过程。
图:谭光明(左)与张春明在超算机房训练“生命信息引擎”
面对生物医学大数据对健康的潜在贡献,广东省人民医院乳腺外科主任王坤却很冷静。他提出疑问:“生物医学大数据的价值有多大?又如何指导临床?”
事实上,目前,以基因测序数据为代表的生物医学大数据正呈数量级增长态势,但这些数据直接指导临床的几率并不高,如何挖掘数据潜能,成为临床及科研人员的当务之急。
精准医疗是一种新兴的医学实践研究,它的目的在于精确地预测健康人群的疾病风险,同时为具有相似特征的患者群体提供有针对性的诊疗方案,而大数据是实现精准医疗的重要手段。
20世纪初,美籍奥地利经济学家约瑟夫·熊彼特在《经济发展理论》一书中首次提到“创造性破坏”这一颇具颠覆性的概念,以表示伴随根本性创新而发生的转型。
21世纪的今天,汹涌而至的生物医学大数据洪流,势必为生命科学的基础研究和医疗健康领域带来史无前例的“创造性破坏”。
图:赵宇(左)与牛钢讨论对基因数据的解读不能简化为“查字典”
假以时日,生物医学大数据将极大地支撑个性化、智能化健康管理、疾病预防、临床诊疗与服务。那么,面对互联网、移动互联网、物联网、大数据、云计算、知识库、人工智能等新技术的快速发展和广泛应用,我们将会迎来怎样的时代?
“医疗健康服务日益朝着个性化和智能化方向发展。”中国医学科学院医学信息研究所副所长钱庆对《科学新闻》表示。未来生物医学大数据将推动医学研究范式从实验研究、理论研究、计算和模拟研究向数据密集型研究转变,促进基于真实世界数据的医学研究。生物医学大数据将促使医院信息化建设和“互联网+医疗健康”服务实践更加融合。
谈到生物医学大数据如何更好地与临床相结合,清华大学人工智能研究院教授杨斌告诉《科学新闻》,随着测序技术成本的降低,获取数据将越来越容易,但是重要的是如何从这些错乱复杂的数据中,找到疾病发生的规律和线索。
长期以来,医生们受循证医学训练,更为强调“可靠”的知识,善于采集大样本的临床数据,并将基础理论的研究与临床经验相结合,最后把临床数据总结成临床诊疗指南与路径。