中国科学院植物研究所研究员焦远年团队研究开发了一种新的不依赖参考基因组的组装质量评估工具CRAQ (Clipping information for Revealing Assembly Quality),可以在单碱基水平检测和评估基因组序列的精准度,并提供了相关纠错方案。相关研究成果日前发表于《自然—通讯》。
近年来,随着测序技术和算法的开发,大量物种基因组被陆续测序和组装,但是基因组组装质量参差不齐,存在不同程度的组装错误,影响了后续的相关研究。高质量的参考基因组对于基因的精准注释和功能研究以及比较基因组学和调控元件的挖掘等至关重要。虽然目前已经有一些基因组组装质量评估的方法,但大多数仅提供了一个概述性的评估值,没有能够针对特定区域或特定碱基给出精准度的评估。
CRAQ通过将原始测序序列比对到组装的基因组上,基于序列比对产生的有效剪切对齐信息,精准地检测基因组中存在的组装错误。结合SMS长读长测序片段和NGS短读长测序片段与基因组比对的特征,CRAQ可以识别基因组内小规模的区域组装错误和大范围的结构组装错误。不同类别的错误数量经过统计和标准化处理后被转化为两个组装质量评估指标:R-AQI和S-AQI,以反映不同层面的基因组组装质量。
此外,CRAQ能够将组装错误与基因组内的高杂合区域或单倍型差异区分开来,并在单碱基分辨率下指示低质量组装区域和潜在错误断点的位置。因此,CRAQ能够帮助研究人员识别基因组中存在的嵌合片段,并将这些片段准确地拆分,以利于结合光学图谱或构象捕获技术进一步构建结构更加准确的参考基因组。(来源:中国科学报 田瑞颖)
相关论文信息:https://www.nature.com/articles/s41467-023-42336-w