中国研究团队研发出不依赖参考基因组的组装质量评估新工具
记者19日从中国科学院植物研究所获悉,该所焦元年研究团队近期研发出一种不依赖参考基因组的新型组装质量评估工具CRAQ(Clipping information for Revealing Assembly Quality),可以在单碱基水平上进行分析。 检测并评估基因组序列的准确性并提供相关的纠错解决方案。 这篇基因组研究领域的重要成果论文近日在线发表在国际学术期刊《Nature Communications》上。
CRAQ工具整体流程示意图。中国科学院植物研究所供图
论文通讯作者焦元年研究员指出,高质量的参考基因组序列对于基因注释和相关功能研究至关重要,也是大规模比较基因组学和表观遗传调控研究的重要前提。 但大多数基因组序列仍存在一些组装错误,对相关研究造成一定影响。 准确区分和识别高质量和低质量的基因组序列,不仅可以为评价基因组组装的质量提供依据,为进一步改进提供目标,还可以为后期的比较基因组和功能研究场所提供基因组序列质量认证。 目前,虽然有一些基因组组装质量评估的方法和指标,但大多数只提供总体评估值,而没有针对特定区域或碱基的评估信息。
针对这一问题,研究团队开发的CRAQ可以通过将原始测序序列与组装后的基因组进行比对,并根据序列比对产生的有效“剪切比对”信息,准确检测基因组中的组装错误。 CRAQ将长读长测序片段和短读长测序片段的特征与基因组相结合,可以识别基因组中的小规模区域组装错误和大规模结构组装错误。 不同类别的错误数量是经过统计和标准化的。 转化为两个组装质量评价指标,反映不同层面的基因组组装质量。
CRAQ检测并纠正组装的嵌合片段实例。中国科学院植物研究所供图
同时,CRAQ能够将组装错误与基因组内的高杂合性或单倍型差异区域区分开来,并以单碱基分辨率指示低质量组装区域和潜在错误断点的位置。 在此基础上,CRAQ可以帮助研究人员识别基因组中存在的嵌合片段,并准确分割这些片段,并可以与光学作图或构象捕获技术相结合,进一步构建结构更准确的参考基因组。
研究团队介绍,为了测试和评估CRAQ的性能,他们基于人类参考基因组组装构建了模拟数据集,并使用CRAQ和目前广泛使用的基因组质量评估工具进行测试和比较。 结果表明,当缺乏完美的 CRAQ 参考基因组时表现最佳,并且在检测杂合子区域时也显示出超过 95% 的召回率和精确度。 研究团队还分析了真实果蝇杂交基因组数据集,发现CRAQ可以准确地区分组装错误和杂合区域,而其他工具无法检测杂合区域。 (超过)