您的当前位置:首页->新闻中心
新闻中心

PacBio如何获得又长又正确的reads

标签:如何,获得,正确  2019-3-1 9:17:27  预览

  

Pacific Biosciences公司近日以单分子环形同等性测序(CCS)为基础开发出一种方案,能够在Sequel测序平台上生成高度正确的长reads。这种方法有望战胜短读长测序的读长不足以及长读长测序的正确性有限的题目。

这篇题为“Highly-accurate long-read sequencing improves variant detection and assembly of a human genome”的文章于近期发表在预印本网站bioRxiv上。

第一作者、PacBio生物信息学部门的首席科学家Aaron Wenger透露表现,这项研究是在2018年年中开展的。他们的最初想法是开发出一种方法来改善reads,但Wenger和他的同事并不知道如何整合长读长和短读长测序的不同用法。

“一开始,我们的想法是让长reads变得更加正确河南人事考试网首页,就像短reads一样,如许人们就能够将为短reads开发的软件应用在这些更长、更正确的reads上,”Wenger诠释说。从某种程度上说这没错,但事情并不像Wenger预想的那样。

“尽管正确长reads和短reads的错误率相似,但这两种数据之间的错误类型是完全不同的,而软件必须意识到这一点,”Wenger说。

短读长测序中的错误每每是DNA中的某个碱基出错,比如明明是个T,出来却是个A。长读长测序则显明不同,它可能会漏掉某个碱基或增长一个碱基。

“现在,人们对市场上各种测序仪的看法是,短读长测序仪只能观察小片段DNA,但它们分外正确,长读长测序仪能够观察数万个碱基,但每十个碱基中就有一个错误,”Wenger说。于是,他和同事努力去生成又长又正确的reads。

后来,他们行使CCS技术实现了这一点。这种测序技术是PacBio多年前开发的,它将DNA变成环形,这意味着研究人员能够对DNA进行多次测序,最终形成同等性序列。

据Wenger介绍,之前没有使用CCS技术,是由于它处理的数据量存在限定。“CCS通常仅限于较短的DNA片段,由于假如是15,000 bp的DNA片段,测序十次,那么这就意味着你要读取150,000 bp的原始DNA,”他说。

然而,PacBio的试剂在2018年下半年经过了升级,能够带来特别很是长的reads。如许,研究团队就能够多次观察长片段的DNA。

于是,他们将这项技术应用于瓶中基因组联盟(Genome in a Bottle Consortium)的参考基因组——人类男性HG002样本。测序效果注解,覆盖度达28倍,平均读长为13.5 kb,且正确性高达99.8%。

“(原先的)参考序列是行使短读长测序建立的,”Wenger谈道。“令人惊喜的是,我们能够行使这种新的数据类型来校正参考序列中的很多错误。”

当然,光靠PacBio的努力还不够。在收集到原始数据后不久,PacBio就与Google(谷歌)分享了他们的效果,盼望行使Google的DeepVariant软件来检出长片段中的变异。在此之前,他们尝试使用了Broad研究所的GATK软件。Wenger透露表现GATK的效果还不错,但不如处理短片段时那么壮大。

Google软件能够直接适应长且正确的序列数据,而GATK必要手写代码。“我们能够使用Google的机器学习方法,并且弄清楚哪些错误是插入缺失错误,而哪些又是替代错误,”Wenger说。

在Google处理了数据之后百度优化排名,PacBio又调集了其他研究机构来分析效果,以便改善流程。详细包括约翰•霍普金斯大学、国家人类基因组研究所(NHGRI)和Dana-Farber癌症研究所。

Wenger透露表现,对于数据处理,目前还有许多工作要做。PacBio正在努力以更轻松、更低成本的体例产生数据。(生物通 薄荷)

PacBio测序仪庞大升级,迎接索取更多技术资料