Loading..

Product was successfully added to your shopping cart.





专访23GENEBANK:精准医疗离不开测序数据的精准解读

专访23GENEBANK:精准医疗离不开测序数据的精准解读

文章媒体来源" '搜狐 科技频道"

 

人类基因组存在着广泛的变异,包括单核苷酸突变SNV(Single Nucleotide Variation),短片段插入/缺失(Short Insertion /Deletion,Indel))和结构变异(Structure Variation)等。如果一个变异在群体中的发生频率大于1%,那么可以称之为多态性,比如单核苷酸多态性SNP(Single Nucleotide Polymorphism)。每个个体的DNA序列遗传自父母的生殖细胞,和现有标准的人类基因组序列相比,会包含很多序列变异。大部分突变为“中性”突变,这种突变对人的生存既没有好处,也没有害处,但是有些突变可以严重影响人体的健康,导致疾病发生。

 

近年来,基因组测序技术的快速发展,特别是第二代的基因测序技术(NGS)建立,不仅大幅降低了测序成本,还显著提高了测序速度,保持了高准确性,为有效识别人类基因组的突变以及突变对健康的潜在影响提供了全新的视野。目前,个体的测序在保证数据质量以及合理测序覆盖深度(全测序一般在30X)的前提下,使用正确的分析方法,突变识别可以达到99.9%的准确率。那么,如何构建正确的序列分析策略,去准确、高效地解读序列,识别和标识疾病相关的突变,对生物信息学、计算机科学等相关领域提出了非常高的要求。

 

当前社会对基因组测序诊断分析的需求,已与十年前大为不同。“精准医疗”的概念这两年恰似突如一夜春风来,尤其从近期召开的2016年CSCO年会来看,与往年很不一样,大量的基因测序公司成了会议的主角,这充分说明基因检测在医学上的辅助作用,得到了广泛和深刻的认同,而精准医疗的前提是有对测序数据的精准解读。因此,能否提供精准的数据分析,成为制胜这个领域的关键。

 

23GENEBANK生物信息部门的董博士提到:“我们公司从一开始, 在技术准备上,构架的即是基于第二代测序技术的序列比对和突变分析平台。这个平台的搭建全面整合了最新的领域发展,提高了突变识别、标注的精度和广度。可以说,我们不是检测中的生产型企业,而是基因大数据分析和挖掘解读的公司。”

 

首先,在算法方面,23GENEBANK引入改进的基于贝叶斯统计的算法,优化了突变识别流程。该算法不同于其他先验概率方法——它们往往基于简化的统计模型,如二倍体假设和均一化拷贝数等。改良的贝叶斯统计法对样本进行多等位基因位点,非统一拷贝数建模,通过评估每个碱基位点多个基因型的或然率,得到最可能的基因型,提高了辨识的精度。此外,该算法主要基于序列和参考基因组的比对,避免了序列自身排列时引入的潜在误差。

 

其次,在结构变异(SV)的检测上,公司的生物信息学团队整合了三种不同预测策略,它们分别针对三种不同结构变异的情况:

一是测序深度(read depth):缺失区域深度往往比正常区域要低,重复区域深度比正常区域要高;

二是拼接读数(split reads):由于NGS的reads序列是随机比对到基因组,如果有缺失或重复,那么一定会有几条读数前面部分比对在基因组一个位置,而后面部分会比对在基因组另一个位置;

三是读数对(read pairs):一般来说一对读数的距离在300-500bp,如果存在缺失或重复,那么配对的reads pair的距离就会改变。三种方法联合使用,实现算法上的优势互补,在兼顾可靠性的同时,也提高了潜在SV的识别率。

 

最后,当突变被识别后,进一步对突变进行标注。在解读“突变-疾病”的关系方面, 公司研发团队不仅进行了千万级别数量的的文献挖掘,也引入机器学习的方法构建了“突变-疾病”风险预测模型,来辅助突变标注。该方法整合多种现有的策略,比如功能进化,结构信息和生物网络等等,建立统计打分矩阵,来评估“突变-疾病”的相关性。同时利用现有公共数据库的资源处理后构建训练数据套进一步优化模型,并使用一套高质量的疾病相关突变作为金标准,去评估模型预测的精度和敏感度。这个机器学习方法能进一步过滤掉“噪音”(非疾病相关突变),提高了“突变-疾病”相关预测的可靠性。

 

“其实在序列比对和突变分析平台上,我们不仅整合和优化了多种算法和策略,来提高突变识别的广度和精度,同时,在平台的软件框架设计中也颇具独创性的特点”,曾在丹麦从事多年NGS研究 的高级科学家钱夔告诉我们。“由于我们团队自身的技术定位,决定了我们公司对标的企业,并不是传统大而全的生产类企业,而是像CLC bio(丹麦)、美国的七桥基因,Veritas Genetics 这些提供测序数据分析的公司。可以说,这是集合了全球最聪明的一群人的领域,很多人都把基因比喻成人体说明书,我认为这个比喻不是很准确,同样一份从实验室出来的原始数据,并不是所有公司都有能力把它解读的充分而又准确。能否具备“说明书”的作用,主要取决于对基因数据的解读能力。

 

在谈到具体的实现方案中,他进一步做了介绍 :“首先,考虑第二代测序技术所产生的海量序列数据 和分析这些数据所需的计算量,平台的软件设计兼顾了并行计算框架,保证序列比对分析的多线程运行,提高了比对和突变识别的分析效率,减少了所需的计算时间。

 

其次,公司现在有着多条产品线,产品的设计针对不同需求的人群,因此不同的产品线采用不同测序策略,需要不同的序列分析路线,应对这种情况,我们的平台发展出很好的可扩展性,自主开发的软件提供了相应的扩展点,能针对不同的项目扩展不同的处理分析模块,提供灵活的处理策略。

 

此外,平台也提供了流程的自动化功能。将主要功能模块打包处理,自动运行。这项功能减少了人为误差,提高了工作效率,减少了机器空置时间。”

 

这一系列异常庞大复杂,但在处理效率和处理精度上具有显著竞争力的运行体系,为23GENEBANK构建了独有的自主知识产权体系,截止目前,公司已经拿到了6个软件著作权,其余6个也将在今年年底拿到,同时,发明专利也已进入申请阶段。可以说,在专注于生物信息处理的公司中,公司对于个人基因组的处理和解读水平,完全国际同步,并领先于国内的大部分生信处理平台。30X全测序产生的90G数据量,能在10小时之内分析跑完所有分析流程,在国内,这个速度是首屈一指的。同时,公司目前拥有业内最大的数据库,能对1000多种复杂疾病、4000多种单基因疾病和900多种各类药物进行精准的分析,也因此构建了预防型和临床型两大类不同的产品线。

 

生物信息分析能力其实是未来国内基因相关企业的最大竞争力。如何让普通人更好的理解生物信息分析的作用?我们可以打个比方:这就好比谍报中运用的摩斯码,在基因检测中,从实验室下机出来的是一堆形如乱码的原始数据,得到这个数据绝不是检测的结束,而是万里长征刚走了一步,生物信息分析的任务就是把这堆像乱码一样的数据进行处理,解读分析,得出有用的突变信息。

 

在谍战剧中,发报机不是最关键的,关键是发报机发出的信息要被很好的破译和识别。所以,生物信息分析在整个基因检测产品中占到的费用比例,也在逐年升高,在海外,这个环节占到的收费比例已经超过了测序本身的实验成本。如上文所举例,国外也已经比较清晰的形成了以生物信息分析为主的一批数据处理公司,他们专注于基因信息的处理和分析,是整个产业链中份量很重、技术含量非常高的一个环节。基因产业中,数据生产其实是过剩的,尤其在近3年大量资本热钱盲目涌入基因产业之后,而后续的解读分析是严重稀缺的,目前23GENEBANK在国内清晰的产业定位,正是源于此认识。公司首席运营官告诉我们:“我们希望公司可以逐步建立国内基因数据解读分析的行业标准,尤其在混沌的行业发展初期,标准的树立和对它的坚持,比短期内用不恰当的方式去获取市场份额更重要。”。

 

第二代测序技术发展带来前所未有的机遇,推动个性化预防、诊断、治疗和预后的发展,专业的生物信息分析人才,在此过程中起到了不可替代的作用。可以看到,近年来非常多的基因行业科研人员正在向生物信息分析方向转型,而大量原来在基因行业中主要从事生产型的企业也在努力转型,加强生物信息方面的队伍建设,弥补原来在解读分析技术上的短板。相信未来,应该会有更多的国内公司,像23GENEBANK那样,成为聚焦在基因信息分析解读领域里的中枢力量。

 

产品系列

- Anchor -

男性检测
女性检测

- Akso -

全外显子测序

- Alpha -

全基因组测序
礼品卡

礼品卡选购
集团购买
礼品卡使用


合作伙伴

合作伙伴工商银行
专属链接入口
幕后 WeMedia

2016全球精准医疗(中国)峰会
中国基因测序技术与产业联盟峰会
深圳财经生活频道专访
越是憧憬,越要风雨兼程
搜狐:专访23GENEBANK
GA4GH第四次全体会议
第二届浙江国际健康产业博览会
精准医疗与基因测序大会
华友生活与基因检测
优家荟:关爱女性健康
基因创业派:23GB罗亮
联系我们

400-0055-677
bd@23genebank.com
微信公众平台:23genebank
市场部微信:c18616967170
Join us

加入23GeneBank