中文字幕三级无码专区,国产午夜福利不卡天堂网,1024手机看片网,日韩精品无码视频一区二区蜜桃

齊一生物科技(上海)有限公司

初級(jí)會(huì)員·11年

聯(lián)系電話

18121453965

您現(xiàn)在的位置: 首頁> 技術(shù)文章 > 中山大學(xué)發(fā)表論文三代測(cè)序數(shù)據(jù)計(jì)算方法的突破
初級(jí)會(huì)員·11年
聯(lián)人:
程成
話:
021-60348496
機(jī):
18121453965
真:
021-51632657
址:
上海市松江加工園區(qū)
網(wǎng)址:
www.qiyibio.com

掃一掃訪問手機(jī)商鋪

微信掃碼進(jìn)入微名片

中山大學(xué)發(fā)表論文三代測(cè)序數(shù)據(jù)計(jì)算方法的突破

2017-9-25  閱讀(1228)

分享:

9 月 18 日,中山大學(xué)中山眼科中心謝志、肖傳樂、謝尚潛,中山大學(xué)數(shù)據(jù)科學(xué)與計(jì)算機(jī)學(xué)院陳穎,湖南農(nóng)業(yè)大學(xué)羅峰等學(xué)者合作在 Nature Methods 雜志上發(fā)表了三代基因組測(cè)序數(shù)據(jù)計(jì)算方法,解決了該領(lǐng)域的關(guān)鍵技術(shù)難題。

本項(xiàng)目負(fù)責(zé)人謝志教授和主要完成人肖傳樂副研究員表示:以 PacBio 和 Oxford Nanopore 公司為代表的三代測(cè)序技術(shù)能夠產(chǎn)生遠(yuǎn)遠(yuǎn)長(zhǎng)于二代測(cè)序技術(shù)的基因組序列讀長(zhǎng),很好的解決復(fù)雜基因組的組裝及結(jié)構(gòu)變異等難題,為基因測(cè)序和醫(yī)學(xué)領(lǐng)域帶來了全新的機(jī)遇。然而三代測(cè)序數(shù)據(jù)的高錯(cuò)誤率(12-15%)給數(shù)據(jù)分析了巨大的挑戰(zhàn),嚴(yán)重影響了三代測(cè)序技術(shù)的應(yīng)用。為此我們提出了一種全新的基于全局投票打分的候選序列評(píng)估方法,該方法可以大幅降三代序列比對(duì)、校正和組裝的計(jì)算資源消耗,從而極大提高計(jì)算效率;并基于此方法成功開發(fā)了集序列比對(duì)、校正和組裝為一體的三代測(cè)序分析軟件 MECAT。與同類軟件相比,MECAT 在計(jì)算速度上表現(xiàn)出了明顯的優(yōu)勢(shì),并且在單個(gè)服務(wù)器上實(shí)現(xiàn)了中國(guó)人的基因組組裝工作;為加速三代測(cè)序技術(shù)在生物和醫(yī)學(xué)的應(yīng)用提供了重要的支撐。

圖 1 三代測(cè)序數(shù)據(jù)的基因組組裝時(shí)間對(duì)比

基于三代測(cè)序數(shù)據(jù)的基因組組裝中zui消耗計(jì)算時(shí)間的過程是序列局部比對(duì)。為了減少進(jìn)入局部序列比對(duì)的候選區(qū)域,研究人員提出快速測(cè)量?jī)蓚€(gè)序列編輯距離的序列差異因子(DDF)和全局種子投票打分的計(jì)算理論模型。該模型表現(xiàn)出了兩個(gè)序列全局種子得分與重疊長(zhǎng)度成線性相關(guān)的重要特征,這一特征使得兩序列重疊區(qū)域的長(zhǎng)度可以通過種子全局得分進(jìn)行評(píng)估。全局種子得分模型不僅能獲取候選局部比對(duì)所需要兩序列準(zhǔn)確起始比對(duì)位置,而且實(shí)現(xiàn)了非局部序列比對(duì)的兩兩序列比對(duì)過程,從而大幅節(jié)約了三代測(cè)序兩兩比對(duì)的計(jì)算時(shí)間。目前,MECAT 在人類基因組數(shù)據(jù)中的長(zhǎng)序列兩兩(pairwise)比對(duì)時(shí)間比目前領(lǐng)域的主流軟件(MHAP 和 Daligner)快至少 17 倍。由于兩兩比對(duì)計(jì)算時(shí)間隨著測(cè)序數(shù)據(jù)量增加成指數(shù)增長(zhǎng),因此對(duì)于大測(cè)序數(shù)據(jù)集 MECAT 中兩兩比對(duì)方法的加速比將更加顯著。同時(shí),通過優(yōu)選幾個(gè)zui高得分候選區(qū)域大幅降低進(jìn)入局部序列比對(duì)候選區(qū)域的數(shù)量,也實(shí)現(xiàn)了參考基因組比對(duì)過程中大幅節(jié)約計(jì)算時(shí)間的效果,在人的參考基因組比對(duì)中,MECAT 的速度是目前同類軟件(BLASR 和 BWA)的 5 -20 倍。

三代測(cè)序錯(cuò)誤序列校正是基因組組裝另一耗時(shí)步驟,MECAT 通過優(yōu)選zui高得分的候選匹配序列進(jìn)行局部序列比對(duì),從而大幅降低進(jìn)入局部序列比對(duì)過程的候選序列數(shù)量,因此大幅提高三代測(cè)序的序列校正時(shí)間。MECAT 中序列校正速度是目前軟件的 7 - 8 倍?;蚪M組裝通常尋找序列重疊長(zhǎng)度zui長(zhǎng)路徑作為組裝序列延伸路徑,因此,根據(jù) MECAT 全局種子投票得分與兩序列重疊長(zhǎng)度線性相關(guān)這一重要特征,可以通過全局得分對(duì)每個(gè)序列優(yōu)選 100 個(gè)候選序列作為該序列候選延伸序列,從而避免了如傳統(tǒng) BLAST 方法中每個(gè)序列尋找所有重疊序列的序列比對(duì)計(jì)算時(shí)間。目前,MECAT 在人類基因組的組裝速度是同類軟件的 17-23 倍,MECAT 能夠在單臺(tái)服務(wù)器上用 7 - 8 天完成人類基因組組裝。

由于 MECAT 計(jì)算資源消耗顯著低于目前序列比對(duì)、校正和組裝軟件,同時(shí)提高了算法的精度和組裝的效果,因此 MECAT 實(shí)現(xiàn)了用二代測(cè)序相近的時(shí)間組裝三代測(cè)序基因組,為加速測(cè)序技術(shù)的廣泛應(yīng)用提供重要推力。

會(huì)員登錄

×

請(qǐng)輸入賬號(hào)

請(qǐng)輸入密碼

=

請(qǐng)輸驗(yàn)證碼

收藏該商鋪

X
該信息已收藏!
標(biāo)簽:
保存成功

(空格分隔,最多3個(gè),單個(gè)標(biāo)簽最多10個(gè)字符)

常用:

提示

X
您的留言已提交成功!我們將在第一時(shí)間回復(fù)您~
產(chǎn)品對(duì)比 二維碼 在線交流

掃一掃訪問手機(jī)商鋪

對(duì)比框

在線留言