0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌推出開源工具DeepVariant,用深度神經(jīng)網(wǎng)絡(luò)識別基因變異

人工智能和機(jī)器人研究院 ? 2017-12-07 15:05 ? 次閱讀

Google今天推出了一個名叫DeepVariant的開源工具,用深度神經(jīng)網(wǎng)絡(luò)來從DNA測序數(shù)據(jù)中快速精確識別堿基變異位點(diǎn)。

學(xué)科研究的革命性進(jìn)展,特別是基因?qū)W上,需要依賴于新技術(shù)的出現(xiàn)。比如桑格發(fā)明了測序法之后,才實現(xiàn)了人類基因組的測序。

再比如DNA(微陣列)芯片技術(shù)的誕生,使得大規(guī)模的基因測序成為可能。這些技術(shù)讓我們能夠獲得大量遺傳信息,可以更廣泛地應(yīng)用于健康、農(nóng)業(yè)和生態(tài)上。

基因測序領(lǐng)域里,最革命性的技術(shù)當(dāng)屬2000年初首次商用的高通量測序(縮寫為HTS)了。HTS可以大規(guī)模、低成本、快速地獲得任何生物的基因序列。

不過,HTS有個致命的問題在于,測序出來的結(jié)果不是完整的,而是碎片化的片段信息。

比如測的是人的基因序列的話(也就是說,信息量級為23對染色體上的30億對堿基排序),那么得到的測序結(jié)果是不到10億個短序列片段,一般每個短序列片段我們稱為讀取單位(reads)。

每個讀取單位含有100個堿基對(不同讀取單位的信息需要重疊,才能最后拼全),而每個堿基的錯誤率范圍是0.1%到10%。所以,一直以來,對于HTS來說,最大的挑戰(zhàn)是把碎片化的結(jié)果信息拼成一整段完整的序列信息。

瓶中基因組聯(lián)盟Genome in a Bottle Consortium(GIAB),和精準(zhǔn)FDA平臺(美國藥監(jiān)局做的基因組信息學(xué)社區(qū)和共享數(shù)據(jù)平臺)一樣,致力于提高基于HTS基因測序結(jié)果。他們能提供高精度的人體基準(zhǔn)基因組序列信息。

把測序結(jié)果與基準(zhǔn)基因序列一比對,就可以得到很多個堿基變異位點(diǎn)(就是上圖打星的地方),這些位點(diǎn),可能是SNP單核苷酸多態(tài)性導(dǎo)致的,也可能是測序過程中復(fù)制出錯造成的。

今天,Google Brain團(tuán)隊,聯(lián)合同屬于Alphabet旗下的生命科學(xué)兄弟公司Verily,用了兩年多時間,研發(fā)出了一個名叫DeepVariant的開源工具,專門用深度神經(jīng)網(wǎng)絡(luò)來識別HTS結(jié)果中DNA測序數(shù)據(jù)里這些堿基變異位點(diǎn)。這個工具在準(zhǔn)確率上和精確度上,比傳統(tǒng)的比對拼接方法都高出一大截。

DeepVariant,把工作量巨大的拼接問題(HTS碎片化的結(jié)果拼接成完整的基因序列),轉(zhuǎn)變成了一個典型的圖像分類問題。而圖像分類正是谷歌擅長的技術(shù)。

2016年,DeepVarient還在PrecisionFDA Truth Challenge中贏得了最高SNP性能獎(Highest SNP Performance)。在那之后,Google Brain團(tuán)隊又將錯誤率降低了50%。

下面的四幅圖,分別代表實際測序的片段和基準(zhǔn)序列的比對結(jié)果。

△A:單核苷酸多態(tài)性造成的堿基變異位點(diǎn);
B:一條染色體上少了一個堿基;
C:兩條染色體上都少了一個堿基;
D:復(fù)制錯了的堿基變異位點(diǎn)。

在比對過程中,要回答的一個關(guān)鍵的問題是,怎么判斷比對后得到的堿基變異位點(diǎn),是存在于兩條染色體中,還是只在一條里,還是都沒有。造成堿基變異位點(diǎn)的原因不只一種,最常見的三種可能是單核苷酸多態(tài)性,或多插了一個堿基,或少復(fù)制了一個堿基。

這些變異位點(diǎn)如果用視覺識別的算法就能快速找出來。大大提高HTS后的比對拼接的效率。

因為瓶中基因組聯(lián)盟Genome in a Bottle Consortium(GIAB)提供的人體基準(zhǔn)基因組序列信息是高精度可信的,或者更嚴(yán)謹(jǐn)?shù)卣f,是最接近真實序列的信息。

通過這個基準(zhǔn)序列得到的復(fù)制數(shù)據(jù),谷歌團(tuán)隊可以拿它們來訓(xùn)練基于Tensor Flow的圖像分類模型,所得到的DeepVariant,最后可以區(qū)別真實序列數(shù)據(jù)和復(fù)制數(shù)據(jù)。

盡管DeepVariant根本不懂什么是基因組序列,也不懂HTS,但是只用了一年,就已經(jīng)贏得了PrecisionFDA Truth Challenge中的最高SNP性能獎(Highest SNP Performance)。而且到目前為止,把已有最優(yōu)異的方法拼接錯誤率降低了50%多。

在發(fā)布開源代碼的同時,Google Brain還發(fā)布Google Cloud上的DeepVarient工作流,方便開發(fā)者用它來處理大型數(shù)據(jù)集。

最后,附上相關(guān)鏈接:

Google Research Blog介紹:https://research.googleblog.com/2017/12/deepvariant-highly-accurate-genomes.html

開源代碼:https://github.com/google/deepvariant

Google Cloud版:https://cloud.google.com/genomics/deepvariant


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6080

    瀏覽量

    104391
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46067

    瀏覽量

    235107

原文標(biāo)題:谷歌推出開源工具DeepVariant,用深度學(xué)習(xí)識別基因變異

文章出處:【微信號:gh_ecbcc3b6eabf,微信公眾號:人工智能和機(jī)器人研究院】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    FPGA在深度神經(jīng)網(wǎng)絡(luò)中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)作為其核心算法之一,在圖像識別、語音識別、自然語言處理等領(lǐng)域取得了顯著成果。然而,傳統(tǒng)的
    的頭像 發(fā)表于 07-24 10:42 ?385次閱讀

    殘差網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)

    殘差網(wǎng)絡(luò)(Residual Network,通常簡稱為ResNet) 是深度神經(jīng)網(wǎng)絡(luò)的一種 ,其獨(dú)特的結(jié)構(gòu)設(shè)計在解決深層網(wǎng)絡(luò)訓(xùn)練中的梯度消失和梯度爆炸問題上取得了顯著的突破,并因此成為
    的頭像 發(fā)表于 07-11 18:13 ?734次閱讀

    pytorch中有神經(jīng)網(wǎng)絡(luò)模型嗎

    處理、語音識別等領(lǐng)域取得了顯著的成果。PyTorch是一個開源深度學(xué)習(xí)框架,由Facebook的AI研究團(tuán)隊開發(fā)。它以其易用性、靈活性和高效性而受到廣泛歡迎。在PyTorch中,有許多預(yù)訓(xùn)練的
    的頭像 發(fā)表于 07-11 09:59 ?527次閱讀

    PyTorch神經(jīng)網(wǎng)絡(luò)模型構(gòu)建過程

    PyTorch,作為一個廣泛使用的開源深度學(xué)習(xí)庫,提供了豐富的工具和模塊,幫助開發(fā)者構(gòu)建、訓(xùn)練和部署神經(jīng)網(wǎng)絡(luò)模型。在神經(jīng)網(wǎng)絡(luò)模型中,輸出層是
    的頭像 發(fā)表于 07-10 14:57 ?305次閱讀

    深度神經(jīng)網(wǎng)絡(luò)與基本神經(jīng)網(wǎng)絡(luò)的區(qū)別

    在探討深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNNs)與基本神經(jīng)網(wǎng)絡(luò)(通常指傳統(tǒng)神經(jīng)網(wǎng)絡(luò)或前向神經(jīng)網(wǎng)絡(luò))的區(qū)別時,我們需
    的頭像 發(fā)表于 07-04 13:20 ?340次閱讀

    如何使用MATLAB神經(jīng)網(wǎng)絡(luò)工具

    神經(jīng)網(wǎng)絡(luò)是一種模擬人腦神經(jīng)元網(wǎng)絡(luò)的計算模型,廣泛應(yīng)用于各種領(lǐng)域,如圖像識別、語音識別、自然語言處理等。在MATLAB中,可以使用神經(jīng)網(wǎng)絡(luò)工具
    的頭像 發(fā)表于 07-03 10:34 ?1361次閱讀

    matlab神經(jīng)網(wǎng)絡(luò)工具箱結(jié)果分析

    神經(jīng)網(wǎng)絡(luò)是一種強(qiáng)大的機(jī)器學(xué)習(xí)技術(shù),廣泛應(yīng)用于各種領(lǐng)域,如圖像識別、語音識別、自然語言處理等。MATLAB提供了一個功能強(qiáng)大的神經(jīng)網(wǎng)絡(luò)工具箱,可以幫助用戶快速構(gòu)建和訓(xùn)練
    的頭像 發(fā)表于 07-03 10:32 ?362次閱讀

    bp神經(jīng)網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)

    BP神經(jīng)網(wǎng)絡(luò)(Backpropagation Neural Network)是一種常見的前饋神經(jīng)網(wǎng)絡(luò),它使用反向傳播算法來訓(xùn)練網(wǎng)絡(luò)。雖然BP神經(jīng)網(wǎng)絡(luò)在某些方面與
    的頭像 發(fā)表于 07-03 10:14 ?379次閱讀

    深度學(xué)習(xí)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)作為其中的重要分支,已經(jīng)在多個領(lǐng)域取得了顯著的應(yīng)用成果。從圖像識別、語音
    的頭像 發(fā)表于 07-02 18:19 ?568次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的原理是什么

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡稱CNN)是一種深度學(xué)習(xí)模型,廣泛應(yīng)用于圖像識別、語音識別、自然語言處理等領(lǐng)域。本文將詳細(xì)介紹卷積
    的頭像 發(fā)表于 07-02 14:44 ?355次閱讀

    深度神經(jīng)網(wǎng)絡(luò)模型有哪些

    深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNNs)是一類具有多個隱藏層的神經(jīng)網(wǎng)絡(luò),它們在許多領(lǐng)域取得了顯著的成功,如計算機(jī)視覺、自然語言處理、語音識別等。以下是一些常見
    的頭像 發(fā)表于 07-02 10:00 ?557次閱讀

    神經(jīng)網(wǎng)絡(luò)架構(gòu)有哪些

    神經(jīng)網(wǎng)絡(luò)架構(gòu)是機(jī)器學(xué)習(xí)領(lǐng)域中的核心組成部分,它們模仿了生物神經(jīng)網(wǎng)絡(luò)的運(yùn)作方式,通過復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)信息的處理、存儲和傳遞。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,各種
    的頭像 發(fā)表于 07-01 14:16 ?353次閱讀

    詳解深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

    在如今的網(wǎng)絡(luò)時代,錯綜復(fù)雜的大數(shù)據(jù)和網(wǎng)絡(luò)環(huán)境,讓傳統(tǒng)信息處理理論、人工智能與人工神經(jīng)網(wǎng)絡(luò)都面臨巨大的挑戰(zhàn)。近些年,深度學(xué)習(xí)逐漸走進(jìn)人們的視線,通過
    的頭像 發(fā)表于 01-11 10:51 ?1612次閱讀
    詳解<b class='flag-5'>深度</b>學(xué)習(xí)、<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>與卷積<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的應(yīng)用

    卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)

    卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)? 卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一種基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,在圖像識別
    的頭像 發(fā)表于 12-07 15:37 ?3762次閱讀

    淺析深度神經(jīng)網(wǎng)絡(luò)壓縮與加速技術(shù)

    深度神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的一種框架,它是一種具備至少一個隱層的神經(jīng)網(wǎng)絡(luò)。與淺層神經(jīng)網(wǎng)絡(luò)類似
    的頭像 發(fā)表于 10-11 09:14 ?599次閱讀
    淺析<b class='flag-5'>深度</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>壓縮與加速技術(shù)