A片太大太长太深好爽A片,中文字幕二区av人妻少妇,国产全部理论片线观看

快速且經(jīng)濟(jì)高效的全基因組測(cè)序和分析可以迅速為患有罕見或未診斷疾病的危重患者提供答案。最近在加速臨床測(cè)序方面取得的進(jìn)展，例如創(chuàng)造世界紀(jì)錄用于快速診斷的DNA測(cè)序技術(shù) ，使我們離在臨床環(huán)境中進(jìn)行全基因組基因診斷又近了一步。

斯坦福大學(xué)醫(yī)學(xué)院（ Stanford University School of Medicine ）、NVIDIA （ NVIDIA ）、谷歌（ Google ）、 UCSC 和牛津納米孔技術(shù)（ Oxford Nanopore Technologies ， ONT ）領(lǐng)導(dǎo)的一個(gè)團(tuán)隊(duì)最近使用這項(xiàng)技術(shù)來(lái)識(shí)別與疾病相關(guān)的基因變異，這些變異在短短 7 小時(shí) 18 分鐘內(nèi)就得到了診斷，結(jié)果于 2022 年 1 月發(fā)表在新英格蘭醫(yī)學(xué)雜志上。

這一創(chuàng)紀(jì)錄的端到端基因組工作流程依賴于創(chuàng)新技術(shù)和高性能計(jì)算。它利用長(zhǎng)閱讀納米孔測(cè)序技術(shù)更好地分析結(jié)構(gòu)變體。這是在 48 個(gè)流動(dòng)池中實(shí)現(xiàn)的，優(yōu)化的方法使孔占有率達(dá)到 82% ，在短短幾個(gè)小時(shí)內(nèi)快速生成 202 千兆堿基。對(duì)輸出的分析分布在一個(gè)谷歌云計(jì)算環(huán)境中，包括 16 個(gè) 4xV100 GPU 實(shí)例（總計(jì) 64 GPU 個(gè)）的基調(diào)用和對(duì)齊，以及 14 個(gè) 4xP100 GPU 實(shí)例（總計(jì) 56 GPU 個(gè)）的變體調(diào)用。

自一月 NEJM 發(fā)表以來(lái)，NVIDIA Clara 團(tuán)隊(duì)一直在優(yōu)化 DGX-A100 的全基因組工作流程，使臨床醫(yī)生和研究者能夠在八 A100 GPU 上部署與世界記錄方法相同的分析，而在 4H10M 中部署 60X 全基因組（圖 1 ；在 HG00 參考樣品上標(biāo)明）。

圖 1 。 NVIDIA DGX-A100 上優(yōu)化的納米孔測(cè)序工作流程

這不僅可以在本地運(yùn)行的單服務(wù)器（ 8-GPU ）框架中實(shí)現(xiàn)快速分析，還可以將每個(gè)樣本的成本降低三分之二，從 568 美元降至 183 美元。

基本呼叫和對(duì)齊

堿基調(diào)用是將原始儀器信號(hào)分類為基因組堿基 A 、 C 、 G 和 T 的過(guò)程。這是確保所有下游分析任務(wù)準(zhǔn)確性的計(jì)算關(guān)鍵步驟。這也是一個(gè)重要的數(shù)據(jù)縮減步驟，將生成的數(shù)據(jù)縮減約 10 倍。

以每堿基 340 字節(jié)為單位，一個(gè)單一的 60 倍覆蓋率的整個(gè)基因組在原始信號(hào)中很容易達(dá)到數(shù)萬(wàn)億字節(jié)，而在處理時(shí)則為數(shù)百千兆字節(jié)。因此，計(jì)算速度有利于與測(cè)序輸出速度相匹敵，這是非常重要的，通過(guò) 48 個(gè)流動(dòng)單元的 128000 個(gè)孔，以每秒約 450 個(gè)堿基的速度進(jìn)行。

ONT 的 PromethION P48 測(cè)序儀在 72 小時(shí)的運(yùn)行中可以產(chǎn)生多達(dá) 10 個(gè) Terabase ，相當(dāng)于 96 個(gè)人類基因組（覆蓋率為 30 倍）。

這項(xiàng)工作所需的快速分類任務(wù)已經(jīng)受益于深度學(xué)習(xí)創(chuàng)新和 GPU 加速。用于此目的的核心數(shù)據(jù)處理工具包 Guppy 使用遞歸神經(jīng)網(wǎng)絡(luò)（ RNN ）進(jìn)行基址調(diào)用，可以選擇更小（更快）或更大（更高精度）的遞歸層大小的三種不同架構(gòu)。

BaseCall 中的主要計(jì)算瓶頸是 RNN 內(nèi)核，它得益于 GPU 與 ONT 序列器的集成，例如桌面網(wǎng)格 Mk1 ，其中包括一個(gè) V100 GPU 和手持 MinION Mk1C ，其中包括一個(gè) Jetson 邊緣平臺(tái)。

比對(duì)是將合成的堿基 DNA 片段（現(xiàn)在是 As 、 Cs 、 Gs 和 Ts 的字符串形式）提取出來(lái)，并確定這些片段起源的基因組位置，通過(guò)大規(guī)模并行測(cè)序過(guò)程組裝完整基因組的過(guò)程。這基本上是從許多 100-100000 bp 長(zhǎng)的讀取中重建全長(zhǎng)基因組。就創(chuàng)造世界紀(jì)錄的樣本而言，總共有 1300 萬(wàn)次閱讀。

在最初的世界記錄分析中， basecalling 和 alignment 分別在 Guppy 和 Minimap2 的不同實(shí)例上運(yùn)行。通過(guò)將其遷移到單服務(wù)器 DGX-A100 解決方案，并使用 Guppy 的集成 minimap2 aligner ，您可以立即節(jié)省 I / O 時(shí)間，并從 A100 用于 RNN 推斷的張量核心中獲益。通過(guò)在 DGX 上分別平衡八個(gè) A100 GPU 和 256 CPU 線程的基址調(diào)用和對(duì)齊，這兩個(gè)進(jìn)程可以完全重疊，以便與基址調(diào)用同時(shí)對(duì)齊讀取，不會(huì)對(duì)總運(yùn)行時(shí)間造成影響（《 1 分鐘）。

這使 DGX-A100 上的 basecalling 和校準(zhǔn)步驟的運(yùn)行時(shí)間變?yōu)?2h 46m ，這也可以與測(cè)序本身重疊。這與 60 倍樣本的預(yù)期測(cè)序時(shí)間相似。

變異呼叫

變體調(diào)用是工作流的一部分，旨在識(shí)別新組裝個(gè)體基因組中與參考基因組不同的所有點(diǎn)。這包括掃描基因組的全部寬度，以尋找不同類型的變異。例如，這可能包括小的單堿基對(duì)變體，一直到覆蓋數(shù)千個(gè)堿基對(duì)的大結(jié)構(gòu)變體。世界紀(jì)錄管道使用胡椒粉作為小變體，使用嗅探作為結(jié)構(gòu)變體。

PEPPER Margin DeepVariant 方法旨在優(yōu)化小變異，以實(shí)現(xiàn)納米孔測(cè)序產(chǎn)生的長(zhǎng)讀。

PEPPER 通過(guò) RNN 識(shí)別候選變體， RNN 由兩個(gè)雙向、選通、循環(huán)單元層和一個(gè)線性轉(zhuǎn)換層組成。

Margin 然后使用隱馬爾可夫模型方法進(jìn)行一個(gè)稱為單倍型的過(guò)程，確定哪些變體是從母系或父系染色體一起遺傳的。它將此信息傳遞給 Google DeepVariant ，以最大限度地提高雜合子變體調(diào)用的準(zhǔn)確性。

DeepVariant 通過(guò)一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)最終變體進(jìn)行分類，該網(wǎng)絡(luò)建立在 Inception v2 體系結(jié)構(gòu)之上，專門適用于 DNA 讀取堆積輸入圖像。

總的來(lái)說(shuō)， PEPPER Margin DeepVariant 允許更快的 PEPPER 神經(jīng)網(wǎng)絡(luò)掃描整個(gè)基因組尋找候選基因，然后使用更大的 DeepVariant 神經(jīng)網(wǎng)絡(luò)對(duì)這些候選基因進(jìn)行高精度的變異調(diào)用。為了加速這條管道，世界紀(jì)錄工作流使用了 Parabricks DeepVariant ，這是一種 GPU 加速的實(shí)現(xiàn)，比 CPU 上的開源版本快 20 倍以上（圖 2 ）。

Clara 團(tuán)隊(duì)通過(guò)修改 PEPPER Margin 以集成方式運(yùn)行，按染色體分割數(shù)據(jù)，并在 GPU 上同時(shí)運(yùn)行程序，進(jìn)一步加快了速度。 PEPPER 還針對(duì)批量大小、工作人員數(shù)量和呼叫者數(shù)量等管道參數(shù)進(jìn)行了優(yōu)化，并對(duì) PyTorch 進(jìn)行了升級(jí)，以支持 NVIDIA 安培體系結(jié)構(gòu)加速 RNN 推理瓶頸。

對(duì)于結(jié)構(gòu)變量調(diào)用， Snifgles 升級(jí)為最近發(fā)布的 Snifgles 2 ，其效率要高得多，僅在 CPU 上的加速度為 38 倍。

所有這些改進(jìn)使 DGX-A100 的多變量調(diào)用階段的運(yùn)行時(shí)間達(dá)到 1h 24m 。

圖 2 。 Parabricks DeepVariant 支持在 ONT 數(shù)據(jù)上快速運(yùn)行

視頻 1 。危重病人超快速 DNA 測(cè)序技術(shù)的優(yōu)化

使用 NVIDIA DGX-A100 為實(shí)時(shí)測(cè)序供電

通過(guò)優(yōu)化 DGX A100 的世界記錄 DNA 測(cè)序技術(shù)，NVIDIA Clara 團(tuán)隊(duì)為實(shí)時(shí)測(cè)序提供了動(dòng)力，簡(jiǎn)化了單個(gè)服務(wù)器上的復(fù)雜工作流，并且在達(dá)到最先進(jìn)性能的同時(shí)，將分析成本降低了 50% 以上。

關(guān)于作者

Harry Clifford：作為NVIDIA 基因組學(xué)的高級(jí)產(chǎn)品架構(gòu)師， Harry 致力于工程和產(chǎn)品開發(fā)之間的接口，利用NVIDIA 在人工智能、高性能計(jì)算（ HPC ）和數(shù)據(jù)分析堆棧方面的專業(yè)知識(shí)，以加速高精度解決方案解決基因組學(xué)工作流問題。他的背景是生物信息學(xué)和功能基因組學(xué)，包括來(lái)自牛津大學(xué)的博士學(xué)位、生物制藥行業(yè)和劍橋大學(xué)的博士后經(jīng)驗(yàn)以及生物技術(shù)領(lǐng)域的創(chuàng)業(yè)經(jīng)驗(yàn)。哈里在與人共同創(chuàng)立精準(zhǔn)腫瘤公司 CCG 后，被列入福布斯“ 30 歲以下”榜單。 ai （被 Dante Labs 收購(gòu)），一家由 Y Combinator 和默克加速器支持的初創(chuàng)公司，通過(guò)深度學(xué)習(xí)和高級(jí)分析軟件提供決策支持。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴