計算生物學領(lǐng)域依賴于快速、準確和易于使用的生物信息學工具。隨著下一代測序( NGS )的速度越來越快、成本越來越低,數(shù)據(jù)洪流正在出現(xiàn),人們對可訪問、高通量、行業(yè)標準分析的需求日益增長。
2022 年 GTC ,我們宣布發(fā)布 NVIDIA Clara Parabricks v4.0 ,這對基因組研究人員和生物信息學家部署和擴展基因組測序分析管道的方式帶來了重大改進。
Clara Parabricks 軟件現(xiàn)在對 NGC 研究人員免費提供 作為單獨的工具或統(tǒng)一的容器。需要企業(yè)級支持的客戶可以通過 NVIDIA AI Enterprise 獲得許可版本。
Clara Parabricks 現(xiàn)在很容易集成到通用工作流語言中,例如工作流描述語言( WDL )和 NextFlow ,用于將 GPU 加速工具和第三方工具交織在一起,以及在本地和云中進行可擴展部署。還支持 Broad Institute 的 Cromwell 工作流管理系統(tǒng)。
CPU Parabricks 現(xiàn)在可以部署在 Broad Institute 的 Terra SaaS platform 上,使 25000 多名 Terra 科學家可以使用它。與 Clara 環(huán)境中的 24 小時相比,使用 Clara Parabricks 可以將基因組分析縮短到一小時多一點,同時將整個基因組測序分析的成本降低 50% 。
Clara Parabricks 繼續(xù)專注于 GPU 加速、行業(yè)標準和基于深度學習的工具,并包括最新的 DeepVariant v1.4 生殖線調(diào)用者。 Clara Parabricks 的重點是開發(fā)與定序器無關(guān)的工具和深度學習方法。
Clara Parabricks 現(xiàn)在可以通過更多的云提供商和合作伙伴使用,包括 Amazon Web Services 、 Google cloud Platform 、 Terra 、 DNAnexus 、 Lifebit 、 Agilent Technologies 、英國生物銀行研究分析平臺( RAP )、 Oracle cloud Infrastructure 、 Naver cloud 、阿里云和百度 AI cloud 。
研發(fā)的免許可使用
Clara Parabricks v4.0 現(xiàn)在可完全免費用于研發(fā)。這意味著比以往任何時候都更少的技術(shù)障礙,包括刪除以前版本的基因組分析軟件中存在的安裝腳本和企業(yè)許可服務(wù)器。
這也意味著大大簡化了部署,能夠在任何 NVIDIA 認證的系統(tǒng)上快速輕松地拉取和運行 Clara Parabricks Docker 容器,在本地或云中使用最為方便。
需要企業(yè)級技術(shù)和工程支持以支持其生產(chǎn)工作流的商業(yè)用戶,或者需要與 NVIDIA 專家合作開發(fā)新功能、應(yīng)用程序和性能優(yōu)化的商業(yè)用戶現(xiàn)在可以訂閱 NVIDIA AI Enterprise Support 。 NVIDIA AI Enterprise v3.0 即將發(fā)布, Parabricks v4.0 將提供此支持。
NVIDIA AI Enterprise Support 訂閱提供全棧支持(從容器級別,到完全本地和云部署)、訪問 NVIDIA Parabricks 專家、安全通知、 IT 或數(shù)據(jù)科學等領(lǐng)域的企業(yè)培訓,以及對 TensorFlow 、 PyTorch 、 NVIDIA TensorRT 和 NVIDIA RAPIDS 的深度學習支持。了解有關(guān) NVIDIA AI Enterprise Support Services and Training 的更多信息。
圖 1.免費訪問 Clara Parabricks 中的所有工具,包括管道和工作流
在 WDL 和 NextFlow 工作流中部署
現(xiàn)在,您可以直接從 NGC collection containers 中提取 Clara Parabricks ,而無需授權(quán)服務(wù)器,這意味著它可以輕松地作為多種系統(tǒng)和平臺上可擴展和靈活的生物信息學工作流的一部分運行。
這包括流行的生物信息學工作流管理器 WDL 和 NextFlow ,可在新的 Clara-Parabricks-Workflows GitHub repo 上獲得,供生物信息學社區(qū)通用。您可以找到以下 WDL 和 NextFlow 工作流或模塊:
BWA-MEM 與 Clara Parabricks FQ2BAM 對齊和處理
運行加速 HaplotypeCaller 和 DeepVariant 的生殖線調(diào)用工作流,可選擇應(yīng)用 GATK 最佳實踐
BAM2FQ2BAM 工作流程,用于提取讀取并重新對準新的參考基因組(例如 T2T 完成的人類基因組)
使用加速 Mutect2 的體細胞工作流,具有可選的法線面板
為 VCF 中的體變量調(diào)用生成新法線面板的工作流
用于構(gòu)建參考索引的工作流(對于前面列出的幾個工作流和任務(wù)來說是必需的)
此外,與國家癌癥研究所的研究人員合作開發(fā)的三組數(shù)據(jù)中的從頭突變調(diào)用工作流將于今年晚些時候提供。
這些工作流帶來了令人印象深刻的靈活性,使用戶能夠?qū)?Clara Parabricks 的 GPU 加速工具與第三方工具交織在一起。他們可以為每個任務(wù)指定單獨的計算資源,然后在本地集群(例如,在 SLURM 上)或云平臺上大規(guī)模部署。有關(guān)示例配置和推薦的 GPU 實例,請參閱 Clara-Parabricks-Workflows GitHub repo 。
圖 2.直接從 Clara Parabricks Docker 容器中拉出并指定 gpuType and gpuCount compute requirements
在本地或云中運行
Clara Parabricks 非常適合云部署。它可以在多種云平臺上運行,包括 Amazon Web Services 、 Google Cloud Services 、 DNAnexus 、 Lifebit 、百度人工云、 Naver cloud 、 Oracle cloud Infrastructure 、阿里云、 Terra 等。
Clara Parabricks v4.0 WDL 工作流現(xiàn)已集成到 Broad Institute 的 Terra 平臺中,供 25000 多名科學家進行加速基因組分析。 Terra 的可擴展平臺運行在 Google Cloud 之上,后者擁有 NVIDIA 車隊 GPU 。在 CPU 環(huán)境中,對 30 倍全基因組進行 FASTQ 到 VCF 分析需要 24 小時,而在 Terra 環(huán)境中, Clara Parabricks 只需要一個多小時。此外,成本降低了 50% 以上,從 5 美元降至 2 美元(圖 3 )。
在 Terra 平臺中,研究人員可以比在本地環(huán)境中更容易地訪問大量數(shù)據(jù)。他們只需按一下按鈕就可以訪問 Terra Community Workbench Parabricks 工作區(qū),而不是手動管理和配置硬件。從 Clara 上的 Clara Parabricks 頁面開始。
圖 3.在 Terra 中運行的 FASTQ 到 VCF
當使用 Clara Parabricks 和 NVIDIA GPU 時, 30 倍全基因組(包括 BWA-MEM 、 MarkDuplicates 、 BQSR 和 HaplotypeCaller )的種系分析的運行時間和計算成本(可搶占定價)大大減少。
Clara Parabricks v4.0 工具和功能
Clara Parabricks v4.0 是一個比以前版本更專注的基因組分析工具集,具有快速校準、金標準處理和高精度變體調(diào)用。它提供了自由無縫地交織 GPU 和 CPU 任務(wù)的靈活性,并優(yōu)先考慮基因組學工作流中最流行和瓶頸工具的 GPU 加速。 Clara Parabricks 還可以整合基因組學中的前沿深度學習方法。
圖 4. NVIDIA Clara Parabricks v4.0 工具集
單個 Clara Parabricks 工具現(xiàn)在也可以在 Clara Parabricks collection on NGC 中的單個容器中提供,或者作為一個統(tǒng)一的容器,將所有工具包含在一個容器中。對于單個容器,生物信息學家可以訪問精益容器, Clara Parabricks 團隊可以推動更頻繁的敏捷工具發(fā)布,以訪問最新版本。
這些版本中的第一個是針對 DeepVariant 1.4 版。這個最新版本的 DeepVarant 提高了多個基因組測序器的準確性。 Illumina 全基因組和全外顯子組模型有一個額外的讀 – 插入 – 大小特征,可減少 4-10% 的錯誤,并在 PacBio 測序運行中直接定相以獲得更準確的變體調(diào)用。這意味著您現(xiàn)在可以使用諸如 DeepVariant WhatsHap DeepVariant 或 PEPPER Margin DeepVarient 之類的管道,直接在 DeepVaarint 中執(zhí)行階段變量調(diào)用 PacBio 數(shù)據(jù)的高精度過程。
DeepVariant v1.4 還與新興基因組測序儀器的多個自定義 DeepVariant 模型兼容。與 NVIDIA Clara Parabricks 團隊合作, GPU 加速了這些模型,以在測序儀器中提供快速、高精度的變量調(diào)用。 DeepVariant 1.4 版現(xiàn)已在 Clara Parabricks collection on NGC 中提供。
基因組學和精確醫(yī)學的深度學習方法是 Clara Parabricks 的一大重點,并在 GTC 2022 NVIDIA and Broad Institute 關(guān)于基因組分析工具包( GATK )和 DNA 和 RNA 大型語言模型的進一步發(fā)展的公告中予以強調(diào)。
關(guān)于作者
作為NVIDIA 基因組學的高級產(chǎn)品架構(gòu)師, Harry 致力于工程和產(chǎn)品開發(fā)之間的接口,利用NVIDIA 在人工智能、高性能計算( HPC )和數(shù)據(jù)分析堆棧方面的專業(yè)知識,以加速高精度解決方案解決基因組學工作流問題。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4855瀏覽量
102711 -
gpu
+關(guān)注
關(guān)注
28文章
4673瀏覽量
128593 -
深度學習
+關(guān)注
關(guān)注
73文章
5463瀏覽量
120890
發(fā)布評論請先 登錄
相關(guān)推薦
評論