0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于“結構決定性質”零樣本三維藥物設計方法

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2022-09-22 14:24 ? 次閱讀

01

研究動機

藥物設計(Drug Design)旨在針對給定的生物靶點(通常為蛋白質口袋)提供符合設計要求的候選分子。傳統(tǒng)藥物設計方法,使用虛擬篩選技術從大規(guī)模藥物庫中檢索符合要求的候選,但由于需要篩選的分子數(shù)目十分龐大(大約為1033),這些方法既耗時也無法提供除分子庫之外的新候選分子。

近年來,由于深度生成模型具有設計速度快且能提供新穎分子的特點,有一系列工作嘗試使用深度生成模型進行藥物設計,展現(xiàn)出具有潛力的性能。根據分子表示的維度,它們主要可分為兩類:基于一維/二維的分子設計以及基于三維的分子設計。對于前者,它們將分子表示為一維SMILES序列或二維分子圖,忽視了生物靶點與藥物發(fā)生在三維空間的交互信息。此外,這些方法還依賴于昂貴且稀少的濕實驗數(shù)據,這嚴重地限制了它們的應用范圍與設計性能;對于后者,它們直接建模三維的藥物分子,因此具有利用交互信息設計分子的能力,然而它們,或同樣需要實驗數(shù)據,或依賴耗時的分子對接模擬(Molecule Docking)提供監(jiān)督信號,使得它們需要在設計性能與設計效率上進行取舍??偟膩碚f,藥物設計面臨著“擺脫實驗數(shù)據依賴”以及“在保證設計性能的前提下,提高設計效率”兩個挑戰(zhàn)。

12ce83d8-3a35-11ed-9e49-dac502259ad0.png

圖1:DESERT為指定蛋白質口袋設計藥物的示意圖

面對這兩個挑戰(zhàn),我們基于“結構決定性質”的生物學原理提出了DESERT(Drug Design by Sketching and Generating)——零樣本三維藥物設計方法。具體來說,根據該生物學原理,我們假設當分子形狀與給定的蛋白質口袋互補時,對應的分子與蛋白將具有令人滿意的生物活性?;谶@樣的先驗知識,DESERT采用“先描繪再生成”的策略將藥物設計分為兩個過程(如圖1所示):對于“描繪”過程,我們使用啟發(fā)式方法通過采樣獲得合理的分子形狀,對于“生成”過程,我們利用預訓練的生成模型來生成填充分子形狀的三維分子。值得注意地是,在預訓練過程中,我們只利用了大規(guī)模的非實驗數(shù)據庫,因此DESERT可以擺脫對實驗數(shù)據的依賴。同時,DESERT不需要使用對接模擬提供模型訓練的監(jiān)督信號,因此在設計效率上也具有優(yōu)勢。

02

貢獻

1.我們提出了DESERT——一種新穎的零樣本三維分子設計方法

2.方法利用海量的非實驗數(shù)據進行訓練擺脫了對昂貴且稀少的實驗數(shù)據的依賴

3.達到了目前最先進的藥物設計水平,并比之前的先進方法在設計效率上快了20倍

03

解決方法

12ed61a4-3a35-11ed-9e49-dac502259ad0.png

圖2:DESERT藥物設計方法總覽

圖2是DESERT方法的總覽圖,正如之前提到,DESERT將藥物設計分為了“描繪”(Sketching)與“生成”(Generating)兩步:對于“描繪”步驟,它負責獲取合理的分子形狀。根據獲取形狀的來源,DESERT可以復用已有的藥物的形狀,稱為“基于配體的描繪”(Ligand-based Sketching,如圖2(b)所示),同樣也可以不使用已有藥物,直接根據蛋白質口袋進行“描繪”,稱為“基于口袋的描繪”(Pocket-based Sketching,如圖2(c)所示)。而在“生成”步驟中,DESERT利用Shape2Mol模型,根據“描繪”得到的分子形狀,進一步生成填充形狀的三維分子(如圖2(b)(c)所示),其中Shape2Mol模型使用海量的非實驗數(shù)據進行訓練(如圖2(a)所示)。

13147c8a-3a35-11ed-9e49-dac502259ad0.png

圖3:“基于口袋的描繪”的二維示意圖

具體介紹“描繪”步驟。對于"基于配體的描繪",由于給定了已知藥物,我們可以簡單地復用已有藥物的分子形狀作為“描繪”的結果。對于“基于口袋的描繪”,情況相對復雜,因為蛋白質口袋通常要比可能的藥物分子大得多,直接利用蛋白質口袋的形狀作為“描述”結果并不合理,但我們也觀察到,藥物分子在蛋白口袋中的分布集中于接近口袋表面的區(qū)域(只有這樣分子才能和蛋白質形成化學作用),基于以上結論,我們提出使用啟發(fā)式方法從蛋白質口袋中采樣合理的分子形狀。具體來說,如圖3所示,我們使用一個“種子形狀”逐漸與“蛋白口袋”進行相交,當相交部分的體積達到閾值后(已有藥物的體積均值),我們將相交的部分作為“描繪”的結果。通過這樣的方法,獲得的偽分子形狀可以具有合適的體積大小同時也滿足分布在靠近口袋表面區(qū)域的要求。

132cfae4-3a35-11ed-9e49-dac502259ad0.png

圖4:Shape2Mol的模型架構圖

在“生成”階段,DESERT借助預訓練模型Shape2Mol將分子形狀“翻譯”為高質量分子。圖4為模型Shape2Mol的架構,其由“形狀編碼器”(Shape Encoder)和“三維分子解碼器”(3D Molecule Decoder)組成,輸入為分子形狀的三維圖像,輸出為契合該形狀的三維分子。訓練Shape2Mol時,我們從ZINC數(shù)據庫(包含十億非實驗獲得的三維分子)中采樣了一億類藥分子作為訓練集。

1341983c-3a35-11ed-9e49-dac502259ad0.png

圖5:獲取分子形狀的體素化表示

對于Shape2Mol中的“形狀編碼器”,我們的輸入為分子形狀的三維圖像,即體素化(體素類似于二維圖像中的像素,不同的是體素對應于三維物體)后的分子形狀,圖5展示了獲取三維圖像的流程。對于模型的結構,我們基于廣泛被用于二維圖像處理的ViT模型進行了擴展,具體地,將該模型的二維圖像補丁升級為了三維圖像補丁,以用于處理三維物體。

1366b81a-3a35-11ed-9e49-dac502259ad0.png

圖6:將分子轉換為目標序列

對于Shape2Mol的“三維分子解碼器”,我們將分子轉換為序列的形式(轉換成序列,是因為能方便地進行概率建模,此外我們還發(fā)現(xiàn)在“令牌化”后,許多分子本身就已經是序列了)對模型進行訓練。轉換過程分為“令牌化”(Tokenization)和“線性化”(Linearization)兩步:對于“令牌化”,我們結合分子切分規(guī)則BRICS,將分子拆解成多個片段,如圖6所示,經過“令牌化”后,分子從圖狀結構被轉化成了樹狀結構。為了進一步降低建模難度,我們通過“線性化”將樹狀結構最終轉換成序列結構,具體地,我們依照深度優(yōu)先的原則對樹進行遍歷,每當進入/離開子樹時,分別加入特殊符號[BOB]和[EOB]到返回序列中。

模型訓練的目標函數(shù)為交叉熵損失。編碼器與解碼器都具有12層Transformer層,模型維度為1024維,模型的參數(shù)大小為6億5千萬。在訓練Shape2Mol時,使用0.1的Dropout,2048的批大小,最大訓練步數(shù)為30萬步,優(yōu)化器為AdamW以5e-4的學習率、1e-2的權重衰減以及4000步的warmup設置。訓練使用了32塊V100 GPU,訓練時長為2周。

04

實驗

依照前人工作,我們選取了12個具有代表性的蛋白口袋作為設計靶點,并選取了多個一維/二維以及三維的先進模型作為比較對象。對于前者,由于需要使用濕實驗測定的生物活性數(shù)據,我們只在2個能找到活性數(shù)據的靶點上進行了測試。關于量化指標,我們使用了6個被廣泛應用的評價指數(shù),從多個方面衡量模型設計的候選分子的質量。

表1:藥物設計模型的性能比較。↑表示越高越好,↓表示約低越好137422de-3a35-11ed-9e49-dac502259ad0.png

表1展示了我們的方法DESERT在分子設計質量上已經超越了之前的最佳水平,達到了目前最先進的性能。特別是與基于監(jiān)督學習的三維分子設計模型liGAN以及3D SBDD相比,我們的無監(jiān)督方法取得了更優(yōu)秀的性能,這表明當前稀少的實驗數(shù)據限制了模型設計藥物分子的質量,利用海量的非實驗數(shù)據可以帶來可觀的提升。

13a4fe72-3a35-11ed-9e49-dac502259ad0.png

圖7:不同設計方法設計質量與設計速度的對比(以蛋白3FI2的靶點為例)

在設計速度上,如圖7所示,DESERT不使用耗時的分子對接模擬提供模型監(jiān)督信號,并且只需要經過一次預訓練過程,與之對比,之前最先進的方法GEKO則需要頻繁地調用對接模擬進行模型訓練,且對于不同的口袋靶點需要訓練特定的模型參數(shù),因此DESERT顯著地加快了藥物設計的速度,同時還取得了當前最佳的分子設計質量。

13bf9d22-3a35-11ed-9e49-dac502259ad0.png

圖8:不同預訓練配置的比較

針對預訓練生成模型Shape2Mol,我們比較了不同預訓練配置對于模型質量的影響,主要包括訓練數(shù)據集大小以及模型參數(shù)量的影響。如圖8所示,增大模型參數(shù)量顯著地提升模型的質量,而增大訓練數(shù)據集,在數(shù)據集達到中等規(guī)模后出現(xiàn)了性能飽和現(xiàn)象,我們認為可能的原因為當前從形狀到分子的任務相對容易,模型在使用中等規(guī)模的數(shù)據后就能捕獲兩者的映射關系。

13d8a2c2-3a35-11ed-9e49-dac502259ad0.png

圖9:“描繪”分子形狀數(shù)量對設計質量影響

針對“描繪”分子形狀的步驟,我們探索了采樣的分子形狀數(shù)量對分子設計質量的影響。如圖9所示,當形狀數(shù)量增多時,DESERT能提供更為優(yōu)質的候選分子,這是因為采樣更多地分子形狀能更為充分地探索整個蛋白質口袋,找到更多合理的偽分子形狀。

除了以上實驗,我們還對DESERT的“描繪”以及“生成”步驟做了更多的探索分析實驗,包括:訓練時是否使用噪聲對抗訓練,是否需要將連續(xù)的模型預測目標離散化,結合蛋白質的化學信息帶來的影響等,此外我們還將DESERT應用到了一個更大的測試數(shù)據集上,獲得了與表1相近的結果。具體的實驗圖表及分析參見正式的會議文章。

13f7d1b0-3a35-11ed-9e49-dac502259ad0.png

圖10:對比之前模型的生成樣例,可以看到DESERT設計的分子結構更合理。

05

總結

針對藥物設計中“擺脫實驗數(shù)據依賴”以及“提升設計效率”的挑戰(zhàn),我們提出了一種新穎的零樣本藥物設計方法DESERT,它將藥物設計分為“描繪”與“生成”兩個階段,并使用分子形狀進行橋接。由于方法只需要大規(guī)模的非實驗數(shù)據進行訓練,DESERT擺脫了對實驗數(shù)據的依賴,同時因為不需要對接模擬提供監(jiān)督信號,方法的設計效率也有明顯地優(yōu)勢。通過實驗,我們展示了DESERT在分子設計質量上達到了先進水平,同時對比之前的先進模型,在設計速度上也有明顯提升。

審核編輯:彭靜
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據
    +關注

    關注

    8

    文章

    6715

    瀏覽量

    88311
  • 模型
    +關注

    關注

    1

    文章

    3032

    瀏覽量

    48359
  • 三維圖像
    +關注

    關注

    2

    文章

    19

    瀏覽量

    9757

原文標題:NIPS'22 | 南大提出:通過“描繪”和“生成”的零樣本藥物設計

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    三維檢測汽車件 幫助汽車性能達標

    三維檢測汽車件 幫助汽車性能達標行業(yè)現(xiàn)狀汽車件在流水線生產出來后,距離汽車整車還有一大步——裝配。件的裝配不是簡單的把兩塊積木搭在一起。無論是把
    發(fā)表于 08-21 10:48

    三維快速建模技術與三維掃描建模的應用

    相關處理,構建其三維模型和對模型進行紋路映射,最終完成物體的三維模型構建。該三維掃描建模流程方法對復雜物件的三維建??扇〉幂^好的效果。 同時
    發(fā)表于 08-07 11:14

    整車三維掃描及其部件三維掃描解決方案

    `整車三維掃描及其部件三維掃描解決方案中科院廣州電子在汽車整車三維掃描和汽車部件三維掃描方面
    發(fā)表于 08-21 10:17

    三維產品動畫設計價值

    的內部結構。3、 成本可控三維產品動畫設計擁有的拍攝靈活性,能夠更好的控制成本,例如對于重現(xiàn)成本高的鏡頭,產品動畫可以利用仿真技術實現(xiàn),避開這一成消耗。4、 直觀三維產品動畫與傳統(tǒng)方
    發(fā)表于 08-24 14:12

    Handyscan三維掃描儀機械部件三維掃描抄數(shù)服務

    `Handyscan三維掃描儀機械部件三維掃描抄數(shù)服務 如何快速、批量的對配件進行三維檢測呢?今天小編就來給大家看看近期一個礦山重型起重
    發(fā)表于 07-21 16:52

    SMARTSCAN三維掃描儀電子產品配件三維掃描服務

    的高精度藍光三維數(shù)字化綜合解決方案,不僅適用于塑料件的三維掃描,同樣適用于100MM以內的精細金屬工件。方便中小尺寸件客戶對工件的逆向設計、結構優(yōu)化以及品質檢測與質量控制。配合后期快
    發(fā)表于 09-17 16:16

    python三維插值

    python三維插值,更多編程教程請到:菜鳥教程 https://www.piaodoo.com/友情鏈接:高州陽光論壇https://www.hnthzk.com/人人影視http
    發(fā)表于 07-12 06:33

    光學方法測量三維形狀綜述

    光學方法測量三維形狀綜述光學方法測量三維形狀綜述光學方法測量三維形狀綜述
    發(fā)表于 01-07 16:48 ?2次下載

    人工智能擊敗人類的決定性因素是什么?

    AlphaGo和李世石的人機世紀之戰(zhàn),最終AlphaGo贏得棋局。那么人工智能的勝利決定性因素是什么?
    的頭像 發(fā)表于 11-16 11:54 ?2767次閱讀

    融合樣本學習和小樣本學習的弱監(jiān)督學習方法綜述

    融合樣本學習和小樣本學習的弱監(jiān)督學習方法綜述 來源:《系統(tǒng)工程與電子技術》,作者潘崇煜等 摘 要:?深度學習模型嚴重依賴于大量人工標注的數(shù)據,使得其在數(shù)據缺乏的特殊領域內應用嚴重受限
    發(fā)表于 02-09 11:22 ?2114次閱讀
    融合<b class='flag-5'>零</b><b class='flag-5'>樣本</b>學習和小<b class='flag-5'>樣本</b>學習的弱監(jiān)督學習<b class='flag-5'>方法</b>綜述

    形狀感知樣本語義分割

    由于大規(guī)模視覺語言預訓練取得了令人矚目的進展,最近的識別模型可以以驚人的高準確度對任意對象進行樣本和開放式分類。
    的頭像 發(fā)表于 04-28 11:26 ?722次閱讀
    形狀感知<b class='flag-5'>零</b><b class='flag-5'>樣本</b>語義分割

    智慧城市_實景三維|物業(yè)樓三維掃描案例分享_泰來三維

    三維激光掃描技術是近年來發(fā)展的新型測量方法,通過三維掃描獲取大量全面點云數(shù)據,形成三維立體模型,實現(xiàn)快速掌握被測目標信息。
    的頭像 發(fā)表于 05-16 13:56 ?883次閱讀
    智慧城市_實景<b class='flag-5'>三維</b>|物業(yè)樓<b class='flag-5'>三維</b>掃描案例分享_泰來<b class='flag-5'>三維</b>

    一個通用的自適應prompt方法,突破了樣本學習的瓶頸

    為了解決這個問題,這篇研究提出了一種Universal Self-adaptive Prompting (USP)方法,對LLMs的樣本學習進行了優(yōu)化,同時也適用于少樣本學習任務。U
    的頭像 發(fā)表于 06-01 14:48 ?660次閱讀
    一個通用的自適應prompt<b class='flag-5'>方法</b>,突破了<b class='flag-5'>零</b><b class='flag-5'>樣本</b>學習的瓶頸

    什么是樣本學習?為什么要搞樣本學習?

    樣本分類的技術目前正處于高速發(fā)展時期, 所涉及的具體應用已經從最初的圖像分類任務擴展到了其他計算機視覺任務乃至自然語言處理等多個相關領域。 對此, 本文將其稱為廣義樣本分類。 相應
    發(fā)表于 09-22 11:10 ?1872次閱讀
    什么是<b class='flag-5'>零</b><b class='flag-5'>樣本</b>學習?為什么要搞<b class='flag-5'>零</b><b class='flag-5'>樣本</b>學習?

    三維立體視覺之三維恢復方法

    電子發(fā)燒友網站提供《三維立體視覺之三維恢復方法.doc》資料免費下載
    發(fā)表于 11-03 09:31 ?0次下載
    <b class='flag-5'>三維</b>立體視覺之<b class='flag-5'>三維</b>恢復<b class='flag-5'>方法</b>