0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用AlphaFold2進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測

Cloudam云端 ? 來源:Cloudam云端 ? 作者:Cloudam云端 ? 2022-11-07 16:09 ? 次閱讀

前言

AlphaFold 2,是DeepMind公司的一個(gè)人工智能程序。2020年11月30日,該人工智能程序在蛋白質(zhì)結(jié)構(gòu)預(yù)測大賽CASP 14中,對大部分蛋白質(zhì)結(jié)構(gòu)的預(yù)測與真實(shí)結(jié)構(gòu)只差一個(gè)原子的寬度,達(dá)到了人類利用冷凍電子顯微鏡等復(fù)雜儀器觀察預(yù)測的水平,這是蛋白質(zhì)結(jié)構(gòu)預(yù)測史無前例的巨大進(jìn)步。這一重大成果雖然沒有引起媒體和廣大民眾的關(guān)注,但生物領(lǐng)域的科學(xué)家反應(yīng)強(qiáng)烈。

目前,AlphaFold2的源代碼已經(jīng)在GitHub上公開,而且現(xiàn)在科學(xué)家正在利用AlphaFold2對已有的蛋白數(shù)據(jù)庫進(jìn)行高通量的預(yù)測,建立了一些模式生物物種所有蛋白的AlphaFold2預(yù)測結(jié)構(gòu)數(shù)據(jù)庫。

poYBAGNotumAcBFyAAnFKvB7UlA373.png

可以看到,雖然利用AlphaFold2預(yù)測了這么多生物的數(shù)據(jù)庫,但是并未覆蓋所有的蛋白序列數(shù)據(jù)庫,所以只有搭建本地的AlphaFold2服務(wù),你才能用AlphaFold2隨心所欲的預(yù)測自己研究蛋白的結(jié)構(gòu)。

接下來將給大家介紹AlphaFold2的使用方法,在北鯤云上免安裝使用。對于沒有Linux基礎(chǔ)或本地硬件配置不足的人,僅需1分鐘即可成功提交蛋白質(zhì)結(jié)構(gòu)預(yù)測任務(wù),能夠省去很多麻煩。

二、在北鯤云使用AlphaFold2進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測

1. 選擇AlphaFold2

在“應(yīng)用中心”搜索AlphaFold2軟件并選中,在右側(cè)彈出的軟件詳情欄中點(diǎn)擊“提交作業(yè)”。

pYYBAGNovTKAU2WKAAFLAuMJ8_k415.png

2. 選擇可視化模板提交

推薦選擇可視化“模板提交”的方式提交作業(yè),平臺已為AlphaFold2內(nèi)置了幾個(gè)可視化模板,按要求填寫相應(yīng)參數(shù)即可提交預(yù)測任務(wù)。

poYBAGNovTOACHzyAAHH7_1FjXM778.png

3. 填寫模板參數(shù),選擇硬件配置,提交任務(wù)

上傳序列文件(.fasta格式),選擇運(yùn)行模式(單體選擇monomer,多聚體選擇multimer)后即可點(diǎn)擊下一步:

pYYBAGNovTSARBm8AAFfH3S0w1g570.png

選擇合適的GPU硬件配置后即可點(diǎn)擊下一步:

poYBAGNovTWAdNwKAAHtsrE-OvU263.png

查看作業(yè)內(nèi)容匯總并提交任務(wù):

pYYBAGNovTaAZ4dMAAExG5hZPD0459.png

4. 查看任務(wù)詳情與結(jié)果

所有通過“模板”提交的作業(yè),都可以在左側(cè)菜單欄“作業(yè)管理”功能中查看或者管理作業(yè):

poYBAGNovTaAJmc3AADwv0C_izM695.png

對于有Linux基礎(chǔ)和本地硬件配置足夠的人,本地使用AlphaFold2進(jìn)行蛋白質(zhì)預(yù)測的方法如下。

1. 配置要求

硬盤至少要3T以上,AlphaFold2訓(xùn)練好的模型加數(shù)據(jù)庫下載下來是428 GB大小的文件,解壓后需要2.2T的空間。如果你用reduced_dbs(這個(gè)是簡化的數(shù)據(jù)庫),那么至少也得有600 GB的硬盤空間。

12個(gè)虛擬CPU

內(nèi)存85GB及以上

1個(gè)Nvidia A100 或者Nvidia V100 GPU卡

2. 下載程序需要的數(shù)據(jù)庫、程序和模型

首先你得在github上面把這個(gè)AlphaFold2項(xiàng)目(https://github.com/deepmind/alphafold)給下載到一個(gè)本地目錄,然后進(jìn)入scripts這個(gè)文件夾里面,運(yùn)行命令download_all_data.sh <下載目錄>,程序會自動(dòng)進(jìn)行下載。

這個(gè)過程大概會下載438GB的文件,得等待很長時(shí)間,如果斷網(wǎng)的話,你還得把其它的都刪掉,重新下載。不建議直接運(yùn)行這個(gè)主程序,可以利用多臺機(jī)器分個(gè)下載。當(dāng)然你也可以使用下載工具提前下載好,然后再拷貝到服務(wù)器上面去解壓。

除了pdb_mmcif 這個(gè)文件之外,其它的都是可以提前下載。為什么這個(gè)文件不行?因?yàn)閜db網(wǎng)站并沒有提供壓縮的mmcif數(shù)據(jù)庫文件,每個(gè)都是小文件,必須得用同步的方式把pdb服務(wù)器上面的數(shù)據(jù)庫同步到本地才行,這一步建議直接在安裝目錄上去操作單獨(dú)腳本下載,不然到時(shí)候拷貝和壓縮以及解壓要花大力氣,這個(gè)文件夾里面有足足18萬個(gè)cif文件。

pYYBAGNou1CAHBJUAAT3hvnIriY967.png

下載完成解壓后關(guān)注每個(gè)文件夾文件大小和文件名是否與上面這張圖中列出來的一致。

注意事項(xiàng):bfd文件夾和small_bfd這兩個(gè)文件夾是互斥的,大文件夾里面只留一個(gè),bfd是完整的數(shù)據(jù)庫而small_bfd是簡化的數(shù)據(jù)庫。如果你的磁盤不夠,你就下后者,271.6 GB的bfd文件你就別下了。

3. 安裝Docker和NVIDIA Container Toolkit

3.1 安裝Docker

參考Docker官方教程

3.2 安裝NVIDIA Container Toolkit

參考NVIDIA官方教程

3.3 測試是否安裝成功

root權(quán)限運(yùn)行:

docker run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi

如果你看到如下圖的一個(gè)表格,證明你成功了。

pYYBAGNou1aAEa9KAAQUpjLreTM779.png

4. 使用AlphaFold2

4.1 配置輸入輸出文件夾路徑

首先你得配置一下輸入和輸出目錄,打開docker文件夾下的run_docker.py腳本,然后把其中的DOWNLOAD_DIR參數(shù)改成fasta文件夾的輸入目錄,把output_dir后面改為輸出結(jié)果的路徑。

4.2 docker build

docker build -f docker/Dockerfile -t alphafold

4.3 安裝pythin虛擬環(huán)境

如果你使用python3,并且機(jī)器里面有pip3,你可以直接:

pip3 install -r docker/requirements.txt

4.4 運(yùn)行AlphaFold2

python3 docker/run_docker.py --fasta_paths=輸入序列文件完整路徑 --max_template_date=2020-05-14 --preset=[reduced_dbs、full_dbs、casp14]

fasta_paths:預(yù)測蛋白質(zhì)fasta文件的文件名

max_template_date:如果你預(yù)測蛋白在pdb里面,而你不想用這個(gè)pdb做模板,你就用這個(gè)日期來限制使用該pdb做模板,這個(gè)日期應(yīng)該早于這個(gè)蛋白結(jié)構(gòu)的release date

preset:時(shí)間和預(yù)測質(zhì)量的均衡考慮:reduced_dbs最快,但是質(zhì)量最差,full_dbs中等,casp14質(zhì)量最好但時(shí)間是full_dbs的八倍左右。

4.5 查看運(yùn)行結(jié)果

運(yùn)行結(jié)束后,在你的output_dir中會生成一系列文件,其中ranked_0到4就是AlphaFold2預(yù)測出來的分?jǐn)?shù)最高的五個(gè)模型,0是最好的,可信度依次往下。

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1791

    文章

    46671

    瀏覽量

    237123
  • Alpha
    +關(guān)注

    關(guān)注

    0

    文章

    45

    瀏覽量

    25538
收藏 人收藏

    評論

    相關(guān)推薦

    蛋白質(zhì)組學(xué)技術(shù)與藥物作用新靶點(diǎn)研究進(jìn)展 精選資料分享

    ,成為制約新藥開發(fā)速度的瓶頸?;蚪M學(xué)研究表明,人體中全部藥靶蛋白為1萬~2萬種,而在過去100年中發(fā)現(xiàn)的靶點(diǎn),僅約有 500種。因此,自1994年Wilkins等提出蛋白質(zhì)組(pro- teome
    發(fā)表于 07-26 07:48

    點(diǎn)成分享 | 蛋白質(zhì)濃度測定之BCA法

    蛋白質(zhì)濃度的測定是常見的生物實(shí)驗(yàn)之一。本文介紹的是使用BCA法(二辛可酸法或二喹啉甲酸法)進(jìn)行蛋白質(zhì)濃度的測定。BCA分子式1實(shí)驗(yàn)原理BCA是一種穩(wěn)定的堿性水溶性復(fù)合物。在堿性條件下,蛋白質(zhì)
    發(fā)表于 12-20 17:17

    隨機(jī)游走的蛋白質(zhì)功能預(yù)測算法

    針對單一數(shù)據(jù)源預(yù)測蛋白質(zhì)功能效果不佳以及蛋白質(zhì)相互作用網(wǎng)絡(luò)信息不完全等問題,提出一種多數(shù)據(jù)源融合和基于雙重索引矩陣的隨機(jī)游走的蛋白質(zhì)功能預(yù)測
    發(fā)表于 01-09 16:42 ?1次下載

    基于PPI網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)的蛋白質(zhì)功能預(yù)測方法

    。相對于蛋白質(zhì)三維結(jié)構(gòu),一級序列更容易通過生物實(shí)驗(yàn)測得,故早期的蛋白質(zhì)功能預(yù)測方法大都基于序列相似性原理,利用BLAST( Basic Local Alignment Search T
    發(fā)表于 04-17 14:39 ?0次下載

    Profrager:蛋白質(zhì)結(jié)構(gòu)和功能預(yù)測工具的優(yōu)化

    優(yōu)化Profrager,蛋白質(zhì)結(jié)構(gòu)和功能預(yù)測工具
    的頭像 發(fā)表于 11-13 07:33 ?3484次閱讀

    DeepMind推出的AlphaFold可以僅根據(jù)基因「代碼」預(yù)測生成蛋白質(zhì)的3D形狀

    人體能夠產(chǎn)生數(shù)萬甚至數(shù)百萬的蛋白質(zhì)。每個(gè)蛋白質(zhì)都是一個(gè)氨基酸鏈,而后者的類型就有 20 種。蛋白質(zhì)可以在氨基酸之間扭曲、折疊,因此一種含有數(shù)百個(gè)氨基酸的蛋白質(zhì)有可能呈現(xiàn)出數(shù)量驚人(10
    的頭像 發(fā)表于 12-05 15:51 ?3526次閱讀

    DeepMind所開發(fā)的AlphaFold系統(tǒng)在世界蛋白質(zhì)模型預(yù)測競賽中排名第一

    在為期數(shù)月的競賽期間,組織方每幾天向參加的團(tuán)隊(duì)發(fā)去一些氨基酸清單,參與者從這些氨基酸預(yù)測蛋白質(zhì)結(jié)構(gòu)。這些“考題”是近期通過傳統(tǒng)的方法,耗費(fèi)了大量的人力物力資源才得到的蛋白質(zhì)
    的頭像 發(fā)表于 12-11 17:11 ?4316次閱讀

    蛋白質(zhì)設(shè)計(jì)大神David Baker最新成果,響應(yīng)環(huán)境變化的全新蛋白質(zhì)

    研究人員設(shè)計(jì)出一種對酸產(chǎn)生反應(yīng)的蛋白質(zhì),可通過預(yù)測、調(diào)節(jié)的方式對環(huán)境做出反應(yīng),其可在中性 pH 下自行組裝成預(yù)設(shè)的結(jié)構(gòu),并在酸存在下快速分解。
    的頭像 發(fā)表于 06-04 10:47 ?8368次閱讀

    一種改進(jìn)的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法

    構(gòu)建可靠的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)是提高蛋白質(zhì)未知功能預(yù)測蛋白質(zhì)復(fù)合物識別性能的關(guān)鍵,然而現(xiàn)有蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建和功能
    發(fā)表于 03-16 09:29 ?2次下載
    一種改進(jìn)的動(dòng)態(tài)<b class='flag-5'>蛋白質(zhì)</b>網(wǎng)絡(luò)構(gòu)建算法

    基于衰減系數(shù)的動(dòng)態(tài)蛋白質(zhì)預(yù)測網(wǎng)絡(luò)模型

    在生物系統(tǒng)的轉(zhuǎn)變過程中,蛋白質(zhì)的演化過程并非一成不變,而是動(dòng)態(tài)變化的。通過構(gòu)造模型的方法來研究蛋白質(zhì)相互作用網(wǎng)絡(luò),可以較好地刻畫蛋白質(zhì)相互作用的演化機(jī)制。但是,利用構(gòu)造模型的方法來研究動(dòng)態(tài)蛋白
    發(fā)表于 06-15 16:50 ?10次下載

    北鯤云超算平臺在AlphaFold2的應(yīng)用

    受人工智能和深度學(xué)習(xí)技術(shù)發(fā)展較快等因素影響,結(jié)構(gòu)生物學(xué)數(shù)據(jù)的研究也開始迎來了嶄新的階段,針對蛋白質(zhì)結(jié)構(gòu)預(yù)測也出現(xiàn)了一些新的方法,并獲得了突破性進(jìn)展。目前,最為前沿的技術(shù)當(dāng)屬
    發(fā)表于 09-02 10:26 ?714次閱讀

    昇思推出基于AlphaFold2算法的蛋白質(zhì)結(jié)構(gòu)預(yù)測推理工具

    近日,昇思MindSpore團(tuán)隊(duì)與昌平實(shí)驗(yàn)室、北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心(BIOPIC)和化學(xué)與分子工程學(xué)院、深圳灣實(shí)驗(yàn)室高毅勤教授課題組聯(lián)合推出基于AlphaFold2算法的蛋白質(zhì)結(jié)構(gòu)預(yù)測
    的頭像 發(fā)表于 11-16 15:25 ?1656次閱讀

    利用人工智能技術(shù)預(yù)測蛋白質(zhì)結(jié)構(gòu)

      這個(gè)工具不僅可以快速預(yù)測蛋白質(zhì),而且可以在有限的輸入下進(jìn)行預(yù)測。它也有能力超越簡單的結(jié)構(gòu)進(jìn)行
    的頭像 發(fā)表于 04-08 10:25 ?6890次閱讀
    利用人工智能技術(shù)<b class='flag-5'>預(yù)測</b><b class='flag-5'>蛋白質(zhì)</b>的<b class='flag-5'>結(jié)構(gòu)</b>

    昇思MindSpore蛋白質(zhì)結(jié)構(gòu)預(yù)測模型研發(fā)進(jìn)展

    近期,基于全場景AI框架昇思MindSpore 開發(fā)的蛋白質(zhì)結(jié)構(gòu)預(yù)測模型在全球持續(xù)蛋白質(zhì)結(jié)構(gòu)預(yù)測
    的頭像 發(fā)表于 04-24 12:13 ?1310次閱讀

    DeepMind最新推出新一代蛋白質(zhì)結(jié)構(gòu)預(yù)測工具,已用于藥物設(shè)計(jì)

    據(jù)悉,最新的 AlphaFold 系統(tǒng)由DeepMind及其衍生公司 Isomorphic Labs (專注于利用 AI 做藥物發(fā)現(xiàn))共同開發(fā),不再局限于蛋白質(zhì)折疊,還能夠在配體、蛋白質(zhì)、核酸以及
    的頭像 發(fā)表于 11-03 15:39 ?792次閱讀