前言
AlphaFold 2,是DeepMind公司的一個(gè)人工智能程序。2020年11月30日,該人工智能程序在蛋白質(zhì)結(jié)構(gòu)預(yù)測大賽CASP 14中,對大部分蛋白質(zhì)結(jié)構(gòu)的預(yù)測與真實(shí)結(jié)構(gòu)只差一個(gè)原子的寬度,達(dá)到了人類利用冷凍電子顯微鏡等復(fù)雜儀器觀察預(yù)測的水平,這是蛋白質(zhì)結(jié)構(gòu)預(yù)測史無前例的巨大進(jìn)步。這一重大成果雖然沒有引起媒體和廣大民眾的關(guān)注,但生物領(lǐng)域的科學(xué)家反應(yīng)強(qiáng)烈。
目前,AlphaFold2的源代碼已經(jīng)在GitHub上公開,而且現(xiàn)在科學(xué)家正在利用AlphaFold2對已有的蛋白數(shù)據(jù)庫進(jìn)行高通量的預(yù)測,建立了一些模式生物物種所有蛋白的AlphaFold2預(yù)測結(jié)構(gòu)數(shù)據(jù)庫。
可以看到,雖然利用AlphaFold2預(yù)測了這么多生物的數(shù)據(jù)庫,但是并未覆蓋所有的蛋白序列數(shù)據(jù)庫,所以只有搭建本地的AlphaFold2服務(wù),你才能用AlphaFold2隨心所欲的預(yù)測自己研究蛋白的結(jié)構(gòu)。
接下來將給大家介紹AlphaFold2的使用方法,在北鯤云上免安裝使用。對于沒有Linux基礎(chǔ)或本地硬件配置不足的人,僅需1分鐘即可成功提交蛋白質(zhì)結(jié)構(gòu)預(yù)測任務(wù),能夠省去很多麻煩。
二、在北鯤云使用AlphaFold2進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測
1. 選擇AlphaFold2
在“應(yīng)用中心”搜索AlphaFold2軟件并選中,在右側(cè)彈出的軟件詳情欄中點(diǎn)擊“提交作業(yè)”。
2. 選擇可視化模板提交
推薦選擇可視化“模板提交”的方式提交作業(yè),平臺已為AlphaFold2內(nèi)置了幾個(gè)可視化模板,按要求填寫相應(yīng)參數(shù)即可提交預(yù)測任務(wù)。
3. 填寫模板參數(shù),選擇硬件配置,提交任務(wù)
上傳序列文件(.fasta格式),選擇運(yùn)行模式(單體選擇monomer,多聚體選擇multimer)后即可點(diǎn)擊下一步:
選擇合適的GPU硬件配置后即可點(diǎn)擊下一步:
查看作業(yè)內(nèi)容匯總并提交任務(wù):
4. 查看任務(wù)詳情與結(jié)果
所有通過“模板”提交的作業(yè),都可以在左側(cè)菜單欄“作業(yè)管理”功能中查看或者管理作業(yè):
對于有Linux基礎(chǔ)和本地硬件配置足夠的人,本地使用AlphaFold2進(jìn)行蛋白質(zhì)預(yù)測的方法如下。
1. 配置要求
硬盤至少要3T以上,AlphaFold2訓(xùn)練好的模型加數(shù)據(jù)庫下載下來是428 GB大小的文件,解壓后需要2.2T的空間。如果你用reduced_dbs(這個(gè)是簡化的數(shù)據(jù)庫),那么至少也得有600 GB的硬盤空間。
12個(gè)虛擬CPU
內(nèi)存85GB及以上
1個(gè)Nvidia A100 或者Nvidia V100 GPU卡
2. 下載程序需要的數(shù)據(jù)庫、程序和模型
首先你得在github上面把這個(gè)AlphaFold2項(xiàng)目(https://github.com/deepmind/alphafold)給下載到一個(gè)本地目錄,然后進(jìn)入scripts這個(gè)文件夾里面,運(yùn)行命令download_all_data.sh <下載目錄>,程序會自動(dòng)進(jìn)行下載。
這個(gè)過程大概會下載438GB的文件,得等待很長時(shí)間,如果斷網(wǎng)的話,你還得把其它的都刪掉,重新下載。不建議直接運(yùn)行這個(gè)主程序,可以利用多臺機(jī)器分個(gè)下載。當(dāng)然你也可以使用下載工具提前下載好,然后再拷貝到服務(wù)器上面去解壓。
除了pdb_mmcif 這個(gè)文件之外,其它的都是可以提前下載。為什么這個(gè)文件不行?因?yàn)閜db網(wǎng)站并沒有提供壓縮的mmcif數(shù)據(jù)庫文件,每個(gè)都是小文件,必須得用同步的方式把pdb服務(wù)器上面的數(shù)據(jù)庫同步到本地才行,這一步建議直接在安裝目錄上去操作單獨(dú)腳本下載,不然到時(shí)候拷貝和壓縮以及解壓要花大力氣,這個(gè)文件夾里面有足足18萬個(gè)cif文件。
下載完成解壓后關(guān)注每個(gè)文件夾文件大小和文件名是否與上面這張圖中列出來的一致。
注意事項(xiàng):bfd文件夾和small_bfd這兩個(gè)文件夾是互斥的,大文件夾里面只留一個(gè),bfd是完整的數(shù)據(jù)庫而small_bfd是簡化的數(shù)據(jù)庫。如果你的磁盤不夠,你就下后者,271.6 GB的bfd文件你就別下了。
3. 安裝Docker和NVIDIA Container Toolkit
3.1 安裝Docker
參考Docker官方教程
3.2 安裝NVIDIA Container Toolkit
參考NVIDIA官方教程
3.3 測試是否安裝成功
root權(quán)限運(yùn)行:
docker run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi
如果你看到如下圖的一個(gè)表格,證明你成功了。
4. 使用AlphaFold2
4.1 配置輸入輸出文件夾路徑
首先你得配置一下輸入和輸出目錄,打開docker文件夾下的run_docker.py腳本,然后把其中的DOWNLOAD_DIR參數(shù)改成fasta文件夾的輸入目錄,把output_dir后面改為輸出結(jié)果的路徑。
4.2 docker build
docker build -f docker/Dockerfile -t alphafold
4.3 安裝pythin虛擬環(huán)境
如果你使用python3,并且機(jī)器里面有pip3,你可以直接:
pip3 install -r docker/requirements.txt
4.4 運(yùn)行AlphaFold2
python3 docker/run_docker.py --fasta_paths=輸入序列文件完整路徑 --max_template_date=2020-05-14 --preset=[reduced_dbs、full_dbs、casp14]
fasta_paths:預(yù)測蛋白質(zhì)fasta文件的文件名
max_template_date:如果你預(yù)測蛋白在pdb里面,而你不想用這個(gè)pdb做模板,你就用這個(gè)日期來限制使用該pdb做模板,這個(gè)日期應(yīng)該早于這個(gè)蛋白結(jié)構(gòu)的release date
preset:時(shí)間和預(yù)測質(zhì)量的均衡考慮:reduced_dbs最快,但是質(zhì)量最差,full_dbs中等,casp14質(zhì)量最好但時(shí)間是full_dbs的八倍左右。
4.5 查看運(yùn)行結(jié)果
運(yùn)行結(jié)束后,在你的output_dir中會生成一系列文件,其中ranked_0到4就是AlphaFold2預(yù)測出來的分?jǐn)?shù)最高的五個(gè)模型,0是最好的,可信度依次往下。
審核編輯 黃昊宇
-
人工智能
+關(guān)注
關(guān)注
1791文章
46671瀏覽量
237123 -
Alpha
+關(guān)注
關(guān)注
0文章
45瀏覽量
25538
發(fā)布評論請先 登錄
相關(guān)推薦
評論