麥克斯·德?tīng)柌紖慰朔肿俞t(yī)學(xué)中心的研究人員開(kāi)發(fā)了一種新工具,可以更輕松地最大化深度學(xué)習(xí)在研究基因組學(xué)方面的力量。他們?cè)凇蹲匀煌ㄓ崱罚∟ature Communications)雜志中描述了Janggu的新方法。
想象一下,在晚餐之前,您首先必須重建專門(mén)為每種食譜設(shè)計(jì)的廚房。您將花費(fèi)更多的時(shí)間進(jìn)行準(zhǔn)備,而不是實(shí)際做飯。對(duì)于計(jì)算生物學(xué)家來(lái)說(shuō),分析基因組數(shù)據(jù)是一個(gè)類似的耗時(shí)過(guò)程。在甚至沒(méi)有開(kāi)始分析之前,他們就花費(fèi)了大量寶貴的時(shí)間來(lái)格式化和準(zhǔn)備龐大的數(shù)據(jù)集,以將其輸入到深度學(xué)習(xí)模型中。
為了簡(jiǎn)化此過(guò)程,MDC的研究人員開(kāi)發(fā)了一種通用的編程工具,該工具可將各種基因組數(shù)據(jù)轉(zhuǎn)換為所需的格式,以供深度學(xué)習(xí)模型進(jìn)行分析。MDC柏林生物信息學(xué)和組學(xué)數(shù)據(jù)科學(xué)研究小組的科學(xué)家Wolfgang Kopp博士說(shuō):“以前,您最終在技術(shù)方面浪費(fèi)了很多時(shí)間,而不是專注于要解決的生物學(xué)問(wèn)題?!贬t(yī)學(xué)系統(tǒng)生物學(xué)研究所(BIMSB),該論文的第一作者?!坝辛碎L(zhǎng)谷,我們的目標(biāo)是減輕某些技術(shù)負(fù)擔(dān),并使盡可能多的人可以使用它?!?/p>
Janggu的名字來(lái)自韓國(guó)傳統(tǒng)鼓形,其側(cè)面像一個(gè)沙漏。沙漏的兩個(gè)大部分代表了Janggu的重點(diǎn)領(lǐng)域:基因組數(shù)據(jù)的預(yù)處理,結(jié)果可視化和模型評(píng)估。中間的狹窄連接器代表研究人員希望使用的任何類型的深度學(xué)習(xí)模型的占位符。
深度學(xué)習(xí)模型涉及對(duì)大量數(shù)據(jù)進(jìn)行排序并找到相關(guān)特征或模式的算法。雖然深度學(xué)習(xí)是一種非常強(qiáng)大的工具,但它在基因組學(xué)中的使用受到限制。大多數(shù)已發(fā)布的模型往往只適用于固定類型的數(shù)據(jù),只能回答一個(gè)特定問(wèn)題。交換或添加新數(shù)據(jù)通常需要從頭開(kāi)始并進(jìn)行大量編程工作。
Janggu將不同的基因組學(xué)數(shù)據(jù)類型轉(zhuǎn)換為通用格式,可以插入使用python(一種廣泛使用的編程語(yǔ)言)的任何機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型中。
使我們的方法與眾不同的是,您可以輕松地使用任何基因組數(shù)據(jù)集解決您的深度學(xué)習(xí)問(wèn)題,任何形式的東西都可以使用,”生物信息學(xué)和Omics數(shù)據(jù)科學(xué)研究小組負(fù)責(zé)人Altuna Akalin博士說(shuō)。
Akalin的研究小組有雙重任務(wù):開(kāi)發(fā)新的機(jī)器學(xué)習(xí)工具,并使用它們來(lái)研究生物學(xué)和醫(yī)學(xué)領(lǐng)域的問(wèn)題。在他們自己的研究工作中,他們一直為格式化數(shù)據(jù)花費(fèi)了多少時(shí)間而感到沮喪。他們意識(shí)到問(wèn)題的一部分是每個(gè)深度學(xué)習(xí)模型都包含自己的數(shù)據(jù)預(yù)處理。通過(guò)將數(shù)據(jù)提取和格式化與分析分開(kāi),它提供了一種更容易的方式來(lái)交換,合并或重用數(shù)據(jù)部分。這就像讓所有廚房工具和食材觸手可及,準(zhǔn)備嘗試新食譜一樣。
Kopp說(shuō):“困難在于在靈活性和可用性之間找到適當(dāng)?shù)钠胶?。”“如果靈活性太強(qiáng),人們將被淹沒(méi)在不同的選擇中,并且將很難上手?!?/p>
Kopp準(zhǔn)備了一些教程,以幫助其他人開(kāi)始使用Janggu,以及示例數(shù)據(jù)集和案例研究。《自然通訊》的論文證明了Janggu在處理大量數(shù)據(jù),組合數(shù)據(jù)流以及回答不同類型的問(wèn)題(例如根據(jù)DNA序列和/或染色質(zhì)可及性預(yù)測(cè)結(jié)合位點(diǎn)以及分類和回歸任務(wù))方面的多功能性。
盡管Janggu的大部分優(yōu)勢(shì)都在前端,但研究人員希望為深度學(xué)習(xí)提供完整的解決方案。Janggu還包括在深度學(xué)習(xí)分析之后的可視化結(jié)果,并評(píng)估模型學(xué)到的知識(shí)。值得注意的是,該團(tuán)隊(duì)在包裝中加入了“高階序列編碼”,從而可以捕獲相鄰核苷酸之間的相關(guān)性。這有助于提高某些分析的準(zhǔn)確性。通過(guò)使深度學(xué)習(xí)更容易且更友好,Janggu幫助打開(kāi)了回答各種生物學(xué)問(wèn)題的大門(mén)。
“最有趣的應(yīng)用之一是預(yù)測(cè)突變對(duì)基因調(diào)控的影響,” Akalin說(shuō)?!斑@令人興奮,因?yàn)楝F(xiàn)在我們可以開(kāi)始了解單個(gè)基因組,例如,我們可以查明引起調(diào)節(jié)變化的遺傳變異,或者我們可以解釋腫瘤中發(fā)生的調(diào)節(jié)突變。
-
連接器
+關(guān)注
關(guān)注
98文章
14209瀏覽量
135919 -
編程語(yǔ)言
+關(guān)注
關(guān)注
10文章
1929瀏覽量
34539 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5463瀏覽量
120890
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論