當(dāng)今物理和天文實(shí)驗(yàn)所產(chǎn)生的海量信息,沒有任何一個(gè)人或者團(tuán)隊(duì)可以完整的處理。
有些實(shí)驗(yàn)數(shù)據(jù)每天以千兆字節(jié)的規(guī)模在增加——而且這個(gè)趨勢(shì)只會(huì)越來越明顯。
想象一下,一臺(tái)以平方公里為單位陣列的射電望遠(yuǎn)鏡,預(yù)計(jì)將于2020年中開始進(jìn)行科學(xué)觀測(cè),每年將產(chǎn)生的信息數(shù)量可與整個(gè)互聯(lián)網(wǎng)相匹敵。
面對(duì)如此信息洪流,許多科學(xué)家不得不求助于人工智能。
這是一個(gè)研究者眼中神奇的工具。
只需少許人工輸入,包括人工神經(jīng)網(wǎng)絡(luò)(計(jì)算機(jī)模擬人腦神經(jīng)網(wǎng)絡(luò))在內(nèi)的人工智能系統(tǒng)就可以輕松處理成千上百萬條信息,并發(fā)現(xiàn)其中的異常和人類絕難識(shí)別的模式。
利用計(jì)算機(jī)協(xié)助科學(xué)研究的歷史可以被追溯到75年前。
早在幾千年前,人類就已經(jīng)開始從數(shù)據(jù)中尋找有效信息??茖W(xué)家認(rèn)為機(jī)器學(xué)習(xí)和人工智能所運(yùn)用的前沿技術(shù),是一種研究科學(xué)的全新方法。
這種方法,即生成模型(generative modeling),僅基于數(shù)據(jù)就可以找到與觀測(cè)數(shù)據(jù)相關(guān)的諸多解釋中最為合理的理論。更重要的是,這一過程無需預(yù)先編程,對(duì)于系統(tǒng)可能產(chǎn)生作用。生成模型的支持者覺得它的創(chuàng)新程度可以被認(rèn)為是了解宇宙的潛在的“第三種方法”。
通常,我們通過觀察來知曉萬物。約翰尼斯·開普勒就是通過研究第谷·布拉赫的星象圖來試圖找到天體運(yùn)動(dòng)的規(guī)律(所有行星都是橢圓軌道上運(yùn)行的),建模同時(shí)也推動(dòng)著科學(xué)進(jìn)步。天文學(xué)家模擬銀河與其鄰近星系仙女座的移動(dòng)軌跡后,預(yù)測(cè)兩星系將于幾百萬年之后相撞。觀察和建模都能幫助科學(xué)家建立假設(shè),而用進(jìn)一步的觀察來檢驗(yàn)假設(shè)。相較之下,生成模型區(qū)別于以上兩種方法。
“這是第三種方法,介乎于觀察和建模之間?!碧煳膶W(xué)家Kevin Schawinski介紹說。他此前一直就職于蘇黎世聯(lián)邦工業(yè)大學(xué)(ETH Zurich),同時(shí)也是當(dāng)今生成模型最狂熱的支持者之一?!八峁┝艘环N解決問題的新方法?!?/p>
有些科學(xué)家將生成模型和其他新技術(shù)簡(jiǎn)單地歸類為研究傳統(tǒng)科學(xué)的工具。但絕大部分人的共識(shí)則是人工智能能夠帶來巨大的影響,而且在科學(xué)研究領(lǐng)域的作用也將越發(fā)顯著。費(fèi)米實(shí)驗(yàn)室的天體物理學(xué)家Brian Nord以用人工神經(jīng)網(wǎng)絡(luò)研究宇宙而聞名。
他擔(dān)心人類科學(xué)家所做的一切都可以被自動(dòng)化,而持有這種觀點(diǎn)不在少數(shù)。Nord說,“這種想法讓我感到恐慌”。
神奇的GAN,基于生成的探索
還在讀書的時(shí)候,Schawinski已經(jīng)在數(shù)據(jù)驅(qū)動(dòng)科學(xué)領(lǐng)域已經(jīng)小有名氣。博士學(xué)位期間,他的課題是基于表象對(duì)數(shù)千個(gè)星系進(jìn)行分類。由于當(dāng)時(shí)還沒有可以用來解決問題的軟件,Schawinski就想到了采用群眾外包的方式——因此大眾科學(xué)星系園項(xiàng)目也就應(yīng)運(yùn)而生。
自2007年起,天文學(xué)家開始用電腦錄入關(guān)于星系分類的最佳猜測(cè),在多數(shù)決定原則下通常被證明為是正確的分類。之后這一項(xiàng)目取得了成功,但Schawinski卻意識(shí)到人工智能已經(jīng)可以取而代之?!霸诮裉?,一個(gè)有天賦、有機(jī)器學(xué)習(xí)背景且懂得云計(jì)算的科學(xué)家能夠在一個(gè)下午完成所有的工作?!?/p>
Schawinski在2016年開始使用生成模型這種新工具。本質(zhì)上,生成模型在確定條件X的前提下有多少概率能夠得到結(jié)果Y。這個(gè)方法已被證明極為有效且運(yùn)用廣泛。例如,你用生成模型處理一組人臉照片,每張照片都標(biāo)記了主人公的年紀(jì)。電腦程序在梳理這些“訓(xùn)練數(shù)據(jù)”時(shí),會(huì)有意識(shí)地將較老的面容和逐漸增加的皺紋數(shù)量關(guān)聯(lián)在一起。
最終,它就有能力“識(shí)別”人臉?biāo)鶎?duì)應(yīng)的年紀(jì)——原理是它能夠預(yù)測(cè)任何年齡段人臉?biāo)赡墚a(chǎn)生的變化。
以上的人臉都是生成的。上圖第一行(A)和左邊第一列(B)是由生成對(duì)抗網(wǎng)絡(luò)(GAN)借助真人人臉構(gòu)建模塊構(gòu)成的。GAN隨后將A中人臉的基本特(如年齡和臉型)與B中細(xì)致特征(如發(fā)色和眼球顏色)相結(jié)合,生成了上圖中其他的人臉。
生成模型系統(tǒng)中最有名的就是生成對(duì)抗網(wǎng)絡(luò)(GAN)。在充分接觸訓(xùn)練數(shù)據(jù)后,一個(gè)生成對(duì)抗網(wǎng)絡(luò)能夠修復(fù)像素?fù)p壞或確實(shí)的圖像,或是銳化那些模糊的照片。生成對(duì)抗網(wǎng)絡(luò)通過對(duì)比的方法(即對(duì)應(yīng)著術(shù)語“博弈”)來推斷出缺失信息:該網(wǎng)絡(luò)的組成部分之一生成器負(fù)責(zé)生成假數(shù)據(jù),而另外的組成部分鑒別器則負(fù)責(zé)在數(shù)據(jù)中區(qū)分出這些假數(shù)據(jù)。隨著程序的運(yùn)行,兩個(gè)組成部分的表現(xiàn)也得到了顯著提升。尤其是在由生成對(duì)抗網(wǎng)絡(luò)最新提供的超現(xiàn)實(shí)人臉中,如同上圖標(biāo)題中所示,有一些讓你感覺“不存在于我們的世界卻又真實(shí)地嚇人”。
更寬泛的說法,生成模型吸收數(shù)據(jù)(通常為圖像,但也不完全是)并拆分成一組基本但抽象的構(gòu)建模塊——科學(xué)家將其成為數(shù)據(jù)的“隱空間”。該算法操控隱空間的元素來探究其如何影響源數(shù)據(jù),而這也能幫助發(fā)現(xiàn)系統(tǒng)中正在運(yùn)行的物理變化。
隱空間的概念很抽象且難以用視覺表現(xiàn),但假設(shè)用一個(gè)粗略的比方,想一想當(dāng)你在判斷人臉對(duì)應(yīng)的性別時(shí)你的大腦究竟在如何運(yùn)轉(zhuǎn)。你可能會(huì)關(guān)注到發(fā)型、鼻子形狀等,以及難以用言語表達(dá)的其他特征。電腦程序也在相似地尋找數(shù)據(jù)中地顯著特征:雖然它不會(huì)知道什么是胡子或性別,但如果學(xué)習(xí)的訓(xùn)練數(shù)據(jù)中有標(biāo)記著“男性”、“女性”或“長(zhǎng)著胡子”的照片時(shí),電腦程序?qū)?huì)很快地推斷出兩者之間的相關(guān)性。
12月發(fā)表在《Astronomy & Astrophysics》期刊的一篇論文中,Schawinski和他在蘇黎世聯(lián)邦工業(yè)大學(xué)的同事Dennis Turp和Ce Zhang使用生成模型來研究星系演化過程中的物理變化。(他們所用的軟件與生成對(duì)抗網(wǎng)絡(luò)相似,但其在對(duì)隱空間處理的技術(shù)與生成對(duì)抗網(wǎng)絡(luò)有所差異,所以從技術(shù)角度來說并不屬于生成對(duì)抗網(wǎng)絡(luò))他們的模型創(chuàng)建了人工數(shù)據(jù)集,用于測(cè)試物理變化的假設(shè)。比如說,他們想知道恒星形成的“淬火”——形成速率中的快速減弱——與星系環(huán)境密度的關(guān)聯(lián)性。
對(duì)Schawinski而言,關(guān)鍵問題是僅憑數(shù)據(jù)本身能夠挖掘多少和恒星與星系演變相關(guān)的信息?!白屛覀兺浰嘘P(guān)于天體物理學(xué)的知識(shí)?!彼f,“僅僅使用數(shù)據(jù)本身,我們又能在多大程度上重新認(rèn)識(shí)這些知識(shí)?”
首先,星系的圖片被壓縮到它們的隱空間。Schawinski隨即微調(diào)空間中的某一個(gè)元素,使其能對(duì)應(yīng)上該星系的特定環(huán)境變化——比如,周邊物質(zhì)的密度。接著,他就可以重新生成一個(gè)星系來觀察不同之處?!八袁F(xiàn)在我就擁有了一臺(tái)假設(shè)生成設(shè)備。用它可以使我手上所有原本都是處于低密度環(huán)境的星系看上去都像是在高密度環(huán)境中一樣?!?/p>
Schawinski他們發(fā)現(xiàn)當(dāng)星系改變所處環(huán)境從低密度變成高密度時(shí),星系的顏色變得更紅,星系中的恒星也變得更加向中部集中。Schawinski指出這些觀察結(jié)果與現(xiàn)存的星系觀測(cè)相吻合,但問題是為什么會(huì)這樣。
Schawinski說后續(xù)分析步驟還沒有實(shí)現(xiàn)自動(dòng)化,“我必須以人類的身份參與其中,那么試想‘究竟是怎么樣的物理原理可以來解釋這種效應(yīng)?’”對(duì)這個(gè)問題有兩種解釋:星系在高密度環(huán)境中變得更紅可能是因?yàn)楦呙芏拳h(huán)境中充斥著很多塵埃,亦或是因?yàn)楹阈堑男纬勺兩倭?。(換句話說,星系中的恒星變得更老了)現(xiàn)在,有了生成模型就可以檢驗(yàn)這兩種思路。改變隱空間中與塵埃和恒星形成速率相關(guān)的元素來探究它們?nèi)绾斡绊懶窍档念伾!按鸢甘秋@然的?!盨chawinski說,“星系變紅是恒星形成變慢,而并不是受塵埃的影響。因此,我們應(yīng)該采納這種解釋?!?/p>
利用生成概率模型,天體物理學(xué)家可以研究宇宙星系從低密度區(qū)到高密度區(qū)過程的變化,以及導(dǎo)致這些變化的物理過程,這是一種與傳統(tǒng)模擬方法相依相異的方法。Schawinski教授指出,假設(shè)驅(qū)動(dòng)是模擬的本質(zhì),研究中涉及的基本物理定律決定了系統(tǒng)所顯示得結(jié)果。在所有物理假設(shè)成立的基礎(chǔ)上,我們將一個(gè)行星結(jié)構(gòu)和一個(gè)暗物質(zhì)行為導(dǎo)入系統(tǒng),模擬其過程并運(yùn)行,結(jié)果在一定程度上與現(xiàn)實(shí)相反,但事實(shí)上,我們并不知道真實(shí)情況及需要的假設(shè)條件,我們寄希望于數(shù)據(jù)本身所產(chǎn)生的結(jié)果。
模擬的成功并不能取代天文學(xué)家和研究學(xué)者的地位,但這意味著在天體物理學(xué)域,對(duì)象和過程的學(xué)習(xí)程度的發(fā)生轉(zhuǎn)變:我們通過生成概率模型,從龐大的數(shù)據(jù)庫(kù)獲取信息變得唾手可得。Schawinski教授指出,雖然這不是完全自動(dòng)化的科學(xué),但表明我們有能力在一定程度上構(gòu)建自動(dòng)化科學(xué)過程的工具。
生成概率模型顯然是強(qiáng)大的,但它是否真正代表了一種新的科學(xué)方法呢?
供職于紐約大學(xué)及Flatiron研究所(與Quanta一樣都由Simons基金會(huì)資助)的宇宙學(xué)家David Hogg教授指出,這項(xiàng)技術(shù)雖然令人叫絕,但歸根結(jié)底來說,只是一種從數(shù)據(jù)中提取規(guī)律的復(fù)雜方法。幾個(gè)世紀(jì)以來,天文學(xué)家一直在使用這種先進(jìn)的方法進(jìn)行數(shù)據(jù)觀察和分析。
Hogg教授和Schawinski教授的工作都對(duì)AI十分依賴,Hogg教授使用神經(jīng)網(wǎng)絡(luò)方法,根據(jù)光譜對(duì)恒星進(jìn)行分類,并使用數(shù)據(jù)驅(qū)動(dòng)模型推斷恒星的其他物理屬性。他認(rèn)為他和Schawinski教授的工作都是經(jīng)過實(shí)踐檢驗(yàn)的科學(xué),并且不認(rèn)為這是第三種科學(xué)方式。他們致力于打造一個(gè)成熟運(yùn)用數(shù)據(jù)的團(tuán)體,尤其是在數(shù)據(jù)比較方面,即使現(xiàn)在Hogg教授的工作仍有待觀察。
任勞任怨的AI助理
無論在概念上是否具有新穎性,很明顯AI和神經(jīng)網(wǎng)絡(luò)已經(jīng)在當(dāng)代天文學(xué)和物理學(xué)研究中扮演了重要角色。
在海德堡理論研究所,物理學(xué)家Kai Polsterer教授的天文信息學(xué)小組,致力于研發(fā)以數(shù)據(jù)為中心的天體物理學(xué)研究方法。最近,他們一直在使用機(jī)器學(xué)習(xí)算法從星系數(shù)據(jù)集中提取紅移信息,這在以前是一項(xiàng)艱巨的任務(wù)。
Polsterer教授將這種基于AI的系統(tǒng)稱作“任勞任怨的助理”,該系統(tǒng)可以連續(xù)梳理數(shù)據(jù)數(shù)小時(shí),不厭倦不抱怨,完成所有繁瑣乏味的工作,這讓研究人員有時(shí)間和精力做一些他們擅長(zhǎng)的有趣的科學(xué)研究。
Polsterer教授指出系統(tǒng)并不是完美無缺,算法只能執(zhí)行訓(xùn)練過的事項(xiàng),對(duì)于未知輸入無法響應(yīng)。例如,如果輸入一個(gè)已知星系,系統(tǒng)可以估計(jì)它的紅移信息和年齡,但如果輸入一張自拍照或腐爛的魚的圖片,系統(tǒng)也會(huì)輸出一個(gè)極端錯(cuò)誤的估計(jì)年齡。在此案例中人類科學(xué)家扮演者重要角色,由此他認(rèn)為此項(xiàng)技術(shù)最終需要研究人員負(fù)責(zé)監(jiān)控及解釋。
供職于費(fèi)米實(shí)驗(yàn)室Nord教授指出重要的一點(diǎn):神經(jīng)網(wǎng)絡(luò)方法不僅要提供計(jì)算結(jié)果,而且要提供誤差區(qū)間——這是每個(gè)大學(xué)生統(tǒng)計(jì)課上都學(xué)過的。在科學(xué)領(lǐng)域,如果只計(jì)算而不提供相關(guān)誤差估計(jì),那么結(jié)果并不值得信任。
和其他AI研究員一樣,Nord教授也擔(dān)心神經(jīng)網(wǎng)絡(luò)系統(tǒng)結(jié)果的“不易解釋”這一缺陷,通常系統(tǒng)提供的僅是結(jié)果,而不顯示具體這些結(jié)果是如何得到的。
然而并不是所有人都認(rèn)為這是一個(gè)問題。法國(guó)CEA Saclay理論物理研究所的研究員Lenka Zdeborová指出,人類的直覺也是如此“不易解釋”。比如你看一張照片后立即認(rèn)出是一只貓,但事實(shí)上你不知道這是怎么回事,從某種意義上說,大腦就是一個(gè)黑盒子。
不僅是天體物理學(xué)家和宇宙學(xué)家向AI推動(dòng)的數(shù)據(jù)驅(qū)動(dòng)、數(shù)據(jù)推動(dòng)科學(xué)遷移,量子物理學(xué)家也使用神經(jīng)網(wǎng)絡(luò)來解決一些十分棘手且重要的問題。
供職于周界理論物理研究所和安大略省滑鐵盧大學(xué)的Roger Melkoof教授,使用神經(jīng)網(wǎng)絡(luò)技術(shù)解決了描述多粒子系統(tǒng)的數(shù)學(xué)波函數(shù)問題。Melkoof教授將必不可少的AI技術(shù)稱為“維數(shù)的指數(shù)詛咒”,波函數(shù)形式的可能隨粒子數(shù)量呈指數(shù)增長(zhǎng)。這一模擬過程的難點(diǎn)類似嘗試在象棋或圍棋游戲中找出最佳走法,即你在試圖走下一步前,會(huì)想象你的對(duì)手會(huì)如何應(yīng)對(duì),在這些走法中選擇最佳的一個(gè),但每走一步,可能性就會(huì)呈指數(shù)激增。
當(dāng)然,AI系統(tǒng)已經(jīng)掌握了國(guó)際象棋和圍棋游戲的玩法,從十年前征服國(guó)際象棋,到2016年AlphaGo擊敗了人類頂級(jí)圍棋棋手。Melkoof教授由此認(rèn)為,人工智能在量子物理學(xué)中同樣具有適用性。
科學(xué)研究的“第三種方法”
無論Schawinski教授認(rèn)為AI是科學(xué)研究的“第三種方法”是否正確,或者如Hogg教授認(rèn)為,這種方法只是傳統(tǒng)觀察和數(shù)據(jù)分析的“外掛”,但毫無疑問的是AI正在改變科學(xué)發(fā)現(xiàn)方法,并起到明顯的促進(jìn)作用,那么AI革命將在科學(xué)研究上走多遠(yuǎn)?
有人對(duì)“機(jī)器人科學(xué)家”的成就夸夸其談。十年前,一位名叫亞當(dāng)?shù)腁I機(jī)器人化學(xué)家研究了面包酵母的基因組,并找出了制造特定氨基酸的基因。亞當(dāng)通過觀察某些基因缺失的酵母株,將結(jié)果與具有這些基因菌株的行為進(jìn)行比較。
最近,格拉斯哥大學(xué)的化學(xué)家Lee Cronin教授一直在使用機(jī)器人隨機(jī)混合化學(xué)物,看看會(huì)形成什么樣的新化合物。該系統(tǒng)通過質(zhì)譜儀、核磁共振儀和紅外光譜儀實(shí)時(shí)監(jiān)測(cè)反應(yīng)并最終預(yù)測(cè)哪種組合反應(yīng)最為強(qiáng)烈。Cronin教授指出,即使這個(gè)機(jī)器人系統(tǒng)不能帶來進(jìn)一步的發(fā)現(xiàn),它也能使化學(xué)家們的研究速度提高約90%。
蘇黎世聯(lián)邦理工學(xué)院的另一組科學(xué)家去年利用神經(jīng)網(wǎng)絡(luò),從一組數(shù)據(jù)中推導(dǎo)出了相關(guān)物理定律。他們的系統(tǒng)類似于機(jī)器人開普勒(kepler),通過記錄從地球上看到太陽(yáng)和火星在天空中的位置,重新發(fā)現(xiàn)了太陽(yáng)系的日心模型,并通過觀察碰撞的球體,得出了動(dòng)量守恒定律。由于物理定律通常不止一種表達(dá)式,研究人員想知道這個(gè)系統(tǒng)是否會(huì)提供新的方法表達(dá)已知物理定律。
以上都是AI啟動(dòng)科學(xué)發(fā)現(xiàn)過程的案例,盡管在每種情況下,我們都可以討論這種新方法的革命性。但最有爭(zhēng)議且緊急的問題是,在這個(gè)數(shù)據(jù)堆積如山的時(shí)代,我們能從中收集多少信息。
在《The Book of Why》(2018)一書中,計(jì)算機(jī)科學(xué)家Judea Pearl和科學(xué)作家Dana Mackenzie指出,數(shù)據(jù)其實(shí)并不是十分智能,數(shù)據(jù)無法解釋因果關(guān)系,使用各個(gè)模型分析數(shù)據(jù)的論文或研究都只給出結(jié)果或變換數(shù)據(jù),不能做出解釋。Schawinski教授同意Pearl教授的觀點(diǎn),但是指出這種觀念偷換了概念,他從未聲稱要以這種方式推斷因果關(guān)系,而只是使用這種方法可以比常規(guī)方法做的更多。
科學(xué)需要?jiǎng)?chuàng)造力,但到目前為止,沒有恰當(dāng)?shù)姆椒▽?chuàng)造力引入機(jī)器編程。Polsterer教授說“提出一個(gè)有邏輯的新理論需要?jiǎng)?chuàng)造力。而每當(dāng)你需要?jiǎng)?chuàng)造力的時(shí)候,你就需要人類?!眲?chuàng)造力從何而來?Polsterer教授覺得創(chuàng)造力和“無聊”有關(guān),機(jī)器是無法感受到無聊的。“想變得有創(chuàng)造性,你必須討厭無聊。我不認(rèn)為機(jī)器會(huì)覺得無聊?!钡硪环矫?,我們卻用著“創(chuàng)意”和“靈感”等詞匯來描述深藍(lán)(Deep Blue)和AlphaGo等程序。描述機(jī)器“思想”內(nèi)部發(fā)生了什么的困難反映了我們探索自己的思維過程是多么的困難。
Schawinski教授最近離開學(xué)術(shù)界進(jìn)入了私企,運(yùn)營(yíng)一家名為Modulos的初創(chuàng)公司,Modulos雇傭了許多ETH的科學(xué)家,公司在官網(wǎng)口號(hào)是,“在AI和機(jī)器學(xué)習(xí)的發(fā)展風(fēng)暴中心工作”。無論當(dāng)前的AI技術(shù)和成熟技術(shù)間存在何種障礙,他和其他專家都認(rèn)為,機(jī)器人已經(jīng)準(zhǔn)備好做越來越多的人類科學(xué)家的工作,即使機(jī)器在這方面存在一定限制性。
在可預(yù)見的未來,我們能否制造出一臺(tái)使用生物硬件的機(jī)器,能夠解決那些連世界上最聰明的人類也無法獨(dú)立完成的物理或數(shù)學(xué)問題??茖W(xué)的未來最終是否有可能歸宿于機(jī)器驅(qū)動(dòng),令人期待。
-
GaN
+關(guān)注
關(guān)注
19文章
1910瀏覽量
72762 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8357瀏覽量
132328
原文標(biāo)題:了解宇宙萬物的“第三種方法”?,人工智能正在改變科學(xué)
文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論