近日,國際數(shù)學家大會丨鄂維南院士作一小時大會報告:從數(shù)學角度,理解機器學習的“黑魔法”,并應用于更廣泛的科學問題。
鄂維南院士在2022年的國際數(shù)學家大會上作一小時大會報告(plenary talk)。
今天我們帶來鄂老師演講內容的分享。
鄂老師首先分享了他對機器學習數(shù)學本質的理解(函數(shù)逼近、概率分布的逼近與采樣、Bellman方程的求解);
然后介紹了機器學習模型的逼近誤差、泛化性質以及訓練等方面的數(shù)學理論;
最后介紹如何利用機器學習來求解困難的科學計算和科學問題,即AI for science。
機器學習問題的數(shù)學本質
眾所周知,機器學習的發(fā)展,已經徹底改變了人們對人工智能的認識。機器學習有很多令人嘆為觀止的成就,例如:
比人類更準確地識別圖片:利用一組有標記的圖片,機器學習算法可以準確地識別圖片的類別:
Cifar-10 問題:把圖片分成十個類別
來源:https://www.cs.toronto.edu/~kriz/cifar.html
Alphago下圍棋打敗人類:完全由機器學習實現(xiàn)下圍棋的算法:
參考:https://www.bbc.com/news/technology-35761246
產生人臉圖片,達到以假亂真的效果:
參考:https://arxiv.org/pdf/1710.10196v3.pdf
機器學習還有很多其他的應用。在日常生活中,人們甚至常常使用了機器學習所提供的服務而不自知,例如:我們的郵件系統(tǒng)里的垃圾郵件過濾、我們的車和手機里的語音識別、我們手機里的指紋解鎖……
所有這些了不起的成就,本質上,卻是成功求解了一些經典的數(shù)學問題。
對于圖像分類問題,我們感興趣的其實是函數(shù):
: 圖像→類別
函數(shù)把圖像映射到該圖像所屬的類別。我們知道在訓練集上的取值,想由此找到對函數(shù)的一個足夠好的逼近。
一般而言,監(jiān)督學習(supervised learning)問題,本質都是想基于一個有限的訓練集S,給出目標函數(shù)的一個高效逼近。
對于人臉生成問題,其本質是逼近并采樣一個未知的概率分布。在這一問題中,“人臉”是隨機變量,而我們不知道它的概率分布。然而,我們有“人臉”的樣本:數(shù)量巨大的人臉照片。我們便利用這些樣本,近似得到“人臉”的概率分布,并由此產生新的樣本(即生成人臉)。
一般而言,無監(jiān)督學習本質就是利用有限樣本,逼近并采樣問題背后未知的概率分布。
對于下圍棋的Alphago來說,如果給定了對手的策略,圍棋的動力學是一個動態(tài)規(guī)劃問題的解。其最優(yōu)策略滿足Bellman方程。因而Alphago的本質便是求解Bellman方程。
一般而言,強化學習本質上就是求解馬爾可夫過程的最優(yōu)策略。
然而,這些問題都是計算數(shù)學領域的經典問題!!畢竟,函數(shù)逼近、概率分布的逼近與采樣,以及微分方程和差分方程的數(shù)值求解,都是計算數(shù)學領域極其經典的問題。那么,這些問題在機器學習的語境下,到底和在經典的計算數(shù)學里有什么區(qū)別呢?答案便是:維度(dimensionality)。
例如,在圖像識別問題中,輸入的維度為。而對于經典的數(shù)值逼近方法,對于維問題,含個參數(shù)的模型的逼近誤差. 換言之,如果想將誤差縮小10倍,參數(shù)個數(shù)需要增加. 當維數(shù)增加時,計算代價呈指數(shù)級增長。這種現(xiàn)象通常被稱為:維度災難(curse of dimensionality)。
所有的經典算法,例如多項式逼近、小波逼近,都飽受維度災難之害。很明顯,機器學習的成功告訴我們,在高維問題中,深度神經網絡的表現(xiàn)比經典算法好很多。然而,這種“成功”是怎么做到的呢?為什么在高維問題中,其他方法都不行,但深度神經網絡取得了前所未有的成功呢?
從數(shù)學出發(fā),理解機器學習的“黑魔法”:監(jiān)督學習的數(shù)學理論
2.1?記號與設定
神經網絡是一類特殊的函數(shù)。比如,兩層神經網絡是
其中有兩組參數(shù),和。是激活函數(shù),可以是:?,ReLU函數(shù);Sigmoid函數(shù)。而神經網絡的基本組成部分即為:線性變換與一維非線性變換。深度神經網絡,一般就是如下結構的復合:
為了簡便,我們在此省略掉所有的bias項。是權重矩陣,激活函數(shù)作用在每一個分量上。
我們將要在訓練集S上逼近目標函數(shù)不妨假設X的定義域為。令為x的分布。那么我們的目標便是:最小化測試誤差(testing error,也稱為population risk或generalization error)
2.2?監(jiān)督學習的誤差
監(jiān)督學習一般有如下的步驟:
第一步:選取一個假設空間(測試函數(shù)的一個集合)(m正比于測試空間的維數(shù));
第二步:選取一個損失函數(shù)進行優(yōu)化。通常,我們會選擇經驗誤差(empirical risk)來擬合數(shù)據(jù):
有時,我們還會加上其他的懲罰項。
第三步:求解優(yōu)化問題,如:
梯度下降:
隨機梯度下降:
是從1,…n中隨機選取的。
如果把機器學習輸出的結果記,那么總誤差便是。我們再定義:
是在假設空間里最好的逼近;
是在假設空間里,基于數(shù)據(jù)集S最好的逼近。
由此,我們便可以把誤差分解成三部分:
是逼近誤差(approximation error):完全由假設空間的選取所決定;
是估計誤差(estimation error):由于數(shù)據(jù)集大小有限而帶來的額外的誤差;
是優(yōu)化誤差(optimization error):由訓練(優(yōu)化)帶來的額外的誤差。
2.3?逼近誤差
我們下面集中討論逼近誤差(approximation error)。
我們先用傳統(tǒng)方法傅立葉變換做一個對比:
如果我們用離散的傅立葉變換來逼近:
其誤差便是正比于,毫無疑問地受到維度災難的影響。而如果一個函數(shù)可以表示成期望的形式:
令是測度的獨立同分布樣本,我們有:
那么此時的誤差是:
可以看到,這是與維數(shù)無關的!
如果讓激活函數(shù)為,那么就是以為激活函數(shù)的兩層神經網絡。此結果意味著:這一類(可以表示成期望)的函數(shù),都可以由兩層神經網絡逼近,且逼近誤差的速率與維數(shù)無關!
對于一般的雙層神經網絡,我們可以得到一系列類似的逼近結果。其中關鍵的問題是:到底什么樣的函數(shù)可以被雙層神經網絡逼近?為此,我們引入Barron空間的定義:
Barron空間的定義參考:E, Chao Ma, Lei Wu (2019)
對于任意的Barron函數(shù),存在一個兩層神經網絡,其逼近誤差滿足:
可以看到這一逼近誤差與維數(shù)無關?。P于這部分理論的細節(jié),可以參考:E, Ma and Wu (2018, 2019), E and Wojtowytsch (2020)。其他的關于Barron space的分類理論,可以參考Kurkova (2001), Bach (2017),Siegel and Xu (2021))
類似的理論可以推廣到殘差神經網絡(residual neural network)。在殘差神經網絡中,我們可以用流-誘導函數(shù)空間(flow-induced function space)替代Barron空間。
2.4 泛化性:訓練誤差與測試誤差的差別
人們一般會期待,訓練誤差與測試誤差的差別會正比于(n是樣本數(shù)量)。然而,我們訓練好的機器學習模型和訓練數(shù)據(jù)是強相關的,這導致這樣子的Monte-Carlo速率不一定成立。為此,我們給出了如下的泛化性理論:
簡言之,我們用Rademacher復雜度來刻畫一個空間在數(shù)據(jù)集上擬合隨機噪聲的能力。
Rademacher復雜度的定義為:
其中是取值為1或-1的獨立同分布的隨機變量。
當是李樸西斯空間中的單位球時,其Rademacher復雜度正比于。 當d增加時,可以看到擬合需要的樣本大小指數(shù)上升。這其實是另一種形式的維度災難。 2.5 訓練過程的數(shù)學理解 ? 關于神經網絡的訓練,有兩個基本的問題:
梯度下降方法到底能不能快速收斂?
訓練得到的結果,是否有比較好的泛化性?
對于第一個問題,答案恐怕是悲觀的。Shamir(2018)中的引理告訴我們,基于梯度的訓練方法,其收斂速率也受維度災難的影響。而前文提到的Barron space,雖然是建立逼近理論的好手段,但對于理解神經網絡的訓練卻是一個過大的空間。 特別地,這樣子的負面結果可以在高度超參數(shù)(highly over-parameterized regime)的情形(即m>>n)下得到具體刻畫。在此情形下,參數(shù)的動力學出現(xiàn)了尺度分離的現(xiàn)象:對于如下的兩層神經網絡:
在訓練過程中,的動力學分別為:
。 ? 由此可以看到尺度分離的現(xiàn)象:當m很大的時候,的動力學幾乎被凍結住。 ? ? ? 這種情形下,好消息是我們有了指數(shù)收斂(Du et al, 2018);壞消息卻是這時候,神經網絡表現(xiàn)得并不比從random feature model模型好。 我們也可以從平均場的角度理解梯度下降方法。令:,并令:則是下列梯度下降問題的解:當且僅當是下面方程的解(參考:Chizat and Bach (2018), Mei, Montanari and Nguyen (2018), Rotsko? and Vanden-Eijnden (2018), Sirignano and Spiliopoulos (2018)):這一平均場動力學,實際上是在Wassenstein度量意義下的梯度動力學。人們證明了:如果其初始值的支集為全空間,且梯度下降的確收斂,那么其收斂結果必然是全局最優(yōu)(參考:Chizat and Bach (2018,2020), Wojtowytsch (2020))。
機器學習的應用
3.1 解決高維科學計算問題 ? 既然機器學習是處理高維問題的有效工具,我們便可運用機器學習解決傳統(tǒng)計算數(shù)學方法難以處理的問題。 第一個例子便是隨機控制問題。傳統(tǒng)方法求解隨機控制問題需要求解一個極其高維的Bellman方程。運用機器學習方法,可以有效求解隨機控制問題。其思路與殘差神經網絡頗為類似(參考Jiequn Han and E (2016)): ?
第二個例子便是求解非線性拋物方程。非線性拋物方程可以被改寫成一個隨機控制問題,其極小點是唯一的,對應著非線性拋物方程的解。
? 3.2 AI for science ? 利用機器學習處理高維問題的能力,我們可以解決更多科學上的難題。這里我們舉兩個例子。第一個例子是Alphafold。
參考:J. Jumper et al. (2021) ? 第二個例子,便是我們自己的工作:深度勢能分子動力學(DeePMD)。這是能達到從頭計算精度的分子動力學。我們所使用的新的模擬“范式”便是:
利用量子力學第一性原理計算提供數(shù)據(jù);
利用神經網絡,給出勢能面準確的擬合(參考:Behler and Parrinello (2007), Jiequn Han et al (2017), Linfeng Zhang et al (2018))。
運用DeePMD,我們能夠模擬一系列材料和分子,可以達到第一性層面的計算精度: ?
我們還實現(xiàn)了一億原子的第一性原理精度的模擬,獲得了2020年的戈登貝爾獎: ?
參考:Weile Jia, et al, SC20, 2020 ACM Gordon Bell Prize
我們給出了水的相圖:
參考:Linfeng Zhang, Han Wang, et al. (2021)
而事實上,物理建模橫跨多個尺度:宏觀、介觀、微觀,而機器學習恰好提供了跨尺度建模的工具。
AI for science,即用機器學習解決科學問題,已經有了一系列重要的突破,如:
量子多體問題:RBM (2017), DeePWF (2018), FermiNet (2019),PauliNet (2019),…;
密度泛函理論: DeePKS (2020), NeuralXC (2020), DM21 (2021), …;
分子動力學: DeePMD (2018), DeePCG (2019), …;
動理學方程: 機器學習矩封閉 (Han et al. 2019);
連續(xù)介質動力學:??(2020)
在未來五到十年,我們有可能做到:跨越所有物理尺度進行建模和計算。這將徹底改變我們如何解決現(xiàn)實問題:如藥物設計、材料、燃燒發(fā)動機、催化……
總結
機器學習根本上是高維中的數(shù)學問題。神經網絡是高維函數(shù)逼近的有效手段;這便為人工智能領域、科學以及技術領域提供了眾多新的可能性。
這也開創(chuàng)了數(shù)學領域的一個新主題:高維的分析學。簡而言之,可以總結如下:
監(jiān)督學習:高維函數(shù)理論;
無監(jiān)督學習:高維概率分布理論;
強化學習:高維Bellman方程;
時間序列學習:高維動力系統(tǒng)。
編輯:黃飛
?
評論
查看更多