http:////image.hnol.net//c//swf//2019-05//13//02//201905130211546681-3751907.swf/ 

機器之心原創作者:思源如同物理大時代尋求統一的量子力學,深度學習也許也需要一個統一的理論框架。如果能有一種理論告訴我們什么樣的模型架構、運算方式能最好地表示某種數據,什么樣的損失函數、迭代方式能最高效地學習到某種能力,什么樣的設置又使這種能力能處理各種意外情況。那么,這樣的深度學習,乃至機器學習,才是理論基礎圓潤的大學科。令人驚喜的是,我們可以看到近來很多前沿研究都越來越系統,越來越有洞見。最明顯的是近年舉行的 AI 頂會,我們可以看到很多獲獎論文都嘗試從更基礎、更深刻的角度為 DL 打下地基。本文將從 2019 年人工智能頂會的獲獎論文出發,為你介紹深度學習的理論基礎到底是什么樣的,當前又有哪些新發現。數學基礎 ≠ 理論基礎在入門深度學習的過程中,我們經常會聽到各種數學名詞,線性代數和矩陣微分、概率論與隨機過程,似乎要想理解各種模型,首先必須理解這些數學概念。那么這些數學描述不正是深度學習的「理論基礎」嗎?這里我們需要明確的是,數學是一種語言、一種工具,使用它描述深度學習并不一定等于構建 DL 的理論基礎。這是一種數學基礎,而不是整理領域的理論基礎。很多深度模型確實都是從數學推導出發,然后得出某些很好的性質,但這只能說明模型是有理論保證的,它們并不能組成深度學習的理論基礎。比如說圖卷積網絡或變分自編碼器,它們最開始都是從數學的角度推導某些性質,后來才根據這樣的性質構建整個模型。我們可以說這些模型的理論基礎非常堅實,如果我們需要理解它們,同樣也需要對應的數學基礎。此外,在實際建模時,我們并不一定完全遵循理論推導,可以稍微修改以獲得更強的計算效果。在深度學習中,有很多模型的數學推導都非常優美。也有很多模型從實驗與直觀概念出發,描述整個學習過程的數學表達。它們都非常重要,但并不能解決深度學習最基本的疑問:為什么深度模型能夠高效學習?為什么深度模型要比淺層模型的性質好?為什么深度學習泛化性也不錯?就像上個世紀初發現各種量子現象與解釋,物理大時代艱難地尋求統一的「量子力學」。現在深度學習也有各種非常高效的模型,各種驚艷的結構,我們也許也需要一種統一的底層理論框架。DL 的理論基礎知多少談到深度學習的理論基礎,可能讀者首先想到的就是通用近似定理(Universal approximation theorem),其表示擁有無限神經元的單層前饋網絡能逼近緊致實數子集上的任意連續函數。通俗來說,只要神經元足夠多,單層前饋神經網絡「有潛力」逼近任意復雜的連續函數。在 1989 年提出通用近似定理以來,至少我們有了最基本的一個理論基礎,即神經網絡有潛力解決各種復雜的現實問題。MIT 教授 Tomaso Poggio 曾在他的系列研究中 /[1/] 表示深度學習理論研究可以分為三大類:表征問題(Representation):為什么深層網絡比淺層網絡的表達能力更好?最優化問題(Optimization):為什么梯度下降能找到很好的極小值解,好的極小值有什么特點?泛化問題(Generalization):為什么過參數化仍然能擁有比較好的泛化性,不過擬合?對于表征問題,我們想要知道深度神經網絡這種「復合函數」,它的表達能力到底怎么確定,它的復合機制又是什么樣的。我們不再滿足于「能擬合任意函數」這樣的定性描述,我們希望知道是不是有一種方法能描述 50 層 ResNet、12 層 Transformer 的擬合能力,能不能清楚地了解它們的理論性質與過程。有了表征能力,那也只是具備了擬合潛力,深度學習還需要找到一組足夠好的極值點,這就是模型的最優解。不同神經網絡的「最優化 Landscape」是什么樣的、怎樣才能找到這種高維復雜函數的優秀極值點、極值點的各種屬性都需要完善的理論支持。最后就是泛化了,深度模型泛化到未知樣本的能力直接決定了它的價值。那么深度模型的泛化邊界該怎樣確定、什么樣的極值點又有更好的泛化性能,很多重要的特性都等我們確定一套理論基準。總而言之,談到深度學習理論基礎,我們總是少不了聽到這些關鍵詞:19 年頂會關于理論的研究在 2019 年中,我們會看到人工智能頂會選了很多理論性研究作為最佳或杰出論文。它們并不一定是在架構或算法上做出新的貢獻,相反,它們很多都希望從數學及理論的角度理解深度學習,理解它的行為與邊界。正因為頂尖研究成果更偏向底層,所以我們會發現它們的閱讀難度越來越高。我們查閱了 2019 年 AI 頂會論文的獲獎情況,這里我們確定「頂會」主要是根據 CCF 推薦的 A 類會議(人工智能領域),再加上 CCF 沒有收錄的 ICLR。我們將獲獎論文分為偏模型算法與偏理論研究兩部分,其中理論研究可能是關于深度學習的理論研究,也可能是模型算法的理論理解。統計數據可見附錄A:https:////www.jiqizhixin.com//articles//2020-01-01-20。一般偏算法或模型的論文,閱讀起來還是非常友好的,論文會介紹直觀想法、形式化過程及最終結果。但偏理論的論文會要求很多領域知識,尤其是堅實的數學基礎。文章后面會具體介紹幾項代表性研究,但現在,我們還是先看看整體都是什么樣的。深度學習的理論基礎DL 的理論基礎其實還是比較窄的領域,表征、最優化和泛化三大問題也是最重要與基礎的方向。在今年的頂會論文中,NeurIPS 2019 的新方向杰出論文/[2/]就特別關注深度學習的泛化問題。從理論上來說,目前深度學習大多都根據一致性收斂推導出泛化上界,但 CMU 的研究者表示,這種泛化邊界是有問題的。研究者通過一系列實驗與理論分析,證明不論一致性收斂邊界如何精煉,它都不能被證明可解釋泛化性。因此由一致性收斂推出的一大族泛化邊界都是有問題的。在 ICLR 2019 最佳論文 /[3/] 中,MIT 的研究者提出的 Lottery Ticket Hypothesis 非常有意思,它表示如果某些參數在模型中很重要,那么開始訓練之前就是重要的。換而言之,神經網絡初始化后就有個子網絡,訓練這個子網絡能獲得整個網絡相近的性能,這樣的子結構可以稱為 winning tickets。這種特殊子結構,同樣展示了神經網絡表征能力的新特性。除此之外,收斂性分析也有新發現,ICML 最佳論文 /[4/] 就分析了變分高斯過程的收斂率,并提出了計算更便捷的方式。模型的理論性理解在理論基礎之外,有更多的偏理論研究關注從理論上理解模型算法,并借此提出新的方案。最顯著的是 NeurIPS 2018 年最佳論文 ODENet /[5/],它將殘差網絡理解為常微分方程,從而擁有新的解決思路。在 2019 年的頂會獲獎論文中,即使偏算法類研究成果,也會有一些理論性理解,只不過本文關注理論成分更多的研究。首先 AAAI 最佳論文 /[6/] 從迭代算法的角度出發解信息不完美博弈,從而進一步構建更強的智能體。這種將復雜游戲抽象為簡單博弈問題,并從博弈論的角度出發構建新算法,具有很優秀的理論屬性。在 NeurIPS 2019 的杰出論文 /[7/] 中,CMU 的研究者從理論上分析了大型損失函數族,探討 GAN 的損失函數到底怎么樣。同樣在 ACL 2019 的杰出論文 /[8/] 中,研究者認為建立自動文本摘要的理論模型能加深我們對任務的理解,也有助于改進文本摘要系統。為此,港科大等研究者對文本摘要的一些概念進行了嚴格定義,并提出了理論性建模框架。所有這些頂尖研究成果,都離不開理論的支持,下面我們從理論基礎與理論理解,具體介紹新研究都是什么樣的。有問題的泛化性什么樣的模型泛化性比較好?難道測試集上表現好的模型泛化能力真的好嗎?之前很多模型采用在測試集上的誤差作為泛化誤差,先不管到底有沒有「偷窺」測試數據,這種誤差也只是一種經驗性的指標。深度學習需要從理論上對學習方法的泛化能力進行分析。我們先看看泛化誤差的定義是什么樣的:其實上面的表達式并不復雜,它描述的是,泛化誤差應該是模型在所有未知數據上的「平均」預測誤差,即所有誤差的數學期望。注意,我們是無法獲取「所有未知數據」的,因此這只是一個定義。走向衰落的傳統泛化理論之前的理論研究,主要靠分析泛化誤差的概率上界來進行,也就是我們常聽到的泛化誤差上界。傳統機器學習會認為,泛化誤差上界是樣本容量的函數,當樣本數增加時,泛化誤差上界趨向于 0;同時,泛化誤差上界也是模型能力的函數,模型能力越強,它就越難學習,泛化誤差上界就越大。例如大名鼎鼎的傳統理論 VC 維,它通過考慮模型函數族的一致性收斂邊界,來探討函數族的表達能力有多強。在 NeurIPS 2019 新方向杰出論文中,研究者表示這種考慮一致性收斂邊界的方法,是行不通的。傳統泛化誤差大致可以表示為如下:我們認為,測試誤差不能超過訓練誤差再加上某個邊界。這個邊界隨著訓練集的增加而減少,隨著模型參數量(depth×width)的增加而增加。但問題在于,傳統泛化誤差上界并沒有考慮深度神經網絡「過參數化」這一神奇的現象。并不是說所有參數對最終的預測是起作用的,深度模型存在著大量冗余參數。因此 depth×width 并不能正確描述深度模型的學習難度,過參數化會讓學習變得更簡單。現代泛化理論的革新之路既然傳統泛化理論已經不行了,深度學習研究者也就開始探索新的出路。近來的研究者在思考:「我們能不能確定底層的數據分布、算法如何共同約束深度神經網絡,從而構建成一種『簡單的』函數族。」因此,通過范數約束函數族,也許我們可以將一致性收斂應用到更簡潔與準確的邊界:這一類方法看上去非常不同,但本質上仍是一致性收斂的不同表示。在 CMU 的這篇論文中,他們發現,一致性收斂邊界實際上并不能全面解釋深度學習的泛化問題,我們應該在一致性收斂之上來討論泛化邊界。一致性收斂到底有什么問題?首先我們需要確定,機器學習中的一致收斂性,簡單來說就是回答「為什么降低訓練損失能降低測試損失」這個問題。如果函數族的經驗風險能與總體風險一致地收斂,那么這個問題就是可以學習的。論文 /[2/] 一作 Vaishnavh Nagarajan 說:「之前的研究大多數都基于一致性收斂考慮泛化邊界,但我們的研究表明這類問題很可能是局限的。」目前 Rademacher Complexity、Covering Numbers 和 PAC-Bayes 等眾多前沿泛化邊界分析都可能存在問題。Vaishnavh 表示一致性收斂邊界會隨著參數量的增長而增大,因此這樣的邊界對于深度網絡來說太大了,而且行為也不像真實泛化邊界。但也有可能一致性收斂邊界會非常緊致,只不過它并不是原始神經網絡的邊界,很可能是通過模型壓縮等技術精煉的新邊界。為了進一步了解為什么一致收斂性不能提供堅實的理論基礎,研究者做了很多實驗與推導,并最終發現主要問題體現在兩方面。首先,泛化邊界竟然隨著訓練集的增長而增長,這是非常有問題的。因為按照我們的直觀理解,當數據集無窮大時,訓練誤差和測試誤差之間差距應該減少到零。Vaishnavh 說:「即使我們觀察到隨著數據集的增加,測試誤差是正常減少的,但泛化邊界卻反常地擴大。」之所以出現這樣的問題,在于之前我們通過參數量來度量模型的復雜度,后來修正方法也是通過權重范數來度量復雜度。但問題在于,權重范數會隨著數據集的增加而顯著增加,并抵消分母數據集的增長速度。「參數依賴性只是泛化問題的一部分,我們同樣要特別關注數據集的依賴性」,Vaishnavh 說。其次對于第二個問題,研究者們調查了所有泛化邊界的理論分析,并表示任何一致性收斂邊界,不論它們的推導與應用如何嚴格,它們都不能解釋 SGD 訓練的神經網絡泛化性問題。正如 Vaishnavh 所說,在深度學習中,不論一致性收斂邊界如何精煉,它都不能被證明可解釋泛化性。正如上式所示,即使再精煉,一致性收斂邊界可能推導出約等于 1,但真實的泛化差距可能接近于 0。這樣的結果是非常虛的,它并起不到什么作用。Vaishnavh 最后表示,在過參數化的深度學習中,決策邊界是異常復雜的。如上所示,決策邊界在每一個訓練數據點上都可能有一些小的彎曲,這種邊界會影響一致性收斂,但并不影響泛化性。因此,也許我們需要數學工具來描述深度神經網絡復雜的決策邊界,需要在一致性收斂之上的一些理論來討論深度學習。有些參數生而不平等深度學習存在很強的過參數化現象,其參數量遠遠超過了數據量。而且重要的一點是,并不是所有參數都是平等的,有的參數根本不重要,刪掉它們也不會有影響。那么為什么會有權重剪枝這些模型壓縮方法呢,在 ICLR 2019 最佳論文 /[3/] 中,MIT 的研究者從底層機制做出理論假設,并通過實驗驗證這樣的假設。上面表達的是,如果神經網絡完成了隨機初始化,那么它就包含了一個子網絡。該子網絡從頭開始訓練相同的迭代次數,就能獲得與整體網絡相媲美的效果。這樣的假設似乎是反直覺的,因為我們一直有一個概念「剪枝后的子網絡從頭學習肯定效果要差于整體網絡」。但研究者提出這樣的新假設,認為只要完成初始化,有效的子結構,也就是「winning tickets」也就確定了。要想確定這樣的假設到底真不正確,當然還是需要實驗。實驗做起來因為模型剪枝天生就構建了一個子網絡,因此研究者首先驗證了這種子網絡是不是有效子結構。研究者發現,固定這樣的子網絡不變,并重新初始化權重,這樣訓練出來的結果并不能匹配之前的效果。因此,這也證明了初始化對有效子結構的影響。假設神經網絡存在這樣的子結構,那么我們通過四步就能找到它。其核心思想是,既然常規的模型剪枝能在刪除大量權重的情況下保持準確率基本不變,那么在那種初始化條件下,它就是有效子結構。如果我們保存之前初始化的結果,并采用剪枝后的子結構,那么是不是就能訓練達到很好的效果?具體而言,對于神經網絡 f/(x; θ/),θ 為初始化的權重。經過訓練并剪枝后,我們重新賦予子結構之前的初始化權重,這可以表示為 f/(x; m⊙θ/)。其中 m 的維度與θ相等,且每一個元素要么是 0 要么是 1,f/(x; m⊙θ/) 就代表著經過正確初始化的子網絡。現在實驗分為四大步:隨機初始化神經網絡 f/(x; θ/_0/),其中θ/_0 服從于某個分布 D/_0;迭代訓練網絡 j 次,并獲得最優參數θ/_j;剪裁掉θ/_j 中的 p/% 的參數,從而獲得 Mask m;恢復初始參數θ/_0,并創建有效子結構 f/(x; m⊙θ/_0/)。通過種實驗方式,研究者在 MNIST 中找到了全連接網絡的「winning tickets」,在 CIFAR-10 中找到了卷積網絡的「winning tickets」。這些子網絡只有原網絡 10-20/% 的參數量,但重新訓練能獲得相近的效果。VGG-19 在 CIFAR-10 上的測試效果,從左到右分別是迭代 30K、60K、112K 的結果。選自:arXiv:1803.03635。如上圖所示為橫軸表示保留的權重,數軸表示準確度,圖例展示的是學習率。每一種顏色的實線表示采用「有效初始化」的子網絡,而虛線表示隨機初始化。通過綠色實線、綠色虛線以及藍色實線,我們可以明確地看出來研究者找到了「winning tickets」。研究者表示,這一系列實驗都證明了神經網絡確實存在高效的子結構,它雖然只是一個假設,但對于進一步的理論研究非常有幫助,尤其是關于最優化與泛化性的理論研究。硬核的損失函數分析如果你認為上面那種理論理解在數學上不夠優美,那么頂會獲獎論文還有一系列嚴格的數學論證。在 NeurIPS 2019 中,有一篇獲獎論文 /[7/] 分析了名為 Besov IPM 的損失函數族,該函數族包括 L/_p 范數距離、總變分距離、Wasserstein 距離、Kolmogorov-Smirnov 距離等眾多損失函數。對于這么一大幫損失函數,研究者分析了它們的上下界,明確了損失函數的選擇以及數據假設的相互作用,它們如何決定極小極大過程的最優收斂率。對于 GAN 來說,如果生成器與判別器函數分別表示為 F 與 P,那么整個 GAN 就可以視為概率分布估計:如上表達式描述的是,GAN 的這種概率分布估計,可以針對經驗分布 P/_n tilde 直接最小化經驗 IPM 風險。經過一系列復雜的數學分析,研究者得出了三個主要結論:1. 證明了 IPM 損失函數下分布估計的極小極大收斂率,其下界與上界都是什么樣的(定理 4 與定理 5)。對于 IPM 損失函數來說,生成分布與判別分布都屬于 Besov 空間。研究者的收斂上界主要通過 Donoho/[9/] 等研究者提出的 wavelet-thresholding 估計器得出,結果顯示最優收斂率比之前了解的損失范圍要更廣。具體而言,如果 M/(F, P/) 表示極小極大風險,那么對于有:2. 定理 7 表明,對于 p』/_d ≥ p/_g 和 σ/_g ≥ D//p/_g,在「線性估計器」這一大類概率分布估計器中,沒有估計器的收斂率快于:這種「線性估計器」包括經驗分布、核密度估計和最近提出來的正交系列估計器。上面表達式描述的下界表明,在很多情況下,線性估計器都只能實現次優收斂率。3. 經過正則化后,GAN 可以通過有限大小的生成器與判別器實現極小極大收斂率。作為分離 GAN 與其它非參工具的首批理論結果,它可能可以幫助解釋為什么 GAN 在高維數據上能獲得這么大的成功。最后,不論是深度學習真正的理論基礎,還是從理論出發構建新方法、新模型,至少在 2019 年的 AI 頂會中,我們很高興能看到各種前沿研究都在拜托「啟發式」的新發現,反而更系統地關注它們的立足基礎。也許這些新發現,最終能帶領我們構建一個系統的領域、一個成熟的學科。參考文獻:/[1/]Theoretical Issues in Deep Networks: Approximation, Optimization and Generalization, arXiv:1908.09375/[2/]Uniform convergence may be unable to explain generalization in deep learning, arXiv:1902.04742/[3/]The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks, arXiv:1803.03635/[4/]Rates of Convergence for Sparse Variational Gaussian Process Regression, arXiv:1903.03571/[5/]Neural Ordinary Differential Equations, arXiv:1806.07366/[6/]Solving Imperfect-Information Games via Discounted Regret Minimization, arXiv:1809.04040/[7/]Nonparametric density estimation /& convergence of GANs under Besov IPM losses, arXiv:1902.03511/[8/]A Simple Theoretical Model of Importance for Summarization, arXiv:1801.08991/[9/]Density estimation by wavelet thresholding, David L Donoho et al.本文為機器之心原創,轉載請聯系本公眾號獲得授權。?------------------------------------------------加入機器之心(全職記者 // 實習生):hr@jiqizhixin.com投稿或尋求報道:content@jiqizhixin.com廣告 /& 商務合作:bd@jiqizhixin.com

WED989VI458EMLOEF44EF8EF


2020年科普雜誌台中哪裡訂時代雜誌彰化哪裡訂國際書展美國時代雜誌訂購優惠國家地理雜誌優惠訂閱價格
國際書展遠見南投哪裡訂 國際書展Forbes新竹哪裡訂 讀者文摘英文版雜誌如何練英文寫作? 小緁快速提高英文寫作的大絕招? 國際書展親子天下彰化哪裡訂 Forbes桃園哪裡訂 天下雜誌英文版,為何文章看完就忘?因為你少了一個練習步驟? 國際書展親子天下高雄哪裡訂 2020年科學人南投哪裡訂 美國今周刊好嗎?我想訂閱TIME時代英文雜誌 2020年美國時代雜誌高雄哪裡訂 2020年社會人文雜誌怎麼訂閱最便宜 培養英文閱讀力要看什麼英文雜誌?讀者文摘英文版,小緁真心推薦?

arrow
arrow
    全站熱搜

    bhf28qo31x 發表在 痞客邦 留言(0) 人氣()