? ? ? ?深度學習(Deep learning)是基于人工神經網絡的機器學習方法的一部分。深度學習架構,如深度神經網絡、深度信念網絡、遞歸神經網絡和卷積神經網絡等,已被應用于生物信息學、藥物設計、醫學圖像分析等領域。 ?
? ? ? ?受南方科技大學生物醫學工程系劉泉影博士邀請,來自上海交通大學自然科學研究院的許志欽博士(https://ins.sjtu.edu.cn/people/xuzhiqin/)于騰訊會議平臺在線深入淺出的講解了深度學習(Deep Learning)的頻率原則 (Frequency Principle, F-Principle)理論,并利用實驗與數學理論結合的方式,闡明了深度神經網絡更適用于低頻情況(“DNNs prefer low frequency”)這一核心思想。
圖1: 深度學習的優勢 ?
? ? ? ?在講座伊始,許博士以實驗案例說明了深度學習算法的優勢。 深度神經網絡(DNN)模型中參數復雜,可用于擬合細微的變化,并且DNN 大部分時候不會有過度擬合現象。深度學習與傳統學習理論不一樣,雖然模型復雜度高,但是具有比較好的泛化能力(generalization ability),也就是算法對新樣本的適應能力較強。
? ? ? ?然而,深度學習理論在實際應用過程中也可能出現的問題。許博士用輕松幽默的漫畫方式(如圖2)說明在某些情況下DNN可能并沒有全面考察真實問題,只是在能“做事的地方”嘗試解決問題。
圖2: 深度學習的問題
? ? ? ?本次講座涉及到的模型中的“頻率”(Frequency)理解為“輸入變化一點點,輸出變化的大小”。在了解了DNN模型中所使用的“頻率”這一映射(mapping)基礎上產生的核心概念之后,從簡單函數/一維空間問題出發,頻率空間出現了頻率原則。首先,直觀地,通過實驗可以發現,DNN在擬合過程是從輪廓開始的,再隨著步數和層數增加,慢慢“抓住”細節。
圖3: 頻率原則(F-Principle)的研究框架
? ? ? ?在圖示擬合的過程中,可以發現圖像上出現平坦、震蕩等特征。許博士解釋這些特征可用數學理論上的傅里葉分析中相應的頻率概念解釋,其中平坦圖像對應低頻概念,震蕩圖像對應高頻概念。
? ? ? ?結合實驗與理論解釋,得出DNN具有擅長捕捉低頻分量,同時將高頻分量控制在較小的范圍內,并且逐步捕捉高頻成分的特點——頻率原則(Frequency Principle)。同時,關于“頻率還是幅度決定收斂速度”這一問題,許博士的研究發現:收斂是從低頻到高頻的。
圖4: 頻率原則(Frequency Principle)
? ? ? ?“一維問題類似于在光亮的地方摸索清楚了”,進一步考慮函數維度升高的情況。特別地,對二維到一維的映射,許博士給出了一個詳細的實驗描述——記住一張圖片(如圖5),即像素點到該點灰度值的映射。實驗中發現隨著步數增加,圖像的輪廓細節逐漸清晰。多個高維度情況下的實驗與思考都體現一個最重要的思想——從頻率角度理解深度學習。
圖5: DNN二維的實驗案例
? ? ? ?這些實驗案例中,所討論的頻率是反映頻率(response frequency),即輸入輸出映射的頻率,而不是相鄰像素的變化強度的變化率。因此,高頻是指圖像中的像素強度的微小變化可能會引起輸出的較大變化。實驗發現,如果特意設計噪音,DNN就不再進行有效識別,由于映射發生了變化,從而產生了不一樣的頻率。這也就是說,在DNN中,圖像的改變對識別結果的影響本質上是頻率的影響作用。結合傅里葉分析、離散化、低通濾波器、卷積定理等數學方法可以有效說明輸入輸出同時高維的實際問題中的頻率原則。實驗與理論并行一致驗證DNN低頻先收斂的性質。
圖6: DNN高維的實驗案例
? ? ? ?最后,許博士結合已有的研究和分析結果說明“深度學習不是萬能,只是低頻的學習器。在某些高頻問題中,強制調參是不容易做出來結果的”。結合深度學習頻率原則與計算神經科學,一個值得思考的問題是:大腦是否也執行頻率原則——先做低頻反應,再做高頻反應 ?對于相關的特定神經科學的問題,“頻率”要如何理解并定義?更多新想法和理論值得我們去探索并實踐!
文字:王海慧
參考文獻:
Xu, Zhi-Qin John, et al. "Frequency principle: Fourier analysis sheds light on deep neural networks."?arXiv preprint arXiv:1901.06523?(2019). ?
Xu, Zhi-Qin John, Yaoyu Zhang, and Yanyang Xiao. "Training behavior of deep neural network in frequency domain."?International Conference on Neural Information Processing. Springer, Cham, 2019. ?
Xu, Zhiqin John. "Understanding training and generalization in deep learning by fourier analysis."?arXiv preprint arXiv:1808.04295?(2018). ?
Zhang, Yaoyu, et al. "Explicitizing an implicit bias of the frequency principle in two-layer neural networks."?arXiv preprint arXiv:1905.10264?(2019). ?
Zhang, Yaoyu, et al. "A type of generalization error induced by initialization in deep neural networks."?arXiv preprint arXiv:1905.07777?(2019). ?
Luo, Tao, et al. "Theory of the frequency principle for general deep neural networks."?arXiv preprint arXiv:1906.09235?(2019). ?
Cai, Wei, and Zhi-Qin John Xu. "Multi-scale deep neural networks for solving high dimensional pdes."?arXiv preprint arXiv:1910.11710?(2019). ?
文中所有圖片均來自于線上講座屏幕截圖