神經(jīng)網(wǎng)絡(luò)是一門重要的機器學(xué)習(xí)技術(shù)。它是目前最為火熱的研究方向–深度學(xué)習(xí)的基礎(chǔ)。學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)不僅可以讓你掌握一門強大的機器學(xué)習(xí)方法,同時也可以更好地幫助你理解深度學(xué)習(xí)技術(shù)。
我們回顧一下神經(jīng)網(wǎng)絡(luò)發(fā)展的歷程。神經(jīng)網(wǎng)絡(luò)的發(fā)展歷史曲折蕩漾,既有被人捧上天的時刻,也有摔落在街頭無人問津的時段,中間經(jīng)歷了數(shù)次大起大落。
從單層神經(jīng)網(wǎng)絡(luò)(感知器)開始,到包含一個隱藏層的兩層神經(jīng)網(wǎng)絡(luò),再到多層的深度神經(jīng)網(wǎng)絡(luò),一共有三次興起過程。
上圖中的頂點與谷底可以看作神經(jīng)網(wǎng)絡(luò)發(fā)展的高峰與低谷。圖中的橫軸是時間,以年為單位。縱軸是一個神經(jīng)網(wǎng)絡(luò)影響力的示意表示。如果把1949年Hebb模型提出到1958年的感知機誕生這個10年視為落下(沒有興起)的話,那么神經(jīng)網(wǎng)絡(luò)算是經(jīng)歷了“三起三落”這樣一個過程,跟“小平”同志類似。俗話說,天將降大任于斯人也,必先苦其心志,勞其筋骨。經(jīng)歷過如此多波折的神經(jīng)網(wǎng)絡(luò)能夠在現(xiàn)階段取得成功也可以被看做是磨礪的積累吧。
歷史最大的好處是可以給現(xiàn)在做參考。科學(xué)的研究呈現(xiàn)螺旋形上升的過程,不可能一帆風(fēng)順。同時,這也給現(xiàn)在過分熱衷深度學(xué)習(xí)與人工智能的人敲響警鐘,因為這不是第一次人們因為神經(jīng)網(wǎng)絡(luò)而瘋狂了。1958年到1969年,以及1985年到1995,這兩個十年間人們對于神經(jīng)網(wǎng)絡(luò)以及人工智能的期待并不現(xiàn)在低,可結(jié)果如何大家也能看的很清楚。
因此,冷靜才是對待目前深度學(xué)習(xí)熱潮的最好辦法。如果因為深度學(xué)習(xí)火熱,或者可以有“錢景”就一窩蜂的涌入,那么最終的受害人只能是自己。神經(jīng)網(wǎng)絡(luò)界已經(jīng)兩次有被人們捧上天了的境況,相信也對于捧得越高,摔得越慘這句話深有體會。因此,神經(jīng)網(wǎng)絡(luò)界的學(xué)者也必須給這股熱潮澆上一盆水,不要讓媒體以及投資家們過分的高看這門技術(shù)。很有可能,三十年河?xùn)|,三十年河西,在幾年后,神經(jīng)網(wǎng)絡(luò)就再次陷入谷底。根據(jù)上圖的歷史曲線圖,這是很有可能的。
下面說一下神經(jīng)網(wǎng)絡(luò)為什么能這么火熱?簡而言之,就是其學(xué)習(xí)效果的強大。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,其表示性能越來越強。
從單層神經(jīng)網(wǎng)絡(luò),到兩層神經(jīng)網(wǎng)絡(luò),再到多層神經(jīng)網(wǎng)絡(luò),下圖說明了,隨著網(wǎng)絡(luò)層數(shù)的增加,以及激活函數(shù)的調(diào)整,神經(jīng)網(wǎng)絡(luò)所能擬合的決策分界平面的能力。
可以看出,隨著層數(shù)增加,其非線性分界擬合能力不斷增強。圖中的分界線并不代表真實訓(xùn)練出的效果,更多的是示意效果。
神經(jīng)網(wǎng)絡(luò)的研究與應(yīng)用之所以能夠不斷地火熱發(fā)展下去,與其強大的函數(shù)擬合能力是分不開關(guān)系的。
當(dāng)然,光有強大的內(nèi)在能力,并不一定能成功。一個成功的技術(shù)與方法,不僅需要內(nèi)因的作用,還需要時勢與環(huán)境的配合。神經(jīng)網(wǎng)絡(luò)的發(fā)展背后的外在原因可以被總結(jié)為:更強的計算性能,更多的數(shù)據(jù),以及更好的訓(xùn)練方法。只有滿足這些條件時,神經(jīng)網(wǎng)絡(luò)的函數(shù)擬合能力才能得已體現(xiàn),見下圖。
之所以在單層神經(jīng)網(wǎng)絡(luò)年代,Rosenblat無法制作一個雙層分類器,就在于當(dāng)時的計算性能不足,Minsky也以此來打壓神經(jīng)網(wǎng)絡(luò)。但是Minsky沒有料到,僅僅10年以后,計算機CPU的快速發(fā)展已經(jīng)使得我們可以做兩層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,并且還有快速的學(xué)習(xí)算法BP。
但是在兩層神經(jīng)網(wǎng)絡(luò)快速流行的年代。更高層的神經(jīng)網(wǎng)絡(luò)由于計算性能的問題,以及一些計算方法的問題,其優(yōu)勢無法得到體現(xiàn)。直到2012年,研究人員發(fā)現(xiàn),用于高性能計算的圖形加速卡(GPU)可以極佳地匹配神經(jīng)網(wǎng)絡(luò)訓(xùn)練所需要的要求:高并行性,高存儲,沒有太多的控制需求,配合預(yù)訓(xùn)練等算法,神經(jīng)網(wǎng)絡(luò)才得以大放光彩。
互聯(lián)網(wǎng)時代,大量的數(shù)據(jù)被收集整理,更好的訓(xùn)練方法不斷被發(fā)現(xiàn)。所有這一切都滿足了多層神經(jīng)網(wǎng)絡(luò)發(fā)揮能力的條件。
“時勢造英雄”,正如Hinton在2006年的論文里說道的
“…?provided?that?computers?were?fast?enough,?data?sets?were?big?enough,?and?the?initial?weights?were?close?enough?to?a?good?solution.?All?three?conditions?are?now?satisfied.”,
外在條件的滿足也是神經(jīng)網(wǎng)絡(luò)從神經(jīng)元得以發(fā)展到目前的深度神經(jīng)網(wǎng)絡(luò)的重要因素。
除此以外,一門技術(shù)的發(fā)揚沒有“伯樂”也是不行的。在神經(jīng)網(wǎng)絡(luò)漫長的歷史中,正是由于許多研究人員的鍥而不舍,不斷鉆研,才能有了現(xiàn)在的成就。前期的Rosenblat,Rumelhart沒有見證到神經(jīng)網(wǎng)絡(luò)如今的流行與地位。但是在那個時代,他們?yōu)樯窠?jīng)網(wǎng)絡(luò)的發(fā)展所打下的基礎(chǔ),卻會永遠流傳下去,不會退色。