人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,它的目的是將智能研究的成果用來生產(chǎn)出與人類智能相似的智能機(jī)器。這其中的核心就是機(jī)器學(xué)習(xí),即怎樣讓計(jì)算機(jī)模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,從而使它像人一樣獲取新的知識(shí)或技能。自20世紀(jì)80年代末期以來,科學(xué)界發(fā)明了用于人工神經(jīng)的反向傳播算法(Back Propagation)。這種算法隨之掀起了機(jī)器學(xué)習(xí)的熱潮,并一直持續(xù)到今天。
深度學(xué)習(xí),包括多層的人工神經(jīng)網(wǎng)絡(luò)和訓(xùn)練它的方法兩個(gè)方面。它的運(yùn)作機(jī)理是,一層神經(jīng)網(wǎng)絡(luò)把一個(gè)數(shù)據(jù)集合作為輸入,通過激活后產(chǎn)生另一個(gè)數(shù)據(jù)集合,作為輸出,再將合適的矩陣數(shù)量形成多層組織鏈接在一起的神經(jīng)網(wǎng)絡(luò),進(jìn)行精準(zhǔn)復(fù)雜的處理。深度學(xué)習(xí)屬于機(jī)器學(xué)習(xí)研究領(lǐng)域的一個(gè)新的分支,是一個(gè)復(fù)雜的機(jī)器學(xué)習(xí)算法。其研究目的在于建立、模擬人腦的神經(jīng)網(wǎng)絡(luò),并模仿人腦的機(jī)制來解釋如圖像、聲音和文本之類的數(shù)據(jù)。
通過研究人們發(fā)現(xiàn),建立在統(tǒng)計(jì)基礎(chǔ)上的機(jī)器學(xué)習(xí)方法比過去建立在人工規(guī)則之上的系統(tǒng)顯示出了多方面的優(yōu)越性。進(jìn)入20世紀(jì)90年代,諸如支撐向量機(jī)(Support Vector Machines)、最大熵方法等各種各樣的淺層機(jī)器學(xué)習(xí)模型相繼被提出,由此在機(jī)器學(xué)習(xí)的理論分析和應(yīng)用中都取得了重大突破。由此,由深度學(xué)習(xí)的研究引發(fā)了機(jī)器學(xué)習(xí)的第二次浪潮。
這次波及學(xué)術(shù)界和工業(yè)界的浪潮,應(yīng)歸功于加拿大多倫多大學(xué)教授Geoffrey Hinton和他的學(xué)生RuslanSalakhutdinov。2006年,他們?cè)凇犊茖W(xué)》雜志上發(fā)表了一篇關(guān)于機(jī)器學(xué)習(xí)的文章。該文章的觀點(diǎn)主要在兩個(gè)方面:其一,“多隱層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力,學(xué)習(xí)得到的特征對(duì)數(shù)據(jù)有更本質(zhì)的刻畫,從而有利于可視化或分類。”其二,“深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度,可以通過‘逐層初始化’(layer-wise pre-training)?!?/span>而深度學(xué)習(xí)的概念也經(jīng)由該篇文章成為學(xué)界的一個(gè)新概念。
深度學(xué)習(xí)可以通過學(xué)習(xí)深層非線性網(wǎng)絡(luò)結(jié)構(gòu),從而具有強(qiáng)大的學(xué)習(xí)數(shù)據(jù)集的本質(zhì)特征的能力。其實(shí)質(zhì)就是通過構(gòu)建復(fù)雜的機(jī)器學(xué)習(xí)模型和訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的內(nèi)容,從而提升分類或預(yù)測(cè)的準(zhǔn)確性。相比傳統(tǒng)的淺層學(xué)習(xí),深度學(xué)習(xí)的不同體現(xiàn)在:強(qiáng)調(diào)模型結(jié)構(gòu)的深度和突出特征學(xué)習(xí)的重要性。
深度學(xué)習(xí)之所以被稱為“深度”,是相對(duì)淺層學(xué)習(xí)方法而說的。通過深度學(xué)習(xí)所掌握的各種模型中,以非線性操作的層級(jí)數(shù)居多。淺層學(xué)習(xí)是依靠人工經(jīng)驗(yàn)抽取樣本特征。這樣的學(xué)習(xí),所掌握的只是單層特征。而深度學(xué)習(xí)則能夠?qū)颖咎卣髟诳臻g內(nèi)進(jìn)行變換,自動(dòng)地學(xué)習(xí)獲得層次化的特征表示,并實(shí)現(xiàn)分類和特征的可視化。
深度學(xué)習(xí)算法讓設(shè)計(jì)者可以根據(jù)自己的需要選擇網(wǎng)絡(luò)層數(shù),突破傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在層數(shù)方面的限制。從訓(xùn)練方法上來看,相比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)隨機(jī)設(shè)定參數(shù)初始值等做法,深度結(jié)構(gòu)訓(xùn)練的難度更大。其所采用的是“貪婪無監(jiān)督逐層訓(xùn)練方法”。這種方法的工作順序是:在深度學(xué)習(xí)設(shè)計(jì)中,每層分開對(duì)待,當(dāng)前一層訓(xùn)練完后,新的一層以前一層為基礎(chǔ)進(jìn)行編碼用于訓(xùn)練。最后,每層訓(xùn)練完后再在整個(gè)網(wǎng)絡(luò)中進(jìn)行參數(shù)微調(diào)。
進(jìn)入2010年后,深度學(xué)習(xí)項(xiàng)目在美國(guó)獲得高度重視。美國(guó)NEC研究院、紐約大學(xué)和斯坦福大學(xué)分別獲得了來自美國(guó)國(guó)防部DARPA部門的資助。
自2011年起,谷歌公司和微軟研究院在深度學(xué)習(xí)方面取得重大突破,通過采用深度神經(jīng)網(wǎng)絡(luò)技術(shù),使得語音識(shí)別的錯(cuò)誤率降低了20%—30%。2012年,深度神經(jīng)網(wǎng)絡(luò)技術(shù)在圖像識(shí)別應(yīng)用方面也取得重大進(jìn)展,將錯(cuò)誤率降低了9%。在制藥公司藥物活性預(yù)測(cè)問題中,深度神經(jīng)網(wǎng)絡(luò)技術(shù)也取得了整個(gè)世界范圍內(nèi)的最好結(jié)果。
2012年6月,科學(xué)家們?cè)诠雀鑼?shí)驗(yàn)室里創(chuàng)建了一個(gè)有16000個(gè)處理器的大規(guī)模神經(jīng)網(wǎng)絡(luò)。該神經(jīng)網(wǎng)絡(luò)包含數(shù)十億個(gè)網(wǎng)絡(luò)節(jié)點(diǎn),用來處理大量隨機(jī)選擇的視頻片段。經(jīng)過充分的訓(xùn)練,機(jī)器系統(tǒng)學(xué)會(huì)了自動(dòng)識(shí)別貓的圖像。這次成功作為深度學(xué)習(xí)領(lǐng)域最著名的案例而引起了各界極大的關(guān)注。這些都表明,人工智能的發(fā)展已經(jīng)進(jìn)入到深度學(xué)習(xí)階段。
Facebook人工智能實(shí)驗(yàn)室創(chuàng)建于2013年,其負(fù)責(zé)人是紐約大學(xué)教授伊恩·勒坤。伊恩·勒坤在深度學(xué)習(xí)方面的研究取得學(xué)界公認(rèn)的成就,并榮獲神經(jīng)網(wǎng)絡(luò)先鋒獎(jiǎng)。他在研究深度學(xué)習(xí)時(shí),曾一度遭到同行公開的輕視。然而短短幾年后,他的研究成果就成為高科技領(lǐng)域包括谷歌、微軟、百度和Twitter等巨頭最熱衷的應(yīng)用。目前,這些高科技公司正在探索深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)。希望通過對(duì)這一特殊形態(tài)的研究,推出能夠自動(dòng)理解自然語言和識(shí)別圖像的服務(wù)。谷歌Android手機(jī)的語音識(shí)別系統(tǒng)就是從這些研究成果中轉(zhuǎn)化而來。百度公司也利用這方面的研究成果,開始進(jìn)行一種新型的可視化搜索引擎的研發(fā)。
伊恩·勒坤在20世紀(jì)80年代剛接觸這一領(lǐng)域時(shí),不僅缺乏支持條件,而且人們的意識(shí)更沒深入到這一方面。但他堅(jiān)持自己的信念,執(zhí)著于這方面的研究,而隨著電腦技術(shù)的迅猛向前發(fā)展,他的深度學(xué)習(xí)也就成為最前沿的研究領(lǐng)域。為此,有人形容他的行動(dòng)為“就像在黑暗中舉著火炬”。
伊恩·勒坤深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò),十分類似于人的大腦中處理視覺信息的視覺皮層,被制作成了相互連通的卷積層。它與人腦的不同之處在于,可以重復(fù)使用相同的過濾器。比如說,卷積神經(jīng)網(wǎng)絡(luò)經(jīng)培訓(xùn)后,學(xué)會(huì)了在某個(gè)位置識(shí)別人臉,那么它以后會(huì)自動(dòng)地識(shí)別這張臉。這種卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)在聲波和手寫文字方面得到應(yīng)用。比方說,世界各地的自動(dòng)取款機(jī)和銀行,都通過它來識(shí)別支票上的手寫字跡。
由于深度學(xué)習(xí)極大地促進(jìn)了機(jī)器學(xué)習(xí)的發(fā)展,在語音、圖像和自然語言處理方面已經(jīng)得到最廣泛的應(yīng)用,因而,越來越受到世界各國(guó)學(xué)術(shù)界、科技界和高科技公司的高度重視。一些機(jī)器人戰(zhàn)勝人工的情形,更是讓深度學(xué)習(xí)成為最前沿的話題。這一切都深深吸引著廣大科研人員投身其中,引領(lǐng)和推動(dòng)著人工智能邁進(jìn)深度學(xué)習(xí)階段。