李開復:為什麼今天是人工智慧的黃金時代

創新工場創始人兼董事長李開復博士向清華大學的 「姚班」 同學做了名為《人工智慧的黃金時代》的演講。在本文中,李開復博士用淺顯的語言較為系統的介紹了人工智慧,深度學習等概念,並且指出了人工智慧目前面臨的瓶頸以及克服方法。
評論
評論

原文刊載於 36 氪 ,Inside 獲授權轉載。

應中國清華大學交叉信息研究院院長、世界著名電腦科學家姚期智院士邀請,創新工場創始人兼董事長李開復博士向清華大學的「姚班」同學做了名為《人工智慧的黃金時代》的演講。在本文中,李開復博士用淺顯的語言較為系統的介紹了人工智慧,深度學習等概念,並且指出了人工智慧目前面臨的瓶頸以及克服方法。

640.webp__17_

以下是李開復博士演講正文:

謝謝大家!非常高興有這個機會又一次來到清華,尤其是在我最尊敬的姚期智教授的邀請和介紹之下。姚教授的姚班在全球已經享有盛名,我從 Google 到創新工場,看到有非常多成功的工程師,都是在姚老師的培養之下成為了電腦界的頂尖人才。

在講人工智慧之前,我想向大家介紹一下我的一些可能不太為人熟知的背景:其實在進入幾個國際大公司任職之前,也就是在 30 多年前,我就進入了人工智慧領域。我是在 1980 年首先做自然語言處理,1982 年做電腦視覺,1983 做的語音識別,1985 年做人機對弈,1996 年做 VR/AR……但我們現在知道,那時候我的這些選擇基本上都是非常「糟糕錯誤」的職業選擇,因為每一件事情,我都是在它的黃金時代之前、白銀時代之前,甚至破銅爛鐵都不是的時代就涉足了。從這個事情上,其實我也想說,做計算機研究這個領域,本身的素質能力當然都非常重要,但是還要在正確的時候選擇正確的事情。我在錯誤的時候太過狂熱的跳進了人工智慧領域,與此同時,過去的三四十年人工智慧也是起起伏伏,一下很紅,一下又跌入谷底。

但現在是人工智慧的黃金時代。可能各位也會問,憑什麼這次說是人工智慧的黃金時代?為了說明這個問題,這次我肯定不只用一些理論來說服大家,畢竟我過去也做了這麼多「錯誤的選擇」——我今天還帶一些實際的數據來跟大家分享為什麼我對今天的人工智慧充滿信心。人工智慧有很多分支,其中之一是機器學習,機器學習裡面還有一個分支是深度學習,今天我更多的會用深度學習作為案例。

人工智慧是一種工具

最近人工智慧成為全球熱門新聞話題,很多是因為大家看到 AlphaGo 在幾個月前擊敗了李世乭,最近在網上還傳出年底之前它要挑戰柯傑的消息。但在這個新聞的熱度之下,有一點讓我覺得很可惜:大家對這個話題討論的重心都放在了人工智慧是不是在模仿人腦、「奇點」是否即將來臨這樣的問題上,卻沒有真正關注人工智慧對我們的現實影響。

「奇點」認為未來機器將有各種的智慧、人類必須做一些事情來保護自己。我們在座的沒有任何一個人能夠證明或否定「奇點」,但就我個人而言,我認為人工智慧要取代人還是一個非常遙遠的事情。我覺得我們需要更關注的事情是人工智慧是今天能夠拿來用的工具,它能幫助人類解決問題,能取代重復性的工作,能創造商業價值。正因為這個理由,我認為我們今天進入了人工智慧的黃金時代。

隨便舉幾個例子:今天很多的工作以後大部分都會消失,比如說翻譯,雖然現在還不是做的那麼完美,但是每年進步的都很快,再過幾年人工的翻譯可能就會非常難找到工作了。記者也同樣如此,如今 90% 美聯社的文章都是用機器來寫的。幾乎所有思考模式可以被理性推算的工作崗位,在有足夠數據支撐的時候,都會被取代。有人說十年之內一半的工作會消失,有人說十五年之內一半的工作會消失,我覺得這些都是合理的揣測。

我想在座大部分都會相信這個理論,而如果你對此還有懷疑,你可以想想,為什麼 AlphaGo 這麼厲害?就是因為它可以動用到幾千台機器每天和自己對弈上萬盤的圍棋,而這人是做不到的;以後為什麼自動駕駛會這麼厲害呢?因為它可以用它的各種的 sensor 在路上蒐集數據,這不是任何一個司機可以匹敵的。所以這些都是一些必然的過程。

何為人工智慧

到底什麼是人工智慧呢?我覺得大概來說可能是有幾個部分。

首先是感知,感知就是包括視覺、語音、語言;然後是決策,剛剛講的做一些預測,做一些判斷,這些是決策層面的;那當然如果你要做一套完整的系統,就像機器人或是自動駕駛,它會需要一個回饋。

640.webp__13_
(圖 2:人工智慧是什麼)

在這些例子上可以看到,感知可能更多的是幫助識別圖裡面一個嬰兒在沙發上抱著泰迪熊這種。在推薦上面,我舉的例子是一個用 Google now 透過你過去做的一些事情推測你下面要做什麼,在最下面的例子你會看到有一個無人駕駛的汽車,它有各種的 sensor,它捕捉的訊息可以用來做最後的決策,比如怎麼去操作方向盤、油門、剎車等等的。其實這三件事情的總和就是今天所被歸納為的人工智慧。

640.webp
(圖 3:人工智慧的發展里程碑)

再從博弈、感知決策以及回饋四個方面回顧一下人工智慧的發展歷程。博弈今天就不講太多了,但是基本上我可以看到從我在大學做的 Othello 到 Checkers 再到 DeepBlue chess,經過很長的一段時間,終於有了今天 AlphaGo 打敗了圍棋世界冠軍。我們從中可以看到,這是一條長達三十多年的路程。

在感知方面,從我的博士論文發表到 Nuance 成為一個頂尖的公司,從中國誕生了科大訊飛到美國的 Deep Face、中國的 Face++ 等等做得越來越好的企業,這些年也有很多的進步。還有一些很特殊的例子,比如最近看到一些搞笑的比較 Microsoft Tay 在 Twitter 上開始跟人家交流一下子就講了一堆不堪的話,就被 Microsoft 撤回了,所以這裡有很多的成功例子,也有很多有趣的事件。

決策方面,從早期 Microsoft Office 的工具到 Google 廣告的推薦,然後到金融產業的很多智慧決策公司的出現,進步迅速。Google auto mail 可能大家還沒有看過,但是如果你現在還在用 gamil 的話,會發現你有時候收到 email,Google 會跳出來問要不要發回覆,有時候它連回覆都幫你寫好了,而且寫的很精確。這也是人工智慧的體現。可能以後我們講話都不用,助理能幫我們搞定,人工智慧的助理肯定也是一個方向。

最後是回饋,從 CMU Boss 早期的無人駕駛到 Amazon 用 Kiva 推動物流,再到最近的 Pepper、Google car,我們可以看到這個領域過去三四年特別的熱,有很多看起來商業化已經做的非常好。

什麼是深度學習

在這裡,我要稍微深度講一下深度學習。

深度學習是一種神經網路,與但與之前的相比,它的特點是使用了多層網路,能夠學習抽象概念,同時融入自我學習,而且收斂相對快速。收斂快速可能是一種技巧,不見得是一個理論,但是有一批人通過它解決了很多重要的問題。

簡單的來說,如果我們有很多笑臉,然後我們把笑臉的像素輸入到一個神經網路裡面去,最後你那兒希望讓機器能識別這是姚明,那是馬雲,但是因為你這個深度學習的網路很深,要一次性學會這麼多也會比較困難,所以就需要用到一個比較快速收斂的技巧——自我學習。透過自我學習,機器會逐步從大量的樣本中逐層抽象出相關的概念,然後做出理解,最終做出判斷和決策。

比如它可以有好幾層的 nodes 和 connection,經過這些 nodes 和 connection,它在每一個層次會感知到不同的抽象特徵,且一層比一層更為高級。這些都是透過自我學習實現的,而不是人教的。經過自我學習,從一個臉輸進去再從同樣的一個臉輸出來,它就從裡面抽象的學習到了一個人的臉重要特徵。

640
(圖 4:分層無監督訓練)

經過這個學習之後,我再去做監督訓練,看機器是否能夠識別他們,如果不能,就在訓練之後做微調。例如,如果我輸入了馬雲的臉,出來的卻是王寶強,那訓練系統就會告訴你的網路說這個是錯誤的:這不是王寶強,這是馬雲。那接下來就是要進行微調,以便於下一次機器看到這個臉時,能識別出是馬雲的機率高一些,出來王寶強的機率低一些。

640.webp__15_
(圖 5:監督訓練)

但是這麼一調也不能調的太過火了,要不然就會有 overtraining 的問題,我們就對整個數學公式做一點微調,用大量的數據,不斷重復的去教它,經過不斷微調,那麼它就很可能在多次之後降低識別錯誤。

其實這一整套理論在二三十年前就已經有了,我在做我博士論文的時候,很多我的同事就在做訓練神經網路的工作。

深度學習在最初的時候訓練速度特別特別慢,所以比較難進入工業級別或者是應用級別,比如,你的手機是做不來這個的,因為它的速度實在太慢了。但經過這麼多年,我們的電腦的越來越快,另外也有了更多取巧的訓練和識別做法,深度學習的應用可能性也發生了變化,它能被應用的領域越來越寬。多年前,我過早進入了這一領域,但是現在,人工智慧大規模應用的時機已經到了。

憑什麼這麼說?一個很簡單的評估標準就是,我們的深度學習或者是任何的機器學習,它是不是超越人類的能力表現,如果超越的話,可能很多應用就會產生。比如在機場,如果機器識別人臉的準確度超過人,那麼我們那些邊防的人就可能不需要那麼多。這並不是說機器不會犯錯,而是說既然人不能比機器做的更好,那我不妨就用機器取代。

深度學習的應用領域

在過去的五年,深度學習的準確度從 75% 多提升到了 97% 左右,而人的表現準確率大概是 95%。從 95% 到 97% 聽起來只進步了 2%,但實際上是把錯誤率降低了 40%,這是很大的進步。如果這種進步持續,未來人工智慧必然會超過人類的表現,同時也將可以進入一些可應用的領域。這就是今天我講人工智慧進入黃金時代的證據:在很多領域,也包括我們在 face++ 做的人臉識別,包括了 Apple、Google,科大訊飛的語音識別,它們的認知水平將在未來幾年的時間內超過人類,而一旦超過人類,應用就會快速的增加。

640.webp__16_
(圖 6:深度學習的應用領域舉例)

深度學習首先可以應用於識別,包括人臉識別和語音識別等,這些可以用於安防,安檢等。

人臉語音的數據來之不易,但是 BI,商業的流程、網路的數據卻非常豐富。Google、百度很早就已經在搜尋,在廣告以及推薦系統裡面充分使用了類機器學習技術,解決該推薦什麼商品,一個商品怎麼定價,在什麼位置會賣的最多,應該把這樣的產品賣給誰等問題。這一類的推銷可以直接產生經濟價值,而社交媒體營銷,整個互聯網廣告,這每一個領域都是幾十億,幾百億甚至更大的市場。

將智慧用於炒股其實也是一個不錯的選擇。在國內在國外,很多人都在做這方面創業的工作。利用智慧,我可以隨時來算一籃子股票和期貨應該如何對沖,以尋求最大的利潤。頂尖金融分析師也會做這個,但是他不可能把所有的股票的排列組合都考慮一遍,但是機器可以二十四小時不睡覺,每天都在算怎麼能賺最多的錢。除此之外,deep learning 深度學習的技術可以把各種的因素都融合進來,比如這個公司的高管有沒有變動,今天出了什麼新聞,產業還有沒有什麼變動……甚至你可以對一個智慧系統說如果明天巴西發生了地震,什麼股票該買,甚至你可以說發生了地震不要問我,你直接去買它就可以了。

銀行保險方面,比如說貸款該不該審批,則無論是銀行的貸款,還是 P2P 的貸款,都可以通過機器來判斷,而且數據未必要來自銀行內部。

醫學方面,因為我自己生過病,也深深的受過這方面的痛苦,我也感覺到在今天的醫生的判斷真的不是最完善的。一方面醫生有好有壞,頂尖的醫生是非常少的;第二方面比如在癌症方面,它每一年都有新的藥出來,那每個醫生每天忙著看病人,就不見得有時間去研究這些藥物,那些藥物也不是每個國家都可以使用的。還有就是每一個人,他的各種特質,不見得就適合用這個藥。這些其實都是可以用機器學習來做出來的。

前一陣我在美國碰到了一些科學家,他們正在用機器學習的方法來發明新藥。我們的科學研究方面當然要有聰明的頭腦和很好的實驗,但是其中有一個很關鍵的部分,就要是一定的程度去排列組合:試很多東西,對小白鼠先試試這個有沒有用,再試試看那個有沒有用,然後再在猿猴身上實驗,再進行人體實驗。在以前,這整個過程都是由人腦完成,但是這個交給機器來做也許會更精准。甚至有一家公司它養了非常多的白老鼠,他裡面所有的實驗都是透過機器學習精準進行:每天白老鼠活了幾隻,死了幾隻,什麼藥可以進到下一步……這些都是靠機器學習加上非常精密的系統來做。

我們發明的很多新的材料,都不是靠純粹的科學方法推出來的,也是去試一試,把這個碰到那個,就產生了有很特殊效應的材料。這些知識都可以輸入我們的資訊學習系統,通過它我們可以幫助發明新的事物。

在教育方面也有應用。在學習的過程中,如果基礎沒有打好,下一個層次根本學不下去。智慧化的教育系統會識別你的學習水平,然後根據你的水平確定學習內容。比如,你的乘法沒有學好,機器就不可能讓你去學除法。

當然學習外語也是很好的例子,我們今天的語音識別做的這麼好,為什麼我們學外語還是一定要找外教,為什麼語音識別不能再上一層樓呢?所以,當你的技術一提高了,語音識別應用就不會只是我的講話進去然後文字出來,它還有可能用在教育領域。

在這麼多機會之下,這個人工智慧會重塑億萬級別的領域。當然這個不是明天就會發生,因為我覺得人工智慧在很多方面還是相當大的欠缺。