對話式介面:像鋼鐵人與JARVIS對話般的科技進展到哪了?

(電影鋼鐵人劇照)
你可能聽說過這樣一個故事:1979 年,當年輕的賈伯斯拜訪全錄位於 Palo Alto 的 PARC 研究中心時,他看到全錄新發明的的圖形用戶介面(GUI)。相比起傳統的文字介面,程式圖示、視窗化、下拉選單和絢麗的圖像效果,賈伯斯深感震撼。
“彷彿蒙在我眼睛上的紗布被掲開了一樣。”《賈伯斯傳》中如此描述賈伯斯當時的感受,“我看到了電腦產業的未來。”
賈伯斯回到蘋果後,他立刻下令研究人員開始著手模仿他剛看到的一切。這一技術在隨後上市的 Macintosh 上首次被應用,並取得了轟動效果。
PC 歷史上的一個新時代也從此展開:圖形用戶介面開始成為主流的互動方式,無論是第一台 Macintosh,還是最近上市的 iPhone 6s,都無一例外地採用圖形用戶介面。
其實,這個故事還有一個很少有人知道的分支:就在賈伯斯拜訪 PARC 的同時,有另一支團隊也在研究另外一種完全不同的人機互動方式,這種方式今天被稱為“對話式介面”。該團隊設想了這樣一個世界:在數十年後,當電腦的功能足夠強大,用戶可以用通用的人類語言與電腦進行互動,幫助解決問題。
在 PARC 領導自然語言研究團隊的科學家叫 Ronald Kaplan。Ronald 的團隊在上世紀 70 年代就設計了一個系統, 能讓用戶以自然語言與電腦交換訊息和訂購機票。但對 Ronald 的團隊來說,首當其衝的就是成本問題。“服務每個客戶的成本....... 嗯,我猜大概要上百萬美元吧。”Ronald 如是說。不僅如此,他們還需要更快、可以更好進行分散式計算、更聰明和更高效的電腦。Ronald 認為,按摩爾定律,這或許需要 15 年的時間才能達到他們的要求。
今天的 Ronald Kaplan 是一家叫做 Nuance Communication 公司的副總。Nuance 不僅是蘋果 Siri 和福特專為手機配備的 SYNC 車載多功能通訊娛樂系統和的技術提供方,其合作夥伴更是涉及幾乎每個科技細分領域。但 Nuance 逐步發現,近幾年有越來越多的人開始進入這一領域,無論是 Amazon、Google 還是微軟這樣的巨頭或是其他創業公司,都在試圖改進 Ronald 和其團隊近 40 年的研究成果:他們相信,總有一天你可以像和你的朋友對話一樣和各種設備對話,而這些設備會正確理解和執行你所說的一切。這些新工具將會取代那些圖形化用戶介面
無法滿足的安全和愉悅需求,反過來,這些日漸增長的對話式介面互動也使得你與設備之間更加親密和個人化。
但事實是:語音輸入的效果仍然不盡如人意。
例如,不少公司已經使用這一技術來做簡單的客戶服務,但在實際使用中,我仍然經常需要放下電話用虛擬鍵盤輸入生日訊息等內容(可能和我的廣東腔英語有關)。
至於 Siri,如果是一些諸如問路之類的簡單問題倒是可以對付,但如果你的問題邏輯太複雜把 Siri 逼急了,Siri 也會無恥地給告訴你,外事不決問 Google,然後丟一個頁面給你讓你自己看去。像 Tony Stark 一樣和人工智慧 JARVIS 那樣對話的場景,也只能出現在電影裡。
不過,這一切總在朝好的方向發展。
今年 6 月初,SoundHound 的首席執行官 Keyvan Mohajer 對外展示了一個從其 2005 年初創之時就一直在打磨作品。在此之前,我們對 SoundHound 的理解是一個流行音樂辨識應用程式,如果你對著手機哼上幾句歌,SoundHound 就會辨識這首歌曲的名稱。但這款叫“獵犬”(Hound)的原型則更進一步:一開始,Keyvan 問的是一些簡單的問題,例如現在在柏林的時間、日本的人口等。突然 Keyvan 冒出一句:“它們之間相距多遠?”根據之前的問題,“獵犬”對此作出了正確的回答:“大約 5536 英里”。
在接下來的測試中,“獵犬”成功回答諸如計算貸款的數額以及“告訴我首都有 Space Neddle 這個建築物的那個國家有多少人口?”之類的問題,對於 Keyvan 一口氣連珠炮發問的多個問題,一般人或許都需要想一陣才能反映過來,但對於“獵犬”來說同樣不在話下。就其表現而言,仍然處於內測階段的“獵犬”或許是迄今為止速度最快、功能最全的語音辨識系統。獵犬的牛逼之處在於可以同時進行語音辨識和自然語言處理,但對其他類似系統而言,要迎頭趕上或許只是時間問題。
對於上個世紀七十年代的 Ronald 來說,他們所頭疼的“門檻技術”現在已經是任何一家語音辨識公司都能輕易掌握的東西。
今天的對話式介面技術是一個經典的跨界融合:技術計算能力的增長、語音辨識、行動通信、雲端計算和神經網絡都在同一階段達到一個臨界點,最終使得這一領域的研究者開發出足夠好、足夠便宜和無處不在的即時對話介面。
而這種互動方式的發展,也進一步推進到那些沒有螢幕的連網設備(例如路由器或者煙霧報警器之類),畢竟對於這些設備,我們需要的是一種不需要按鈕、選單和圖標的自然互動方式。而在另一方面,由賈伯斯發揚光大的 GUI 世界正處於一個令人尷尬的瓶頸期。
圖形用戶介面要求每一個動作和功能都有一個圖示或者選單選項,但即便像我們每天都要使用的 Photoshop 或者 Excel,你所熟悉的可能也就只有最常用的幾個操作,真要完全掌握所有功能足以把大多數人逼瘋。Ronald 也承認,現在的圖文用戶介面已經幾乎達到了天花板。
如果想要再進一步,你可能不得不讓虛擬助理來幫你解決問題——不管是 iOS 9、Android 6、Windows 10 還是 Siri、Google Now 和 Cortana,巨頭們都在透過虛擬助理的方式幫助用戶提高效率。哦對了,另外一家不做作業系統但具有十億級用戶的巨頭 Facebook 也有智慧助手 Ask M。
對於這些虛擬助理而言,他們的出現並不是要替代觸控螢幕或者圖形用戶介面,但技術的進步會在很大程度上繞開 GUI,例如不少九年級生已經懶得打字而直接用麥克風輸入文本,而對於像老年人或者部分殘障人士(例如視力障礙)來說至關重要。
這是另一個創業故事:2010 年,24 歲的有志青年 Maury 被醫生告知,他的視力在衰減並最終會失明。Maury 意識到,他不得不考慮如何在看不到東西的情況下使用電腦,而這也是美國 2000 多萬視力障礙人士會遇到的問題。現有的解決方案是一種叫做“Screen Reader”(螢幕閱讀器)的技術,已經有 30 年的歷史,但隨著數位化環境越來越複雜(很大程度是 Android 的錯),這一技術已經跟不上時代。
另一個例子是 Amazon 的 Echo。在剛面世時,有人這麼評價 Echo:這款產品希望同時扮演無線音樂播放器和虛擬助手兩種角色,但不管哪個角色都表現一般。但隨著使用時間的增加,Echo 的自動學習能力開始顯現出效果,逐步適應使用者的說話速度、模式和偏好,更符合用戶的需求。
這也是對話式介面和圖形用戶介面的不同:你的使用時間越多,它就會和你更親近。毫無疑問,開發虛擬助手的巨頭們也注意到了這一點,例如微軟就給其虛擬助手 Cortana 一個鄰家女孩般的個性形象。
不管是蘋果、Google、微軟、Nuance 或者其他這一領域的創業公司,他們的結論都是一致的:基於語音輸入的個人代理的出現可以了解你的喜好、你的日常行為、你的表達方式、你的習慣和進展程度,從而幫助你更高效率地去使用各種 App 和設備。
這就好比我們生活中的水和空氣,不引人注意又無處不在,一旦你已經習慣,它就會成為你生活中不可或缺的一部分,再也無法分開。