Google 拼了!為了做好手機的搜尋,聘百名語言學博士人工標註資料

評論
評論

本文獲合作媒體 雷鋒網 授權轉載。

搜尋:世界上最快的鳥是什麼?Google 會告訴你:遊隼。根據 YouTube,遊隼被記錄下最高 389 km/h 的時速。

這的確是正確答案,但它並非來自於 Google 的資料庫。當你輸入這個問題的時候,Google 搜尋引擎找出了一個描述世界上五種最快鳥兒的 Youtube 影片。然後它只把最快的「一種」鳥兒的資訊提取出來,不提及另外四種。

這是 Google 搜尋最新的技術進展。為了回答這些問題,Google 需要藉助深度神經網路的技術。 作為 AI 技術之一,它不僅正在重塑 Google 搜尋引擎,還在革新 Google 全套人工智慧服務。其它網路大廠當然也受到波及,例如 Facebook 和微軟。

深度神經網路是一種模式識別系統。它能通過分析大量資料,學習如何處理特定任務。這個例子中,它學會了怎麼在網路上的長篇文字中找出相關的一句或一段話,然後提取其中的要點呈現給你。

行動端 Google 搜尋剛剛上線這種「句子壓縮演算法」(sentence compression algorithms)。這個對人類來說很簡單,但對傳統的機器來說很難的任務,終於能被 AI 系統完成。這說明,深度學習正在促進自然語言理解這門藝術(理解並回應人類語言)的發展。

Google 研發產品經理 David Orr 說:「對於“句子壓縮”,你不得不使用神經網路演算法,因為這是目前我們發現的唯一方法。」

為了訓練神經網路演算法,Google 在全世界聘用了約百名語言學博士處理資料,進行人工篩選。 事實上,Google 的系統是從人類那裡學習,怎麼在大段文字中提取有用資訊。而這過程需要一遍遍地重複——這是深度學習一個很大的限制。僱用大批語言學家不停地篩選資料既麻煩又極其昂貴,但短期內 Google 沒有別的辦法。

583e832e2d58b

 

“黃金數據”和“白銀數據”

Google 也使用過期的新聞來訓練 AI 問答系統。這使 AI 逐漸理解,新聞標題是如何對文章主體進行歸納的。但這並不意味著 Google 不需要一整群的語言學家了。他們不僅示範句子壓縮,還要對語句的不同部分做標記,以幫助神經網路理解人類語言是如何工作的。David Orr 把 Google 語言學家團隊處理的資料稱為“黃金數據”,過期新聞則是“白銀數據”。“白銀數據”作用不小,因為它的體量很大。但價值最大的還是“黃金數據”,它們是 AI 訓練的核心。語言學家團隊的負責人 Linne Ha 透露,在可見的將來,語言學家隊伍仍會繼續擴大。

583e8343919ca

這類需要人工輔助的 AI 學習便是“監督學習”(supervised learning),目前,神經網路都是這麼運作的。 有時候公司會把這個業務進行群眾外包,有時候它會自發地進行。比方說,全世界的網民已經為數百萬的貓咪照片添加了“貓咪”標籤,這會讓神經網路學習識別貓咪變得很簡單——訓練資料已經處理好了。但很多情況下,研究人員們別無選擇,只能自己一次次為資料添加標籤。

深度學習新創公司 Skymind 的創始人 Chris Nicholson 認為, 長遠來看,人工標註資料是不可行的。 他說:「將來一定不會是這樣。這是極度枯燥的工作。我想不出比這更無聊的 PhD 工作了。」

監督學習的缺陷遠不止如此: 除非 Google 聘請所有語言的語言學家,否則這個系統無法在其他語言中運轉。 現在,語言學家團隊的工作橫跨了 20 至 30 種語言。Google 必須在將來的某一天,採取更自動化的 AI 訓練方式,即“無監督學習”(unsupervised learning)。

到了那時,機器將能夠從未經人工標註的資料中學習。網路上大量的數位資訊可以被直接用於神經網路學習。Google、Facebook 和 OpenAI 這樣的大廠們已經開始這個領域的研究,但它的實際應用仍然非常遙遠。現在,AI 學習仍然需要幕後的大批語言學家隊伍。


精選熱門好工作

行銷企劃專員 (網站活動)

VeryBuy非常勸敗
臺北市.台灣

獎勵 NT$20,000

Full-stack (Frontend most) Senior Software Engineer

ShopBack 回饋網股份有限公司
臺北市.台灣

獎勵 NT$20,000

高階平台開發者 / Sr. Platform Developer

奔騰網路科技有限公司
臺北市.台灣

獎勵 NT$20,000

評論