Google 拼了!為了做好手機的搜尋,聘百名語言學博士人工標註資料

為了訓練神經網路演算法,Google 在全世界聘用了約百名語言學博士處理資料,進行人工篩選。
評論
評論

本文獲合作媒體 雷鋒網 授權轉載。

搜尋:世界上最快的鳥是什麼?Google 會告訴你:遊隼。根據 YouTube,遊隼被記錄下最高 389 km/h 的時速。

這的確是正確答案,但它並非來自於 Google 的資料庫。當你輸入這個問題的時候,Google 搜尋引擎找出了一個描述世界上五種最快鳥兒的 Youtube 影片。然後它只把最快的「一種」鳥兒的資訊提取出來,不提及另外四種。

這是 Google 搜尋最新的技術進展。為了回答這些問題,Google 需要藉助深度神經網路的技術。 作為 AI 技術之一,它不僅正在重塑 Google 搜尋引擎,還在革新 Google 全套人工智慧服務。其它網路大廠當然也受到波及,例如 Facebook 和微軟。

深度神經網路是一種模式識別系統。它能通過分析大量資料,學習如何處理特定任務。這個例子中,它學會了怎麼在網路上的長篇文字中找出相關的一句或一段話,然後提取其中的要點呈現給你。

行動端 Google 搜尋剛剛上線這種「句子壓縮演算法」(sentence compression algorithms)。這個對人類來說很簡單,但對傳統的機器來說很難的任務,終於能被 AI 系統完成。這說明,深度學習正在促進自然語言理解這門藝術(理解並回應人類語言)的發展。

Google 研發產品經理 David Orr 說:「對於“句子壓縮”,你不得不使用神經網路演算法,因為這是目前我們發現的唯一方法。」

為了訓練神經網路演算法,Google 在全世界聘用了約百名語言學博士處理資料,進行人工篩選。 事實上,Google 的系統是從人類那裡學習,怎麼在大段文字中提取有用資訊。而這過程需要一遍遍地重複——這是深度學習一個很大的限制。僱用大批語言學家不停地篩選資料既麻煩又極其昂貴,但短期內 Google 沒有別的辦法。

 

“黃金數據”和“白銀數據”

Google 也使用過期的新聞來訓練 AI 問答系統。這使 AI 逐漸理解,新聞標題是如何對文章主體進行歸納的。但這並不意味著 Google 不需要一整群的語言學家了。他們不僅示範句子壓縮,還要對語句的不同部分做標記,以幫助神經網路理解人類語言是如何工作的。David Orr 把 Google 語言學家團隊處理的資料稱為“黃金數據”,過期新聞則是“白銀數據”。“白銀數據”作用不小,因為它的體量很大。但價值最大的還是“黃金數據”,它們是 AI 訓練的核心。語言學家團隊的負責人 Linne Ha 透露,在可見的將來,語言學家隊伍仍會繼續擴大。

這類需要人工輔助的 AI 學習便是“監督學習”(supervised learning),目前,神經網路都是這麼運作的。 有時候公司會把這個業務進行群眾外包,有時候它會自發地進行。比方說,全世界的網民已經為數百萬的貓咪照片添加了“貓咪”標籤,這會讓神經網路學習識別貓咪變得很簡單——訓練資料已經處理好了。但很多情況下,研究人員們別無選擇,只能自己一次次為資料添加標籤。

深度學習新創公司 Skymind 的創始人 Chris Nicholson 認為, 長遠來看,人工標註資料是不可行的。 他說:「將來一定不會是這樣。這是極度枯燥的工作。我想不出比這更無聊的 PhD 工作了。」

監督學習的缺陷遠不止如此: 除非 Google 聘請所有語言的語言學家,否則這個系統無法在其他語言中運轉。 現在,語言學家團隊的工作橫跨了 20 至 30 種語言。Google 必須在將來的某一天,採取更自動化的 AI 訓練方式,即“無監督學習”(unsupervised learning)。

到了那時,機器將能夠從未經人工標註的資料中學習。網路上大量的數位資訊可以被直接用於神經網路學習。Google、Facebook 和 OpenAI 這樣的大廠們已經開始這個領域的研究,但它的實際應用仍然非常遙遠。現在,AI 學習仍然需要幕後的大批語言學家隊伍。


從這 3 個解決方案,突破傳統 VPN 功能上的局限性

遠距工作逐漸成為了常態,企業內部的雲端協作增多,加上用戶使用的終端設備也日漸多樣化,導致終端設備的風險不斷增加,同時企業對於遠程接入的安全需求也更為提升。
評論
評論

遠距工作逐漸成為了常態,企業內部的雲端協作增多,加上用戶使用的終端設備也日漸多樣化,導致終端設備的風險不斷增加,同時企業對於遠程接入的安全需求也更為提升。雲端運算的廣泛使用,給傳統 VPN 技術實現遠程安全接入的方案,帶來了很大的挑戰。

挑戰來源於這裡

首先終端安全風險缺乏有效地管控,傳統的 VPN 只針對用戶做認證,缺乏對終端裝置認證及安全性評估。終端種類和來源的多樣性帶來的安全風險大大增加,存在終端被入侵並作為攻擊跳板的可能性。

傳統 VPN 難以適應雲環境和多雲數據中心應用場景出現,且通常採用加密隧道劃分安全可信區域,在雲環境下,尤其是存在多雲數據中心的情況,難以適應同意安全接入、統一建立安全邊界的需求。最後 VPN 介入後的橫向攻擊難以控制,用戶通過傳統 VPN 接入內網後,缺少更細粒度、動態的訪問和權限控制,導致關鍵應用可能存在被攻擊滲透的風險。

新的方案需要在這 3 個方面提升

除了對用戶身份認證以外,對用戶終端的安全性也需要進行持續地評估,以提升系統安全水平。適應雲端運算環節下統一接入、統一管理的要求,其中包括私有雲、公有雲和混和雲環境。對內部網路中的橫向攻擊進行有效地管理控制,對用戶可信度的訪問權限進行評估,不能只是透過物理位置和靜態狀態來做出判斷,需要基於用戶自身的角色和身份以及當前的安全狀態,來進行更細顆粒度的動態授權,進一步去提升系統安全訪問的標準。

VPN 會在用戶進行登錄訪問的期間實施檢測功能,當發現終端安全狀態不能滿足安全需求時,會限制終端對系統的訪問。VPN 可以通過 API 接口與態勢感知、下一代防火牆、終端檢測和響應等多種裝置進行安全連動,並保持安全效能持續地成長,更加準確識別出異常行為和未知的威脅。同時,透過與其他能力相互協作,滿足遠距辦公場景下的數據防泄密需求。

Surfshark VPN 免費加贈 3 個月

本文章內容由「Surfshark」提供,經關鍵評論網媒體集團廣編企劃編審。