人類看影片學語言,Google AI 「看」萬部電影學會人類行為!

AI 識別人類的行為動作至今仍是一個難題,Google 正在讓自家的 AI 克服這個難題,最近 Google 發表了新的人類動作數據庫集體 AVA(atomic visual actions),可以精準標註影片中的多人動作,而其學習的對象則是來自YouTube 的海量影片。
評論
評論

本篇來自合作媒體 iFanr,INSIDE 經授權轉載。

上週,AlphaGo「終極版」AlphaGo Zero 再次讓世人驚訝,自學 3 天完胜李世乭,40 天登頂「世界圍棋冠軍」。

但這並不意味著人工智慧有能力取代人類,套用機器人界的一句話:

五歲以上的人類能夠做的事情,機器人都能輕鬆勝任,但學會走路,辦不到。

簡單來說,要 AI 識別人類的行為動作至今仍是一個難題,而四個月大的嬰兒就能識別各種臉部表情了。

Google 正在讓自家的 AI 克服這個難題,最近 Google 發表了新的人類動作數據庫集體 AVA(atomic visual actions),可以精準標註影片中的多人動作,而其學習的對象則是來自 YouTube 的海量影片。

Google Research Blog 介紹,AVA 的分析樣本主要是 YouTube 中 的影視類影片。Google 先從這些影片中收集大量不同的長序列內容,並從每個影片中截取 15 分鐘,並將這些 15 分鐘片段再平均分成 300 個不重疊的 3 秒片段,同時在採樣時讓動作順序和時間順序保持一致。

接下來則需要手動標記每個 3 秒片段中間幀邊界框中的每個人,從 80 個原子動作(atomic action)中選擇合適的標籤(包括行走、握手、擁抱等)給這些人物行為進行標註。

Google 把這些行為分成了三組,分別是姿勢/移動動作、人物交互和人與人互動。目前 AVA 已經分析了 570000 個影片片段,標記了 96000 個人類動作,並生成了 21000 個動作標籤。

在 AVA 的數據分析中,會對每個影片片段的每個人物動作進行識別,也發現了人類的的行為往往不是單一的。

統計至少帶有兩個動作標籤的人物數據,就可以分析人類不同動作一起出現的頻率,在 AVA 的文檔中稱之為共現模式(co-occurrence pattern)。

從 AVA 的數據可以看到,打架和武術、親吻和擁抱、唱歌和彈奏樂器,這些都是比較常見的共現模式。

同時為了盡可能覆蓋更大範圍的人類行為, AVA 的所分析的電影或劇集,採用了不同國家和類型的影片,這也可能是為了避免出現性別歧視和種族歧視。早在 2015 年,Google Photos 就曾因為誤把兩名黑人標註為「大猩猩」(Gorilla)而備受詬病

Google 還將對外開放這一數據庫,最終目的是提高 AI 系統的「社群視覺智慧」,從而了解人類正在做什麼,甚至預測人類下一步要做什麼。

當然目前距離這個目標還很遙遠,正如 Google 軟體工程師 Chunhui Gu 和 David Ross 在介紹 AVA 的文章中寫道:

教會機器去識別影片中的人類行為是發展電腦視覺的一大基本難題,但這對於個人影片搜索和發現、體育分析和手勢界面等應用至關重要。

儘管過去幾年在圖像分類和查找物體方面取得了令人激動的突破,但識別人類行為仍然是一個巨大的挑戰。

雖然柯潔稱「對於 AlphaGo 的自我進步來說人類太多餘了」,可人腦有 800 億個神經元細胞、100 萬億個連接,AI 神經網絡要想達到大腦的認知水平也絕非易事。

目前電腦視覺技術的發展也主要集中在靜態圖像領域。

Google 從 2006 年開始用深度學習算法代替人工識別,Google Photos 現在已經可以識別出貓狗的照片並自動分類。

Google 的人工智慧實驗室 DeepMind 正在利用人工智慧將 Google 街景圖製作成專業的攝影作品,其水準甚至已經可以媲美專業攝影師。

而 iPhone X 上的 Face ID 技術,也許會讓臉部辨識技術在智慧手機上變得更為普及。就連全球最大的色情網站 Pornhub ,也宣布將引入人工智慧技術對網站上成人影片的內容和表演者進行自主檢測,讓 AI 算法為成人影片的內容和演員進行標籤分類。

相比而言,電腦對於人類動態行為的識別則要困難得多。最近在《紐約客》新一期的封面在美國的社群媒體火了起來,封面文章《黑暗工廠:歡迎來到未來機器人帝國》(Dark Factory)描述了越來越多人類的工作逐漸被機器人取代。

雖然機器人能做的事越來越多,但在該文中也可以看到機器人對很多看起來簡單的工作依然無能為力,比如打開一個盒子和解開一個結,美國布朗大學人機實驗室的 Winnie 機器人前不久才剛剛學會了摘花瓣。

而 Google 這次的人類動作數據庫集體 AVA,目前最直接的作用可能就是幫助旗下的 YouTube 處理和審核每天上傳的大量影片,同時也能更好地服務廣告主。

過去 Google 就曾因為無法對影片內容精準識別而吃過大虧,《連線》雜誌的一篇文章曾披露, Google 在影片中植入廣告的自動系統,將一些廣告放置在了宣傳仇恨和恐怖主義的影片旁邊,已經讓沃爾瑪和百事可樂等大客戶放棄了 Google 的廣告平台。

對於 90 % 收入來自廣告業務的 Google 來說,這個問題當然不能怠慢,此前 Google 主要通過聘請一大群臨時工去監測和標記各種影片內容,並以此作為 AI 的訓練數據。

這樣的做法除了需要高昂的人力成本,也有觀點認為這些臨時工不穩定的工作狀態和與 Google 的缺乏溝通,將會影響到 AI 識別的精確度。

由此可見,如果 Google 這個 AI 的學習能力足夠強,那不久的將來,這些臨時工也將通通失業,而將來這項技術的應用當然也不局限於此。

隨著 AI 對人類認知越來越深,對於人工智慧倫理的討論也許會變得更加激烈。

延伸閱讀:

 


精選熱門好工作

客服專員 擴大徵才中

樂購蝦皮股份有限公司
臺北市.台灣

獎勵 NT$15,000

Software Manual Test 手動測試工程師

樂購蝦皮股份有限公司
臺北市.台灣

獎勵 NT$15,000

行銷企劃主管

安力國際開發股份有限公司
臺北市.台灣

獎勵 NT$15,000

評論