人工智慧?無人駕駛?你想過其實這些是勞動密集型產業嗎?

在自動駕駛時代真正到來之前,數據標註工作都是不可或缺的。要對自動駕駛賴以實現的 AI 進行訓練,所需的數據量往往超出了想像!
評論
Photo Credit:Waymo
Photo Credit:Waymo
評論

本文來自合作媒體 36kr,INSIDE 經授權後轉載。

病友們都在看雜誌、刷 Instagram 的時候,Shari Forrest 打開了手機上的一個 app,開始訓練一個將要用在無人車上的人工智慧。

54 歲的 Forrest 並非工程師或程式設計師,她靠撰寫教材來謀生。儘管如此,在平時有空時,Forrest 依然會在 Mighty AI 上登錄,然後把自己的時間花在給行人、垃圾桶,以及任何其他你不希望無人車撞上的東西做上標記。

Mighty AI 是一家人工智慧眾包服務平台。在這裡,Forrest 的「同事」們在全球範圍內還有 20 萬人。這家公司提供的主要服務包括計算機視覺、自動駕駛、自然語言處理等。今年 1 月,公司剛剛宣布完成 1400 萬美元 B 輪融資。

「如果能趁著排隊的工夫賺幾塊錢的話,何樂而不為呢。」Forrest 說。

對於無人車產業而言,在自動駕駛時代真正到來之前,類似 Forrest 所做的這種數據標註工作都是不可或缺的。要對自動駕駛賴以實現的 AI 進行訓練,所需的數據量往往超出了想像。

Google 和通用這種公司很少去提這件事情,但正是像 Forrest 一樣的人們組成的勞動力大軍,構成了那些嗡嗡作響的數據中心背後的基石。

多數開發自動駕駛技術的公司會聘用成百上千名員工,然後把這種教會無人車識別行人、騎士和其他障礙物的工作外包到印度或中國。這些工人需要對長達數千小時的影片逐一進行標記。

「機器學習是個神話,就像《綠野仙踪》一樣。矽谷硬體孵化器公司 Lemnos Labs 的投資人 Jeremy Conrad 說:「標記團隊對每家公司都至關重要,我們一段時間內仍然需要他們,因為戶外環境十分多變。」

人工智慧、感應器質量和計算能力的巨大進步,給無人車的革命打下了技術基礎。然而,儘管出現了這些創新,但在未來很多年內,人類仍然需要在幕後默默奉獻,才能讓這些系統保持最好的狀態。

「在我看來,人工智慧從業人員整體都很自大,認為電腦可以解決一切。」Mighty AI 創始人兼 CEO Matt Bencke 說。人工智慧系統也都存在同樣的問題:電腦需要通過人工添加標籤的龐大數據進行「學習」,然後利用這種「模型」在今後看到類似的物體和形態時將其識別出來。

訓練無人車面臨的挑戰比其他人工智慧應用更大,因為汽車所要面臨的場景和環境是開放性的。即便是針對不同時間的燈光和天氣環境進行調整後,城市環境仍會因為建築、活動或事故而在一夜之間發生變化。

「標註過程通常都是一項非常隱秘的成本,很少被人提及。」自動駕駛創業公司 Drive.ai 首席執行官 Sameep Tandon 說:「這非常痛苦,也非常麻煩。」

無人車所需的精度也高於其他人工智慧系統。汽車之所以能夠自動駕駛,是通過將它們藉助攝像頭和感應器看到的周圍環境,與車載 3D 地圖進行比對來實現的。安全是頭等大事:如果 Google Photos 的臉部識別無法正確認出一張照片中的人,那也沒什麼大不了;但如果 Waymo 的無人車無法識別行人,就會引發致命事故。

在爭相開發無人車的過程中,企業的衡量標準都是他們的累計行駛里程。Waymo 今年 5 月表示,他們的汽車已經在公共道路上試駕了 300 萬英里,而特斯拉去年表示,他們已經借助 Autopilot 系統,通過現有的車主收集了 1000 多萬英里的駕駛數據。

然而,里程越多,就意味著這些公司的後台數據處理人員需要手工從事更多工作。短短幾英里的駕駛里程就會產生數十 GB 的數據,這些數據很快就會變得過於龐大,以至於無法通過車載無線網絡進行傳輸。相反,必須首先保存在硬碟之中,然後再傳輸到外包中心。

這樣一個擁有尖端技術的行業,卻採用如此陳舊的模式,的確令人感到意外。

矽谷自動駕駛系統開發公司 PlusAI 首席執行官 David Liu 表示,每駕駛一個小時,就需要花費數百個小時才能將其轉化成有用的數據。

他說:「我們需要幾十萬,甚至幾百萬小時的數據才能讓無人車隨處行駛,並且需要“數十萬人來實現這一目標。」

但大型科技公司通常不肯披露無人車所涉及的人工程序。Waymo、Uber 和特斯拉均拒絕對此置評。

很難聽到有人談論此事。華盛頓大學計算機科學與工程教授 Dan Weld 說:「他們都喜歡說,機器學習很神奇。」

曾經擔任 Waymo 和 Uber 工程師的 Anthony Levandowski 曾於 2013 年在加州大學伯克利分校的公開演講中,將 Google 的印度團隊稱作一個由「人類機器人」組成的團隊,他們負責標記街景服務採集的各種圖像。

這種勞動密集型工作的成本並不低。業內人士估計,要創造和維護每座美國城市的地圖,一年的花費約為數十億美元。

有的創業公司從中看到了機會,PlusAI、Deepmap 和 Drive.ai 都聲稱可以使用「深度學習」來降低人工成本,但仍然可以維持安全駕駛所需的精度。但其他業內人士仍然懷疑,深度學習難以徹底擺脫對人類的依賴。

Mighty AI 的 Bencke 指出,Facebook、YouTube 和 Twitter 面臨的挑戰,是如何在他們的社交平台上應對欺凌和恐怖主義等各種負面內容。「如果深度學習具備這種能力,你不認為它現在就應該已經解決這個問題了嗎?”他說,“這個問題沒有無人車那麼複雜,而且市場很大。”

當下,AI 的智慧在更大程度上仍然取決於它所用來訓練的數據的質量。Bencke 稱自家的平台會用自己的機器學習技術,來判定每個人最為擅長的領域,並以此來分配工作。沒人因此變得富裕,但對於 Mighty AI 來講,這無關緊要。

Forrest 說,自己去年在這項工作上賺了 300 美元,大部分都用來網購了。她從沒見過無人車,更別提乘坐一次。但她知道自己正讓它們變得更為聰明,也對這項技術的未來充滿信心。