【Wired 硬塞】AI 有偏見,但科學家想用這招破解

科學家正在想辦法修改 ImageNet 數資料庫,但是這種反偏差訓練比想像中困難許多。
評論
Photo Credit: Shutterstock/達志影像
Photo Credit: Shutterstock/達志影像
評論

 原文來自 Wired《AI Is Biased. Here's How Scientists Are Trying to Fix It》,作者 Will Knight。 台灣康泰納仕集團授權提供,本文由譯者 Zoe Teng 翻譯並經 INSIDE 編審。

近年來,人工智慧的大躍進讓電腦能更了解我們的世界,但 AI 演算法到底會怎麼看你這個人?你知道後可能會覺得驚訝,甚至生氣。近期的一項實驗顯示,頂尖的 AI 視覺系統接收到人臉照片後,吐出的可能會是種族歧視、性別刻板印象、或是質疑品格的評語。

但這些訓練機器認識世界的科學家,已將部份的「人為偏見」從數據裡移除。這些潛藏偏見的數據就是他們當時用於訓練 AI 的教材。他們認為,這項改變可以讓 AI 更公平地評斷事物。然而,這個經驗也讓他們了解從 AI 系統中剔除成見是一項艱鉅的任務,原因之一是機器仍要靠「人」來訓練。「當你挖得更深的時候,會有很多須要考量進去的因素,」普林斯頓的助理教授 Olga Russakovsky 表示,她也是參與這項工作的其中一員。

這個計畫的背後有一個更大的目標:矯正自動系統中潛藏的偏見或成見。由於 AI 的應用正迅速普及,且在一些方面可能帶來重大的影響,這個問題因此成了至關重要的挑戰。目前,科學家已在人臉辨識系統、僱傭系統、以及網路搜尋演算法中找到偏見的存在。而視覺系統已被用於警務等重要工作,偏見存在可能會讓監視系統產生錯將少數族群視為罪犯的傾向。

在 2012 年,一個名為「ImageNet」的計畫扮演著解鎖 AI 潛力的關鍵角色,這個計畫提供工程師訓練電腦辨識視覺概念所須的大量資料庫,從花草到滑雪選手等圖片應有盡有。史丹佛、普林斯頓、和北卡羅來納大學的科學家們用一筆小錢把負責標記 1400 萬多張圖片的工作外包給「機械土耳其人(Mechanical Turker)」,這些圖像最後成為他們免費釋出的數據庫。

「去除人的偏見比去除 AI 系統的偏見要難得多。」— OLGA RUSSAKOVSKY (普林斯頓助理教授)

把這個數據庫灌入一個大型神經網路模型,就會創造出一個擁有精準辨認能力的圖片辨識系統。演算法會藉由各種範例學習辨認模式,以及模式中的高階概念,例如組成小狗外型和毛色質地的像素。一項測試用 ImageNet 開發出的演算法的比賽結果顯示,深度學習演算法能夠正確地分類圖片,幾乎與人腦不相上下。這個利用 ImageNet 創建系統的成功故事,參與激發出一波興奮擁抱 AI 的投資潮,並和其他領域的發展共同催生了智慧型手機的進階相機功能和自動駕駛車等新科技。

但之後的幾年中,研究人員開始發現 ImageNet 數據中潛伏的問題。舉例來說,用這個數據庫訓練出的演算法可能會推斷工程師都是白人男性,這是因為圖庫的標記有這樣的傾向。最近爆紅的網路計畫「Excavating AI」也公開了 ImageNet 標記中的偏見,從「放射師(radiologist)」、「傀儡師(puppeteer)」到充滿種族歧視的「黑鬼(negro)」、「亞洲佬(gook)」等詞皆被用於標記圖片。網友可以上傳照片到這個計畫的網站(現已關閉),然後觀察這個用 ImageNet 數據訓練出的 AI 模型中隱藏的各種詞彙標記。

這個問題的出現,是因為負責標記的人除了加入「老師」、「女性」等一般詞彙外,還加入了貶損或既定觀點用語。

ImageNet 團隊分析過數據庫之後,找到了這個偏見源頭與其他原因,並開始循序漸進地解決問題,比如利用群眾外包來查找和移除貶義詞。他們也發現了像是「慈善家(philanthropist)」等強加意義於圖片的問題詞彙,並建議在 AI 訓練中排除這類字眼。

ImageNet 團隊也評估了圖庫中的人口與地理多樣性,並開發出一個可讓更多樣化圖片浮現的工具。舉例來說,通常「工程師」這個詞會導出許多白人男性坐在電腦前的圖片,但在新工具的幫助下,一個在性別、種族、和年齡上更多樣化的圖庫子集可被用於訓練 AI 演算法。ImageNet 團隊計畫在未來數月內發布這個新工具。

他們的努力顯示了從基層開始重整 AI 的可能性,以讓它產出更公平的結果。但這也顯現出 AI 對人類訓練的高度依賴,以及偏見問題的複雜度和挑戰性。「我認為這是一項值得讚賞的工作,」曾研究 ImageNet 的麻省理工研究科學家 Andrei Bardu 說;然而,他也表示數據庫的圖片數量會直接影響可移除的偏見數量,這是由於可平衡結果的範例可能太少。

另外,從數據庫中剝除偏見也許會降低數據庫的可用性,特別是在一併刪去多種偏見的情況下,如種族、性別、和年齡。「創建一個沒有特定偏見的數據庫可能將會大量削減數據資料,讓它變成內容稀薄的碎片,」他說。

Russakovsky 也同意這是一個複雜的問題;她表示,由於不同文化的世界觀差異極大,一個真正多樣化的圖庫集會是什麼模樣,其實還沒有人知道。但她也認為,為更公平的 AI 付出努力最後會是值得的。「我對自動化決策在未來變得更公平感到樂觀,」她說,「去除人的偏見比去除 AI 系統的偏見要難得多。」

責任編輯:Chris