聽障者福音!牛津大學開發會讀唇語的 AI,實驗準確率高達 93.4%

使是專業的唇語解讀者,其準確率也只有 20%-60%。
評論
Photo Credit: LipNet: How easy do you think lipreading is? 影片截圖
Photo Credit: LipNet: How easy do you think lipreading is? 影片截圖
評論

原文刊登於合作媒體 愛範兒 ,INSIDE 獲授權轉載。

事實上,即使是專業的唇語解讀者,其準確率也只有 20%-60%。所以很多時候,一知半解的「專家」們基本也是依靠腦補強行解讀的。這就是為什麼體育比賽中球員們只好採取各種手勢來交流了。

不過,牛津大學最新研發的人工智慧系統,有望大幅提高唇語解讀的準確性。

根據牛津大學新發表的論文,這個叫 LipNet 的人工智慧係統,能夠將影片中人物的嘴巴活動與其台詞進行匹配,準確率高達 93.4%。而在此之前,即使是最先進的逐字對照系統,其準確率也只有 79.6%。

研究人員表示,他們換了一種思維方式,不是通過可視音素(語音中最小的不可再分解的單位)系統來訓練 AI 識別每一種唇部活動,而是讓它能夠一次處理整個句子。這就使得 AI 能夠自己學習字母與唇部細微變化之間的對應關係。

在訓練過程中,研究人員向 AI 展示了近 29000 個標有正確文本的影片,每個影片長度為 3 秒。為了瞭解人類唇語解讀者在面對同樣的任務時的表現,該團隊還招募了三名實驗人員,讓他們隨機觀看了其中的 300 個影片。

結果顯示,參與實驗的人員平均錯誤率為 47.7%,而 AI 只有 6.6%。

不過,這不並代表 AI 就能準確讀懂唇語了。因為在訓練時,研究人員使用的影片都是經過精心策劃的,影片畫面光線充足,每個人都正對鏡頭,且吐字清晰、發音標準,台詞也是類似於「立即將藍色放入 m1」這種包含命令、顏色、介詞、字母、數字等格式的句子。

如果讓 AI 去解讀 YouTube 上隨機挑選的影片,效果可能不見得比人類好多少。

值得一的是,這個專案得到了來自 Alphabet 旗下的 DeepMind 實驗室的資助。

OpenAI 的 Jack Clark 認為,LipNet 還需要進行以下三個方向的改進,即通過大量真實環境中人物的講話影片,讓 AI 能夠從多個角度閱讀嘴唇,並增加短語的類型。

當然,開發這樣一個 AI 可不是為了滿足球迷和媒體的八卦之心的,聽力受損人群才是這一工具的目標。

如果唇語解讀 AI 能夠更完善,它將幫助數百萬聽力障礙者「聽懂」其他人的對話。此外,透過聽取影片快速生成準確的字幕也是可能的應用領域之一。