Google 發表新 AI 語音技術研究 語言障礙者的話更能聽懂

評論
Google 
Google 
評論

今年 I/O 上 Google 展示了對語言障礙者的最新計劃,Project Euphonia 團隊透過 AI 幫助語言障礙者也能進行溝通,過去像是漸凍人、中風、帕金森氏症等神經系統疾病患者在溝通非常有挑戰性。

Project Euphonia 團隊透過 Google 軟體將錄下的語音轉成聲譜圖,或以更視覺化的圖像方式來呈現聲音,再利用聲譜圖訓練系統,優化機器辨識這些非典型的語音資料。

近日,Google 在官方文章上再公布了最新的進度,新的深度神經網路研究,推出新的計劃 Parrotron,Parrotron 由單個端到端深度神經網絡訓練而成,能將自非典型語音模式的說話者(可能是漸凍人、聽障者)一般人與電腦較難辨識的語音,直接轉換為流利的合成語音,且過程完全不需要另外生成文字,跳過語音辨識的中間步驟。

image1

在今年 Google 東京舉辦的 AI 機器學習論壇上,Google 也在多個「AI for social good 」專案中,將 Project Euphonia 作為案例,表達出用科技讓身障者能重新與世界連結的決心,過去自使用 Google Home 等語音助理對他們來說是遙不可及的。

Google AI 產品經理 Julie Cattiau 說明藉由新的語音辨識模型,語言障礙人士能透過此讓機器聽懂指令,也能用可辨識手勢、眨眼等的電腦視覺模型,讓語言障礙者更獨立表達。

_DSC8337
Google AI 產品經理 Julie Cattiau 在Google 東京 AI 論壇

Google  在新文章中指出,Euphonia 已經建立了語言障礙者個性化的語音轉文字模型,輸出語音到 TTS 系統再從結果合成語音,將聾啞人士的單字錯誤率從 89% 降低到 25%,實現與 Parrotron 類似的目標。

然而,在這樣的方法中,機器可能選擇到不正確的單字產生具有其他含義的單字/句子,讓溝通上產生誤差。而藉由 Parrotron 端到端語音訓練,即使出現錯誤,生成的輸出語音在聲音上聽起來和輸入的語音會更接近。

Google 找來患有失聰的工程師 Dimitri Kanevsky,他也是 Google 語音研究員,錄製了15小時的語音資料庫,透過 Parrotron 系統的幫助,不論是語音辨識系統還是人類觀眾,都更聽的懂他的語句。

相較之下於過去的語音模型及數, Parrotron 是語言障礙的人士更精準的「傳聲筒」,在論文討論關於 Parrotron 更多應用,在 Github 中也能找到其他音頻樣本,有興趣的讀者也能前往查看。


精選熱門好工作

行銷企劃主管

安力國際開發股份有限公司
臺北市.台灣

獎勵 NT$20,000

資深軟體工程師 (Senior Software Engineer) 有Node.js經驗

iKala 愛卡拉
臺北市.台灣

獎勵 NT$20,000

BD 商務開發

WeMo Scooter
臺北市.台灣

獎勵 NT$20,000

評論