語音識別大突破!Google 深度學習仿造雞尾酒效應 在吵雜環境將人聲獨立

評論
評論

近年來語音辨識技術準確度已大幅提高,但機器的「聽力」往往在環境中出現不同聲音時準確度大幅降低。

至於人類為什麼能夠在吵雜環境中仍然可以聽到正確的音訊去忽略其他干擾呢?這個現象稱之為雞尾酒會效應,人的聽力選擇能力,在音訊複雜環境中,可將注意力集中在某一個人的談話之中而忽略背景中其他的對話或噪音。人類此聽覺系統驚奇的能力,使我們可以在雜訊中談話。

為了提升機器判讀音訊的能力,Google 提出了一項深度學習視聽模型,仿造人類的雞尾酒會效應將單一音訊與混合音訊進行分離,背後的概念其實容易理解,就是讓模型同時判讀影音內容上視覺與聽覺訊號來獲悉主要音訊為何,增強主要人聲抑制環境雜音,人的嘴巴的運動應該與該人說話時產生的聲音連動,藉此辨識哪個部分的音訊與人相對應。

透過視覺訊號分離音訊大大提高純以語音判讀所分離的準確度,這是 Google 在此項研究中最大的突破,分離音訊除了能提高語音辨識能力,最重要的事還能將影音內容中的雜音去除,留下更清晰的音軌進行播放。

為了訓練模型,·Google 首先搜集 100000 部 YouTube 上某些演講影音內容,擷取這些影片中沒有受到觀眾聲音、背景音樂干擾只有主講主人聲,且鏡頭畫面為主講者的片段,按照上述選取方法剪輯,保留大約 2000 小時的影音內容來訓練模型。

 

Google 透過這些數據產生資料庫「合成雞尾酒派對」(Synthetic cocktail parties),再將 Google 語音資料庫 AudioSet 和多個人臉影片混合到資料集,用來訓練卷積神經網路模型,把合成雞尾酒派對的資料庫分解成獨立音訊,訓練模型分離不同的音源辨識單一人聲。

目前 Google 在網站 已公布 用此方法進行語音分離和增強人聲的結果,首先播放吵雜語音輸入影片,接著播放 Google 模型產生的結果。非主講人發出的聲音可被完全抑製或抑製到標準範圍。將此用來幫助 YouTube 自動生成字幕,當你在觀看影片時,按下右下方 CC 鈕呈現更準確和易於閱讀的字幕!

更多對趙結果可查看 Google 官方部落格

相關文章

評論