語音識別大突破!Google 深度學習仿造雞尾酒效應 在吵雜環境將人聲獨立

語音辨識技術最大的罩門就是遇到吵雜環境,而人類在音訊複雜環境中,可將注意力集中在某一個人的談話之中而忽略背景噪音,此現象稱之雞尾酒效應,最近 Google 訓練出一套模型可以達到此境界了!
評論
評論

近年來語音辨識技術準確度已大幅提高,但機器的「聽力」往往在環境中出現不同聲音時準確度大幅降低。

至於人類為什麼能夠在吵雜環境中仍然可以聽到正確的音訊去忽略其他干擾呢?這個現象稱之為雞尾酒會效應,人的聽力選擇能力,在音訊複雜環境中,可將注意力集中在某一個人的談話之中而忽略背景中其他的對話或噪音。人類此聽覺系統驚奇的能力,使我們可以在雜訊中談話。

為了提升機器判讀音訊的能力,Google 提出了一項深度學習視聽模型,仿造人類的雞尾酒會效應將單一音訊與混合音訊進行分離,背後的概念其實容易理解,就是讓模型同時判讀影音內容上視覺與聽覺訊號來獲悉主要音訊為何,增強主要人聲抑制環境雜音,人的嘴巴的運動應該與該人說話時產生的聲音連動,藉此辨識哪個部分的音訊與人相對應。

透過視覺訊號分離音訊大大提高純以語音判讀所分離的準確度,這是 Google 在此項研究中最大的突破,分離音訊除了能提高語音辨識能力,最重要的事還能將影音內容中的雜音去除,留下更清晰的音軌進行播放。

為了訓練模型,·Google 首先搜集 100000 部 YouTube 上某些演講影音內容,擷取這些影片中沒有受到觀眾聲音、背景音樂干擾只有主講主人聲,且鏡頭畫面為主講者的片段,按照上述選取方法剪輯,保留大約 2000 小時的影音內容來訓練模型。

 

Google 透過這些數據產生資料庫「合成雞尾酒派對」(Synthetic cocktail parties),再將 Google 語音資料庫 AudioSet 和多個人臉影片混合到資料集,用來訓練卷積神經網路模型,把合成雞尾酒派對的資料庫分解成獨立音訊,訓練模型分離不同的音源辨識單一人聲。

目前 Google 在網站 已公布 用此方法進行語音分離和增強人聲的結果,首先播放吵雜語音輸入影片,接著播放 Google 模型產生的結果。非主講人發出的聲音可被完全抑製或抑製到標準範圍。將此用來幫助 YouTube 自動生成字幕,當你在觀看影片時,按下右下方 CC 鈕呈現更準確和易於閱讀的字幕!

更多對趙結果可查看 Google 官方部落格


Akamai 服務上新,於邊緣處推動快速創新

Akamai EdgeWorkers 為開發團隊提供豐富功能和工具來創建新的微服務,利用 Akamai 提供的 25 萬台分佈式服務器組成的網絡,在邊緣執行安全而快速的計算,並在邊緣暫存內容,以實現快速交付。
評論
評論

在雲計算技術還沒有大規模普及前,絕大部分企業和組織都需要自建數據中心,或通過託管的方式來部署自己的硬體基礎架構,並在此基礎上為員工和客戶提供服務。取決於業務或其他方面的諸多要求,此時需要部署的數據中心可能有很多個,並廣泛分佈在不同地區,藉此為客戶提供流暢的體驗,並透過多個數據中心保障連續性。在發展的過程中,隨著「雲端」的出現,讓各個組織的計算開始集中。

而當在線直播、無人駕駛、智能家電、物聯網等應用開始陸續深入我們的工作和生活,情況又不同了。以往透過雲平台集中運行和服務的模式,因為距離導致的網絡延遲已經對用戶的使用體驗產生極大影響。為了提供更敏捷、靈活、快速、可靠的體驗,企業需要從最貼近用戶的地方提供服務。因此,邊緣計算就成為最有效的解決方法。

透過將數據的收集、分析和處理等工作,由「雲中心」重新分散到最接近用戶的邊緣位置,企業可以就近為用戶提供服務,通過延遲更低的響應打造更出色的用戶體驗。

「無服務器」的出現,帶來計算方式的革新

以前,當組織需要上線一套業務系統時,首先需要採購並部署相應的服務器硬體,並且要負擔服務器日常運維過程中的管理、維護、補丁安裝、配置等繁瑣任務。

上雲前,組織需要在自己的數據中心,以硬體服務器的方式執行這一系列工作;上雲後雖然簡單許多,但依然需要面對雲服務商提供的虛擬服務器,從本質上來看相關負擔仍相當繁重。

無服務器(Serverless)技術的出現,讓組織可以在不需要考慮服務器的情況下,構建並運行由微服務構成的創新式應用程式與和服務。藉此不僅可以省略基礎架構管理任務,還能為幾乎任何類型的應用程式或後端服務構建無服務器應用程序,更方便、靈活地構建出具備極高可用性的應用。

Akamai EdgeWorkers :為創新賦能

Akamai EdgeWorkers 為開發團隊提供豐富功能和工具來創建新的微服務,利用Akamai 超過 25 萬台分佈式服務器組成的網絡,在邊緣執行安全而快速的計算,並在邊緣暫存內容,以實現快速交付。

當開發團隊在邊緣開啟代碼時,他們會將數據、見解和邏輯推送到更靠近最終用戶的位置。Akamai 的高性能、可擴展式實施模型,可確保數據和計算不會被延遲問題困擾,進而避免對數字化體驗產生負面影響。

在該服務幫助下,開發者可直接在 Akamai 的全球分佈式平台上快速、迭代地創建和部署新服務,以解決問題和自定義交付。

長期以來,Akamai 在邊緣計算的創新和成功實施皆具有優勢。自 1998 年起,便開始為 Akamai 內容交付網絡(CDN)的客戶推出自定義交付邏輯,其他里程碑還包括 2001 年的 Edge Site Includes 、2002 年的 Edge Java 以及 2014 年的 cloudlet 應用程式。

目前, Akamai 在全球擁有超過 4100 個入網點,為 EdgeWorkers 用戶提供出色的邊緣基礎架構規模和範圍,開發人員可以在靠近最終用戶和他們的數字化接觸點的地方部署代碼,以實現盡可能低的延遲。EdgeWorkers 同樣獨立於雲,客戶可以選擇利用 CDN 供應商或雲供應商平台上的無服務器計算功能。在 Akamai 幫助下,客戶可以在整個混合雲或多雲環境中部署單一的無服務器計算平台。

更多相關資訊:https://www.akamai.com/solutions/edge

本文章內容由「猿聲串動」提供,經關鍵評論網媒體集團廣編企劃編審。