Google 發表新 AI 語音技術研究 語言障礙者的話更能聽懂

藉由 Parrotron 端到端語音到語音訓練,省去中間的文字轉錄,即使出現錯誤,生成的輸出語音在聲音上聽起來和輸入語音的原意會更接近,聽者能更好理解
評論
Google 
評論

今年 I/O 上 Google 展示了對語言障礙者的最新計劃,Project Euphonia 團隊透過 AI 幫助語言障礙者也能進行溝通,過去像是漸凍人、中風、帕金森氏症等神經系統疾病患者在溝通非常有挑戰性。

Project Euphonia 團隊透過 Google 軟體將錄下的語音轉成聲譜圖,或以更視覺化的圖像方式來呈現聲音,再利用聲譜圖訓練系統,優化機器辨識這些非典型的語音資料。

近日,Google 在官方文章上再公布了最新的進度,新的深度神經網路研究,推出新的計劃 Parrotron,Parrotron 由單個端到端深度神經網絡訓練而成,能將自非典型語音模式的說話者(可能是漸凍人、聽障者)一般人與電腦較難辨識的語音,直接轉換為流利的合成語音,且過程完全不需要另外生成文字,跳過語音辨識的中間步驟。

Google 

在今年 Google 東京舉辦的 AI 機器學習論壇上,Google 也在多個「AI for social good 」專案中,將 Project Euphonia 作為案例,表達出用科技讓身障者能重新與世界連結的決心,過去自使用 Google Home 等語音助理對他們來說是遙不可及的。

Google AI 產品經理 Julie Cattiau 說明藉由新的語音辨識模型,語言障礙人士能透過此讓機器聽懂指令,也能用可辨識手勢、眨眼等的電腦視覺模型,讓語言障礙者更獨立表達。

Google AI 產品經理 Julie Cattiau 在Google 東京 AI 論壇

Google  在新文章中指出,Euphonia 已經建立了語言障礙者個性化的語音轉文字模型,輸出語音到 TTS 系統再從結果合成語音,將聾啞人士的單字錯誤率從 89% 降低到 25%,實現與 Parrotron 類似的目標。

然而,在這樣的方法中,機器可能選擇到不正確的單字產生具有其他含義的單字/句子,讓溝通上產生誤差。而藉由 Parrotron 端到端語音訓練,即使出現錯誤,生成的輸出語音在聲音上聽起來和輸入的語音會更接近。

Google 找來患有失聰的工程師 Dimitri Kanevsky,他也是 Google 語音研究員,錄製了15小時的語音資料庫,透過 Parrotron 系統的幫助,不論是語音辨識系統還是人類觀眾,都更聽的懂他的語句。

相較之下於過去的語音模型及數, Parrotron 是語言障礙的人士更精準的「傳聲筒」,在論文討論關於 Parrotron 更多應用,在 Github 中也能找到其他音頻樣本,有興趣的讀者也能前往查看。


佈局未來需求! Viva TV 導入 Seagate 儲存解決方案,打造可「與時俱進」的海量影音資料庫!

「電視購物」的概念自 80 年興起後已有超過 40 年的歷史,目前國內也有多間經營近 20 年的電視購物頻道,在面對網路電商、直播帶貨…等新型態的銷售方式,電視購物業者如何做到「進可攻,退可守」?
評論
Photo Credit:Viva TV
評論

在 2000 年左右,隨著東森購物、富邦 momo 與 Viva TV 美好購物…等多個電視購物頻道陸續開播,也引發一波「看電視,打電話買東西」的熱潮,全盛時期電視購物頻道的收視人口甚至覆蓋超過全國總人口的一半,潛在營收規模上看新台幣千億元。

不過隨著網路電商的興起,以及後來寬頻網路與行動網路的普及,帶動了網路串流影音內容的發展,也大大影響了電視購物頻道的營收表現,除了因應轉型 EC 電子商務業務,國內知名電視購物頻道之一的 Viva TV 美好購物也選擇站穩腳步,鞏固現有業務,透過優質的節目內容為消費者創造價值,同時也進一步思索如何強化營運效能,找出未來創新的可能方向。

影音檔案龐大,儲存也需要講求效率

對於電視台來說,每日產出的影音內容,都需要被完整儲存下來,除了作為電視台日後參考使用的歷史資料,也需要符合政府法規制定的規範保留一定年限,日積月累,所需要佔用的空間真的十分可觀。以 Viva TV 自身為例,每日購物台會有數小時的全新節目,每一小時的影音內容達 15GB~18GB,因此每日最低就需要 150GB 的儲存量。

不過以購物台的內容形態而言,其實對於歷史資料的保留需求並不高,雖說目前從 2005 年開台至今的 SD、HD 影音內容都有完整保存,但公司內部其實也有歷史影音內容需求性與保存時間的討論,由於過去儲存資料的方式單純以「片庫」的形態來管理,所以資料的擺放其實相散亂,只要求基本服務的正常運作,但當需要查找檔案較龐大的舊影音時,就會遇到處理效能較為緩慢的問題。而當時建置的儲存系統廠商已無法解決效能上的問題,也因此最終考量建置全新的資料儲存中心,以便進行資料的搬遷與升級。

企業選擇儲存解決方案:容量、效率、穩定性三大條件缺一不可

近期 Viva TV 與知名儲存解決方案廠商 Seagate 希捷合作,導入企業級的儲存解決方案,採用兼顧大容量與高效能的 5U 高密度機架式存設備 ExoS X 5U84,搭配單碟 18TB 容量的 Exos X18 企業級硬體,打造總容量 1.5 PB(1,500 TB)的超大儲存系統。

Photo Credit:Viva TV
Viva TV攜手Seagate解決資料儲存問題

董事長室的專案規劃經理林振德與我們分享,對於 Viva TV 來說,選擇企業級儲存解決方案的三個主要條件,包括了「容量」是否符合未來內容成長需求,以及前面提到調用資料的「效率」問題之外,另一個絕對必要的就是產品的穩定性與廠商在系統整合支援的能力。

在「容量」評估方面,考量到過去舊有儲存系統已經有 300 TB 規模的資料量,以及未來資料增長的需求,Viva TV 評估需要更大的總容量,同時為了限縮主機佔用的機架空間,因此單一磁碟的儲存量與整個儲存系統的儲存密度就顯得更為重要,也因此選用 Seagate 單碟 18 TB、可擴充達 84 顆硬碟的儲存主機就獲得 Viva TV 的青睞,同時以單位儲存價格比來說,Seagate 也是目前市場上極具競爭力的選擇,也為企業節省不少成本。此外,在「效率」的表現方面,Exos X18 提供進階寫入快取機制,能提供 270 MB/s 的傳輸效率,而 ExoS X 5U84 也內建雙控制器配置,最高傳輸量達 5.5GB/s 寫入;7GB/s 讀取,能滿足資料隨時調用的需求。

除了實際使用上的需求,對於所有企業而言,資料儲存的「穩定性」絕對是重中之重,若是發生硬體方面的問題,受到影響的部門眾多,也會影響整個電視台的營運;而 Seagate 不僅在 Exos X18 企業級硬碟提供高標準的每年 550TB 工作負載率、250 萬小時的 MTBF(平均故障隔時間) ,高密度機架式存設備 ExoS X 5U84 也提供 ADAPT 功能的備援熱插拔控制器、備援熱插拔硬碟機、風扇、雙電源線、熱待機備用、自動容錯轉移與多路徑支援…等提高可用性的機制,另外更為重要的是,Seagate 提供的系統整合服務極為完善,無論是售前或是售後都能保持極為暢通的溝通管道,能即時滿足技術上的支援。

雲端化現階段還未能滿足影音內容應用需求

由於影音檔案的儲存量極為龐大,林振德表示,除了單純解決「如何存放」的問題,能夠有效率的依照需求來調用資料更是一大關鍵,而他們也曾比較過自有的儲存中心與雲端化的儲存服務,除了「成本」是主要考量之外,「應用」更是一大關鍵,尤其是資料上下雲端所需要花費的時間可能會是本地端複製的數倍,可能無法滿足實際使用這些備存檔案的需求;像是過去 Viva TV 就曾經遇到需要配合檢調單位調出特定產品的資料時,就要一次找出不同年份、時間有曝光產品的節目內容,檔案規模也高達數百 GB,光是本地端匯出資料就耗費大量時間,若是真的採用雲端化儲存,恐怕花費的時間會增加數倍,同時單純靜態資料的固定備份,也將增加日常維運的時間成本。

現階段 Viva TV 仍以本地端磁碟儲存系統為主要解決方案的主要理由還是在於龐大儲存量的需求,雲端的成本仍舊偏高,再者就是資料上雲後,資料下載時的速度是否足夠,以實際需求面來說,影音儲存的目的並非單純的「稽核備份」,能夠「隨取使用」更是一大重點。

迎接 8K 世代,「與時俱進」絕對必要

電視產業的大環境變遷絕對是目前面臨最大的挑戰,近幾年因為疫情影響,也可以發現到競爭對手搭上電商需求的浪潮轉型成功,不過對於電視購物這一個領域,Viva TV 對於未來發展仍舊看好,如何內容做到更好會是聚焦的重點,在堅守本業的同時,與 EC 整合,同時吸取網路直播帶貨、低成本形態的媒體營運模式之長,做出內容拍攝、銷售形態的轉變將會是下一階段的目標,畢竟年輕族群接收資訊的主要管道已非電視平台,如何拉回這些人的目光焦點會是非常重要的關鍵。

Photo Credit:Viva TV
Viva TV積極做內容優化,看好未來市場仍大有可為。

除此之外,在電視節目由 SD 轉變為 HD 之後,下一步可能會直接跳過 4K 而進入到 8K 世代,以目前公眾平台的傳輸基礎量來評估,2 至 3 年後台灣的收視就將進入到 8K 市場,目前已有業者正在實測營運 8K 影音內容,而這也將會是電視購物頻道下一階段要面臨的挑戰。

單位資料量比現有 HD 等級高出數倍的 8K 超高畫質內容,可符合儲存容量且高效穩定的數位儲存系統,對於電視台來說絕對會是必要的投資項目,以 Viva TV 所導入的 Seagate 企業儲存解決方案來說,已經能夠因應未來 5 年的實際使用需求,同時也兼具「與時俱進」的擴充彈性,從容不迫地面對下一階段的挑戰。