比人類更快更好!逐字稿 AI 準確率達 97%,百度推免費語音辨識省下四成工時

評論
評論
Photo credit: SwiftScribe 首頁截圖

原文刊登於 騰訊科技 ,INSIDE 獲授權轉載。

百度人工智慧中的語音辨識技術正在變革速記產業。

近日,百度宣佈推出一款能將音訊轉化為文字的 SwiftScribe 網頁程式,將改變完全依賴人工的速記業現狀。該網頁程式背靠百度深度語音辨識系統,將音訊文件轉為文本,轉化效率較人工速記快 1.67 倍。

百度首席科學家吳恩達認為,這支程式將改變採訪和影片字幕生成,他在社群網路上評論稱:「該程式非常適合將長語音轉換為文本的人士,人工智慧將實現 1+1 大於 2 的效果。」

具體應用方面,用戶可在 PC 端打開 SwiftScribe 網頁程式,選取 wav 和 mp3 格式的文件上傳,系統就能馬上進行處理,時長 1 分鐘的音訊文件可以在 30 秒內轉換完成。用戶可使用鍵盤快捷鍵就能進行加快播放、倒帶和添加換行符號等操作,處理完成後,只需人工調整大小寫、標點及部分拼寫細節即可快捷、準確地完成音訊轉換。

從使用效果看,SwiftScribe 可為速記員帶來 1.67 倍的效率提升,縮短 40% 的工作時間。目前該系統可處理 1 小時內的音訊文件。

據悉,百度首先會邀請 30-50 名速記員對該程式的測試版本進行測試。

百度方面透露,該程式未來會增加影片文件的語音辨識及自動添加標點符號等功能,並支援更多文件格式,降低用戶使用門檻。

此次推出的 SwiftScribe 網頁程式,靠的是百度新一代深度語音辨識系統 Deep Speech 2,該系統曾被《麻省理工科技評論》評為「2016 年十大突破技術」之一。通過利用長達數千小時的語音數據訓練,Deep Speech 2 可以不斷「學習」從語音中辨識特定的字或詞。

2016 年 9 月 1 日,在 2016 百度世界大會上,百度董事長兼執行長李彥宏表示,百度語音辨識的準確率能夠達到 97%,已經超過了人對語音的辨識能力。

據瞭解,百度在 2016 年推出了程式 DeepSpeech2 的安卓輸入法 TalkType,讓用戶能夠用語音快速輸入文字。百度矽谷人工智慧實驗室項目領導人 Bijit Halder 在公告中稱:「TalkType 是首款智慧語音優先輸入法。」

對話機器人將成為 2017 人工智慧的發展風口,百度吳恩達曾在接受《華爾街日報》採訪時表示,隨著準確率的提高和用戶體驗的提升,百度的語音產品已度過用戶心目中的「試用期」。在語音產品高速發展的大環境下,亞馬遜、蘋果、 Google 和微軟等科技巨頭都在加緊研發各自的語音辨識技術。

中國的智慧語音及語言技術、人工智慧技術研究公司科大訊飛,先前已經推出了以語音轉文字為核心業務的轉抄服務平台——訊飛聽見網。據該網站介紹,科大訊飛的機器轉抄服務一小時音訊需約 5 分鐘轉抄成稿。如果是音質清晰、咬字標準的音訊,轉換正確率可達 90% 以上。

目前,百度 SwiftScribe 音訊轉換服務免費對外開放。據百度方面人士透露,未來希望將該程式轉向商業化軟體發展。

評論