【Google I/O 2019】AI 黑科技展示:看懂、聽懂,比人類更懂你的助理

跟手機互動更自然!喊一聲 Stop 就能關鬧鐘。 Google I/O 開場這一段有不少小而貼心的新服務,背後靠的是 Google 技術力與廣大服務的深度整合,真正走入生活。
評論
▲助理自動幫你線上租車。Photo Credit: Google I/O 截圖
▲助理自動幫你線上租車。Photo Credit: Google I/O 截圖
評論

Google 的 AI 助理年年的進化都令人驚艷,今年 Google I/O 一開場桑達爾皮蔡就展示了一連串從圖像、文字、語音甚至聲響辨識、語音合成等技術整合各項現有資料與服務的應用,AI 不僅有了眼、耳、口,甚至還能和背後的大腦結合並提供服務。這些需要深厚的軟體技術實力,而且大部分今年就能推出。

從聊天室反應看來,對那些為了 Pixel 3a 而來的觀眾來說,這一段展示可能有點無聊,但可以看出 Google 服務未來的大藍圖,甚至網友最愛開玩笑的 AI「天網」雛形。

Google IO 2019
▲話題新聞依時間軸排列。Photo Credit: Google 直播

Google 搜尋

Google 搜尋將加強熱門新聞和 Podcast 內容的展示,以黑洞這個熱門話題為例,搜尋結果將整理出各個面向的主題分類,下方甚至會列出文章時間軸。

現在搜尋結果也會推薦 Podcast ,並且可以在搜尋結果直接播放或者存到播放清單。

另外還可搜尋 3D AR 圖片,並且直接投放到所在環境,可以直接查看人體骨骼模型的細節或者將 AR 鞋子搭配現有的衣服。

google IO 2019
▲Google Lens 點菜單。Photo Credit: Google 直播截圖

Google Lens

Google 已經在全球被使用數十億次,而深度整合服務下 Google 稱之「將現實索引化」,比如將鏡頭指向菜單就能直接圈出熱門菜色,並且打開餐廳的 Google Maps 頁面,展示菜色的評價;當鏡頭指向帳單就可以跳到計算機畫面。

Google 這次也瞄準一些更細微的生活問題,比如針對不識字或閱讀困難者 Lens 可以辨識並把文字直接唸出來,甚至翻譯成不同語言。除了歐美語系以外,印度、日語、韓文、中文也有支援。

Google IO 2019
▲皮蔡示範 Duplex 上網租車,Photo Credit: Google 直播

幾可亂真的語音助理預約 Duplex

先前激似真人對話,可以直接打電話幫你預約餐廳的語音助理技術在 I/O 一出,嚇傻一票觀眾,在美國 44 州推出後也因店家有疑慮,一接通會先聲明這是機器助理打來的電話。

現在這個服務推出了文字版。透過網上表單預約常常得填寫落落長的欄位和無數頁面,現在 Google Duplex 會依據你的日曆、Gmail 等推測你的活動日期,自動填入預約資訊,使用者只要在每個步驟微調並做最後確認即可。

Google IO 2019
▲可以完全用語音寫 email 並填寫標題送出。Photo Credit: Google 直播

語義理解更加人性化

這次 Google 強調在裝置端邊緣運算的 AI 演算法,縮減演算法所佔的容量大小,並加快速度十倍快,現場也展示可以透過語音與 Google 助理連續對話,並在不同 app 之間快速切換,就像精彩的拋球雜技一樣。

例如現場示範不碰螢幕,用語音回覆訊息、開啟相簿搜尋圖片、分享回訊息中。打 email 時可以辨識哪些是指令(設標題、送出),哪些是信件內容。這裡也示範另外一個小而讓人眼睛一亮的功能,就是直接喊「stop」就可關閉鬧鐘,不必動手,但看起來似乎更容易賴床了。

助理搜尋間的內容也更加個人化,路線設定和活動都不需要多餘的解釋。另外在車上的駕駛模式將優先顯示 Google 認為你最需要的內容,來電會將通話對象大聲朗讀出來,不必將視線離開道路。

控制隱私又維持 AI 進化

就像幾週前 Google 公布可以設定自動刪除歷史紀錄,這次 Google 強調更容易管理個人隱私資訊,除了在界面上將重點項目放在更顯眼的地方,並且會將自動刪除功能套用到更多服務。

現在除了 Chrome、YouTube、Maps 都將新增無痕模式,可以不紀錄你搜尋、要去或去過的地點。

另外 Google 保護使用者隱私卻又能讓 AI 持續進化的 Federated Learning,不會上傳特定使用者的資料,但會透過終端裝置的整合,再將結果上傳到全球資料庫。以 Gboard 鍵盤為例,詞庫將不會出現個人的詞語習慣建議,而是建議所有人最常用詞彙。

Google IO 2019
Photo Credit:Google 直播

語言障礙輔助計畫 Euphonia

Google 雖然推出一連串語音操控功能,但世上仍有不少說話有困難者,現場展示了讓中風者語音訓練 AI,經過訓練他人模糊難以辨識的語句也能為 AI 辨認,甚至不用完整語句只要發出不同聲響、移動眼球就能達成特定操控。

Google 也邀請語言障礙者加入 Euphonia 計畫,來讓這類辨識能更加準確。

對於不方便接聽與答覆電話者,也可以透過語音助理直接將對話轉變成文字顯示,並以語音助理回話。

另外還有個亮點:即時字幕。現在 YouTube 影片已經可以在手機端自動即時生成英語字幕,接下來在 Android Q 將可以即時幫各種影片上字幕,包括自己拍的相簿影片、其他網站上的影片,可以幫助聽力障礙或者在不方便開啟聲音的狀態下更舒適地觀看影片。