隨著 iOS 11來襲,蘋果如何做到讓 Siri 的聲音更像真人?

評論
Photo Credit:iphonedigital
Photo Credit:iphonedigital
評論

本篇來自合作媒體 36kr,INSIDE 經授權轉載。

語音助理最先是由 Siri 帶起熱潮的,但現在的蘋果已經被 Amazon 和 Google 拖到後面。不過以追求完美為目標的蘋果自然不會就這麼讓 Siri 沉寂下去,過去幾年的時間了,蘋果的團隊一直在攻關一個計畫,那就是讓 Siri 說話更像人。團隊負責人認為,現在 Siri 已經取得了巨大飛躍,在不久後的 iOS 11 中,用戶就能感受到它的風采了。Siri 說話是怎麼變得更像人的呢?《連線》雜誌的這篇文章為我們揭秘。

Alex Acero 第一次看《她》的時候是以一個正常人的方式去觀看的。但第二次的時候,他根本就沒有看電影。Acero 是蘋果負責 Siri 背後技術的主管,這次他就坐在那裡,緊閉雙眼,傾聽 Scarlett Johansson 是如何給她的人工智慧角色 Samantha 配音的。他注意了她是如何跟 Joaquin Phoenix 扮演的 Theodore Twombly 交談的,以及 Twombly 是如何回話的。Acero 試圖弄清楚 Samantha 是怎麼讓一個從來都沒見過她的人愛上她的。

為什麼聲音會工作得那麼好?當我問到 Acero 這方面他了解到什

麼東西時,他笑了,因為答案太明顯了。他說:「因為自然!因為那不是機器人!」這對於 Acero 來說幾乎都算不上是啟示。這基本上只是確認了他的團隊過去幾年做的計畫是對的:這個計畫的目標就是讓 Siri 聽起來更像人。

今秋,當全球各地安裝 iOS 11 的 iPhone 和 iPad 數量達到數百萬的時候,該新軟體就會給 Siri 換一個新的聲音。它不會引入很多新功能或者把笑話講得更好笑,但是你會注意到其中的不同。Siri 現在講話會有更多的停頓,在停頓前先把音節拉長,說起來有一種抑揚頓挫的感覺。字句聽起來更加流利,並且 Siri 也會講更多語言了。總之,聽它講和跟它講都感覺更好了。

蘋果用了幾年的時間來重新構建 Siri 背後的技術,將它從一個語音助理變成了支援你手機的一切人工智慧的一個包羅萬象的統稱。它已經在不懈地擴張到新的國家和語言(儘管犯過不少錯誤,但 Siri 仍然是目前市面上最通俗的個人助理)。蘋果也從一開始的慢慢地到現在的迅速地,致力於將 Siri 普及到每一個地方。而且 Siri 現在已經歸蘋果的軟體負責人 Craig Federighi 掌管,這表明 Siri 對蘋果的重要性現在已經跟 iOS 相提並論。

這項技術好到能讓你跟你的虛擬助手墜入愛河還需要一段時間。但 Acero 和他的團隊認為自己已經取得了一次巨大飛躍。他們還堅定地認為,如果自己能讓 Siri 說話不那麼像機器人而更像你認識和信任的某人的話,他們就能把 Siri 做得很棒,哪怕 Siri 會有失敗的時候(注:因為人也會犯錯)。而這個在 AI 和語音技術尚處早期階段時,可能就是最佳場景了。

Siri 長大了

為什麼蘋果喜歡控制自己產品的一切?如果你想找個好例子的話,只需看看 Siri。自從推出 6 年後,Siri 在這場虛擬助理的競賽中大部分已經落後。Amazon 的 Alexa 得到了更多的開發者支持;Google Assistant 知道更多的東西;這兩個在很多不同公司許多類型的設備上都能找到。

蘋果說這都是自己的錯。Siri 剛推出的時候,是另一家公司提供語音識別的後端技術。那家公司是誰?一切跡象均指向了 Nuance,儘管蘋果和 Nuance 均從未承認過有合作關係。不管這家公司是誰,蘋果都樂於把 Siri 的早期問題歸咎到它的身上。蘋果負責產品營銷的 CP Greg Joswiak 說:「這就像是在賽跑,有人在拖我們後腿。」Joswiak 說蘋果已經給 Siri 制訂了一個大計劃:「做你可以在手機上對話的助理,可以用更容易的方式幫你做這些事」只是技術還不夠好。他說:「你懂的,輸入不行的話,輸出也不行。」

幾年前,Acero 領導的這支蘋果團隊控制著 Siri 的後端以及體驗改進。現在 Siri 的基礎已經變成深度學習和 AI,因此得到了巨大改進。Siri 的裸語音識別可以與任何競爭對手匹敵,可正確識別 95% 的用戶講話。這款 AI 工作於兩個不同的關鍵模式:語音轉文本,也就是 Siri 弄清楚你說什麼,以及文本轉語音,也就是 Siri 會進行回話。

在眾人的聲音中(尤其是當這些系統變得愈發個性化時)分辨你的語音是 Siri 最重要的工作之一。Siri 掌握的數據越多,蘋果的模型就會越好,它就越能分辨不同的人,甚至能理解很重的口音。這還會變成一個安全問題:研究人員最近發現,他們能夠以高到人類無法聽見的頻率跟 Siri 溝通,從而使得破解不被發現。Siri 需要學會區分人和機器的語音,以及你的和別人的語音。

學會講話

有一個辦法有助於理解這些系統的工作方式,那就是看看蘋果怎麼教 Siri 學習新語言。在把 Siri 引入新市場——比如說上海時——團隊首先會尋找已有的語言數據庫。然後透過僱用配音員,讓這些人讀書、讀報以及讀網上的文章等來豐富這個庫。

蘋果的團隊會轉錄那些錄音,把單字跟聲音對應上—更重要的是,要識別音素,也就是構成所有話語的獨立聲音(在英語中,“fourteen”是個單字,而“e”這個英就是音素)。他們試圖以各種能想像得到的方式來捕捉這些音素:在詞尾的時候變弱,在開始的時候加強,停頓前拉長,疑問句末變成升調等。每一種表達都有著略為不同的聲波,蘋果的算法會對此進行分析,找出任何特定句子的最合適表達方式。Siri 說的每一句話都包含了幾十或者幾百個這樣的音素,就像是用不同雜誌裡面的字母拼湊出來的勒索信。你聽到 Siri 說的話裡面可能沒有一個字是透過錄音出來的。

再給個例子:“You want to watch this?(你想看這個嗎?)”和“I like your watch(我喜歡你的手錶。)”第一句的情況下,Acero 說到’’watch”時聲音會自然提高,但是在第二句的時候就會變成降調。Acero 說:「單字還是一樣的單字,但發音就完全不一樣了。」在這兩個句子中他都無法使用單字“watch”的同一份錄音,或者甚至是相同的音素。“one Siiiix NINE fourteenth STREET PhilaDELphia”,發音就像你的老式 GPS 導航那樣的系統是很難聽的,尤其是單字數量比較多

時。

即便在幾年前,電腦和服務器也還不能提供足夠的處理能力來遍歷一個龐大的數據庫,為每一次呼叫和響應找到完美的聲音組合。不過現在他們可以了,Acero 和他的團隊想要到盡可能多的數據。所以在做出了初始模型之後,他們馬上就以所謂的「僅收聽模式」推出 Siri。這種模式下你不能跟 Siri 對話,但是可以按下麥克風按鈕然後下達語音指令或者進行 web 搜尋。這個給蘋果的機器提供了很多不同口音、不同品質的麥克風以及各種情況下的輸入,這一切都讓 Siri 做得比比人更好。蘋果收集(自稱是匿名模式下的)和轉錄這一數據,然後改進算法和訓練神經網路。他們還給機器補充了位置相關數據以及說話習慣—比如 3:0 美國的說法是 three-zero,而英國則是 three-nil—然後繼續調整系統,直到 Siri 對什麼是上海話以及大家是怎麼說上海話有著近乎完美的理解。

與此同時,蘋果還進行了一場浩大的尋找合適配音員的行動。他們從成百上千人開始,讓這些每個人都錄一段 Siri 可能會講到的話。然後 Acero 跟蘋果的設計師和使用者介面團隊一起來決定最喜歡哪一個聲音。這一塊其決定作用的更多的是藝術而不是科學—他們一邊聽,一邊試圖找感覺,那種難以言喻的感覺,最好要有幫助感和親切感,中氣十足又不要太尖銳,有快樂感但又不能太卡通。

接下來的部分就是科學了。Acero 說:「很多配音員的聲音都很好聽,但這並不意味著這些聲音就適合於語音合成。」他們用自己建立的名為音素變異性的模型來對這些講話進行測試,看看每一種細微的表達方式的聲波左右側的差異性如何。一個音素的變異性太多會使得把很多音素組合起來的時候很難發出自然的聲音,但你在聽它們講的時候是聽不出問題來的。只有電腦才能看出不同。Acero 說:「這幾乎就像在牆上貼牆紙,你得留意接縫才能確保對齊。」

在找到了發音同時令人和電腦感到滿意的那個人之後,蘋果用了幾週的時間去錄製聲音,然後這就成為了 Siri 的嗓音。Siri 支持的 21 種語言(針對 36 個國家進行本地化)都是按照這一流程進行的,這個數量超過了其所有主要競爭對手支援的語言總和。每個月加起來有 3.75 億人在使用 Siri。這是個很大的數字,對於一個嚴重瑕疵數不勝數,很多人直搖頭的語音助手來說更是如此。

儘管如此,與全球 10 億多的蘋果設備相比這個數字仍略顯蒼白。從 iPhone 到 Apple Watch,從 Macbook 到 Apple TV,蘋果銷售的幾乎所有東西都包含有 Siri。不過分析師預計,很快就會有超過 5 億的 iPhone 會被同時開通。Siri 是一個流行且重要的功能,但還算不上無所不在。對於大多數人來說,這個功能絕對不是必不可少的;你對 Siri 的功能需求並不像對手機的需要那樣。現在蘋果已經有了一位自己信任的助理,它必須教會大家怎麼去用 Siri。

儘管問我吧

蘋果推 Siri 的意圖是什麼呢?你想知道的一切都可以在 這則 裡面找到。影片追蹤了 Dwayne Johnson(巨石強森)在夥伴 Siri 陪伴下一天的生活。強森用 Siri 查看日程安排,用 Siri 啟動 Lyft,當然,開車的還是他;他還一邊飆車一邊查天氣;在西斯廷教堂畫壁畫的時候用 Siri 收郵件;在兩個手沒有空的時候用 Siri 進行單位換算;在太空的時候進行 Facetime 還拍了個自拍。Siri 稱他是「Big、Bald 和 Beautiful 先生」,希望這個聲音到 iOS 11 的時候聽起來不再那麼的不舒服。

Joswiak 說,從一開始蘋果就希望 Siri 成為肝臟活的機器。大家透過問一些瑣碎的問題來比較虛擬助理的方式令他感到發瘋,因為這使得 Siri 看起來很糟糕。他說:「我們設計 Siri 不是讓你打破砂鍋問到底的!」

相反,Joswiak 仍然專注於幫助大家在一位自動化朋友的幫助下做更多的事。他指出 Siri 可以在 Mac 上執行複雜的文件搜尋,護著即將推出的 HomePad 對音樂的深厚知識。另一個例子出自我們見面的幾天之後,當時 Siri 的語音搜尋和控制贏得了艾美獎的一項技術性獎項。它可以下達一些非常出色的指令:「嘿 Siri,回放 2 分鐘,然後你就能重新聽一遍。」

Siri 不是萬能的,甚至大部分事情都不能做。它最有用的地方是可以讓你少敲幾個字,少滑動幾次螢幕,而不是替你解決複雜的瑣事或者跟你辯論我們是不是生活在虛擬世界裡面。但因為 Siri 展現出了無限性,因為你可以問任何事情—用戶自然就想什麼都試試。Acero 說:「使用者知道自己可以說什麼是很重要的。」他的工作之一就是要幫助 Siri 改善溝通技巧,同時在失敗的時候要表現得優雅。他說:「我們在努力賦予 Siri 這類能力,也就是知道什麼地方自己不知道。但這是個很困難的問題。」蘋果網站,甚至包括它的商業廣告,都是為了幫助大家更好地理解 Siri 可以做什麼,不可以做什麼。

評論