耗費近十年,這群人竭盡一切技術與精力只為拯救霍金的聲音

評論
評論

本篇 原文The quest to save Stephen Hawking's voice》,經合作媒體 36 氪 翻譯,INSIDE 授權轉載。編按:霍金是無神論者,不相信來世;但他的聲音會永遠存在下去。

著名物理學家史蒂芬·威廉·霍金(Stephen William Hawking, 1942 -- 2018)因其在宇宙論和黑洞領域的研究而聞名於世,他那標誌性的機器人式聲音也早已成為了他身份的一部分。現代科技的發展日新月異,合成語音領域也大有突破,聽上去更加自然,不再那麼機械式。

霍金其實有很多的機會可以採用升級版本的語音合成器,但他卻一直鍾情那同一款設備發出的機器人式聲音,原因何在?有三十多年來,霍金用的一直是同一款語音合成設備,長久使用後設備耗損,霍金背後的團隊又是如何幫助他重塑他所鍾愛的這一獨特機器人式聲音呢?

三十年前的初次結緣

週二(2018 年 3 月 14 日)晚上, 62 歲的工程師 Eric Dorsey 正在帕羅奧圖的家中看電視,之後他的手機開始陸續收到史蒂芬·霍金去世的消息。他打開相關新聞報導,看到其中穿插著這位著名物理學家用他標誌性的機器式語音發言的剪輯片段,這個聲音正是 Dorsey 在過去投入了大量時間和心血幫助創造出來的聲音。

要說 Dorsey 和霍金第一次見面大約要追溯到 30 年前。那是 1988 年 3 月,霍金在為期三週的巡迴演講安排中來到了加州大學柏克萊分校。

當時霍金只有 46 歲,因其在量子物理學和黑洞方面的發現而為人所知,但知名度遠沒有現在那麼高。當時,距他現在的暢銷書《時間簡史》發行恰巧還有一周的時間,加州人對這位來自劍橋大學的英國教授充滿了好奇,演講報告廳座無虛席,擠滿了來聽他講座的聽眾。

霍金乘坐電動輪椅進入報告廳,來到演講台中央,他的輪椅坐墊是紅褐色的羊皮材質,只需輕輕撥動操縱桿,這台輪椅就能靈巧地四處移動。離開身邊的看護上台之後,霍金便麵向觀眾席咧嘴一笑。

之後,他開始了這次的演講,在他說話時,可以聽到從他輪椅後方固定的一個灰色盒子中發出一種機器人式的聲音。當時他所用的這款被稱為 CallText 5010 的商業語音合成器還是一種很新奇的東西,也尚未成為霍金的一個身份標誌。

霍金是在由於運動神經元肌萎縮側所硬化症而失去語言能力之後才開始使用這款產品,距他這次巡迴演講也只有短短的三年時間。霍金透過移動臉部位置在螢幕上選擇自己想要說的文本內容,然後由 CallText 將文本轉換為語音。曾經在一次講座開始時,霍金開玩笑說:「(這台設備)唯一的問題在於它讓我變成了美國口音。」

Dorsey 當時是在負責生產製造 CallText 5010(一個硬體主機板,配載兩個運行訂製軟體的電腦晶片)的 Mountain View 公司工作,他作為這款語音合成器的權威人士,在本次巡迴演講中大部分時間都與霍金同行,負責向在座記者解釋這款設備的工作原理。

當時 Dorsey 只有 32 歲,正值青壯年的黃金時期,他話不多,但工作起來很有幹勁,很有上進心。他最初以實習生的身份加入 Speech Plus,正是被其致力於幫助失語人群和相關殘障人群的使命所吸引。現在,32 歲的他已經成為了一個工程師團隊的負責人,在 CallText 這個讓霍金發出聲音的產品中至少有兩萬行程式碼是由他寫成。

在一次講座臨近尾聲時,霍金這樣說道:「我們為什麼在這裡?我們從哪裡來?對於這些古老問題的答案,我們現在正在一步步靠近。感謝你們聆聽這次講座。」

在霍金的本次加州州巡迴演講結束之時,他送給了 Dorsey 一本親筆簽名的《時間簡史》,並將自己的指紋永久地留在了封面內頁。隨後,霍金回到了劍橋, Dorsey 也回到了加州的工作崗位之中。直到二十六年之後,他們二人才再次產生了交集。

此時已是科技的時代,一個全新的千禧年時代。這是屬於網際網路的時代,矽谷科技事業經歷了蓬勃發展、破滅而後再次崛起的歷程,誕生了蘋果、亞馬遜、Facebook 和 Google 等大型科技企業。

在這期間,Speech Plus 破產,被出售給了一系列其他企業, Dorsey 也從這裡離開。在這期間, Dorsey 也走過了娶妻生子的人生歷程,最後完全離開了語音技術領域,成為了 DVR 製造商 TiVo 的工程部負責人。

在他看來,科技的發展是那麼迅速,「每年都會有新款 iPhone 面世,似乎一切都會以迅雷不及掩耳之勢被埋葬在歷史的塵埃中。」

三十年後的交集

也正是因為如此,當 2014 年一封來自劍橋大學的電子郵件毫無徵兆的出現在他的收件箱時,他感到十分地不可思議。這封郵件來自霍金的技術助理 Jonathan Wood,也是霍金通訊系統的負責人。

Wood 在郵件中所說的事情聽上去似乎根本就不可能,以至於 Dorsey 一開始都沒有看懂。Wood 表示霍金現在仍在使用 CallText 5010 語音合成器,也就是他之前使用的 1986 年升級版本。這就意味著近三十年來,霍金一直沒有採用其它的新技術產品。

他喜歡這樣的機器人式聲音,並固執地拒絕了其它一切的替代產品。但現在,他用的這款 CallText 5010 語音合成器在長期的使用之後,已經有了不小的耗損。一旦出現重大故障,這台機器直接罷工,那霍金將永遠失去他這獨特的標誌性聲音。

Wood 認為,要想解決這個問題,需要將這款效能正在不斷衰退的硬體複製到新軟體中,透過某種方式將已經用了 30 年的語音合成器植入到現代的筆記型電腦中,同時又不改變原來的聲音。多年以來,他同劍橋的幾位同事一直在嘗試透過不同的方法去解決這個問題。但每次都事與願違,於是他不得已向 Dorsey 發起求助,想問一下他的想法。

要問 Dorsey 怎麼想?他在心裡吶喊:「已經用了三十年了?天哪!」

這還真不是一件簡單的事情。他們可能必須要找到以前的程式碼才行,也可能必須要找到原始晶片以及這些晶片的指導手冊才可以。但這些他們再也買不到了,因為這些公司已經不復存在了。解決這個問題可能意味著進行一場考古挖掘,去追溯古老的科技時代。

但縱使再困難又怎樣,這個問題困擾的不是別人,而是史蒂芬·霍金。

「讓我們來搞定它」, Dorsey 給出了這樣的回覆。

這是霍金喜歡的聲音

美國著名詩人朗費羅(Longfellow)曾寫道,人類的聲音是「靈魂器官」。相比我們人體的其他器官功能,聲音更能夠表達我們的身份,聲音裡哪怕最細微的一些變動也會存在意義上的不同,而這是電腦很難去理解的一點。

在說出一個句子時,我們是採用升調還是降調取決於我們是在發表一個肯定的聲明還是在提出一個問題。我們在處理語調的時候根本就無需思考,但對於電腦來說,他需要去猜測我們想要表達的意圖。

Patti Price 和 Eric Dorsey

現在包括蘋果 Siri 在內的語音合成器依靠的是預先錄製的自然聲音庫。先由相關專業人員錄製大量的單詞和音節,形成一個聲音庫,然後由軟體來將其打碎,重新組合成句子。Patti Price 是帕羅奧圖的一名語音識別專家兼語言學家,他表示在 30 年前,電腦只能產出一種「單線條版」的聲音。

當時,Price 還在麻省理工學院跟隨 Dennis Klatt 攻讀博士後學位,Klatt 是來自威斯康辛州的一位科學家,高高瘦瘦,愛好歌劇,他也可以被稱作是霍金聲音的教父。他採用 X 光掃描自己的喉嚨,觀測在發出某些聲音時自己的喉部形態,然後基於自己的聲音基礎之上,他開發出了一款語音軟體模型 Klatt Model。

而 Speech Plus 採用的正是 Klatt 開發的這款模型,並在此基礎上對其進行了改進,推出了包括 CallText 5010 在內的多款商品。 Dorsey 對此的貢獻之一是編寫出了一個演算法,用來控制語音的語調,以及單詞和句子的升降。雖然有許多客戶抱怨這種聲音太像機器人,但 Speech Plus 售出的 CallText 系統數量高達上千。

霍金喜歡這種聲音。

雖然聽上去很像機器人的聲音,但它很容易理解,這點讓霍金十分欣賞。 CallText 系統聲音聲波形狀更像是連綿的高原形態,而不是人類自然聲音那種存在急劇升降的陡峭山崖。霍金喜歡這種聲音那平緩的聲波坡度,能讓他在圓形劇場和演講廳中瞬間穿透各種嘈雜的聲音。

他經常會用這樣一句話開始他的演講:「你們能聽到我說話嗎?」隨後觀眾席會報以熱烈的肯定回答。

Dorsey 說道:「這種聲音聽上去讓人感覺清楚易懂,你可以長時間的聽這種聲音,也不會產生厭煩的情緒。」

對這一聲音,霍金唯一的不滿就在於,它表達不出他的英式口音。

多年來,合成聲音產品開始採用更快地處理晶片以及更經濟的儲存空間,並且逐漸發展的更加自然,霍金其實有很多的機會可以採用升級版本的語音合成器。

1996 年,一家位於麻薩諸塞州、名為 Nuance 的語音技術公司收購了 Speech Plus 公司,並採用升級後的軟體程式碼對 CallText 進行了升級,升級後的產品聲音聽起來更加飽滿,語速更流暢,句子之間停頓時間更短,聽上去不再那麼機械。對於工程師而言,這顯然是一個很大的改進。

他們將這一新聲音樣本寄給了霍金,滿心歡喜地認為收到樣本的霍金一定會很高興。但結果事與願違。霍金不喜歡,他說這種聲音語調不對。他更喜歡 1986 年產品的聲音版本,也就是 Dorsey 貢獻語調演算法的那個版本。霍金表示自己仍然會使用之前的產品。

霍金曾說過:「我之所一直使用這個最初的版本是因為我沒有再聽到讓我更喜歡的聲音,我已經認同了這種聲音,它已經成為我身份的一部分。」他可以接受一種更平緩的自然聲音,但那樣聽上去就不像他了。

霍金的首席技術助理 Wood 表示:「對於霍金來說,這套設備就像是他身體的一部分一樣。如果要將其升級為新的軟體或硬體……那就相當於讓他改變自己的身體一樣。」

聲音拯救之路

大約從 2009 年開始,Wood 連同劍橋大學的幾位同事開始嘗試將霍金的「聲音」從日漸老化的 CallText 硬體中分離出來。小組成員包括劍橋大學電腦專家 Peter Benie、當地工程學生 Paweł Wozniak 以及與霍金相識已久、有著豐富經驗的電機工程師 Mark Green。

他們考慮的其中一個方案是對像 Siri 這樣的現代合成聲音進行調整,讓它聽上去更像是霍金的標誌性聲音。但是像 Siri 這種類型的系統依賴的是網際網路雲端的強大計算能力,而霍金不可能一直保持網路連接狀態。

Benie 還嘗試了另外一種完全不同的方法,他為 CallText 編寫了一款軟體模擬器,本質上也就是能夠騙過現代電腦讓它認為這一模擬器就是原來的 CallText 的一個程式。但是這樣一來出來的樣品聲音仍然無法滿足霍金的要求。

到 2014 年這個劍橋大學團隊嘗試與 Dorsey 聯繫時,他們正在進行第三種方法的探索:追踪原來的 CallText(現已屬 Nuance 所有)原始程式碼,並將其移植到霍金的筆記型電腦中,也就是將原來的聲音移植到一個全新的載體中。

這一方案可行嗎? Dorsey 無法回答。這取決於他能否找到原始程式碼,或者能否對程式碼進行反向還原。他開始給三十年來都未曾謀面的老同事發送電子郵件,詢問他們是否還能找到任何關於 CallText 的零組件,無論主機板、晶片還是指導手冊,其中有個人真的在車庫裡找到了一個 CallText 主機板。

在早期技術時代,人與人之間都存在一種瘋狂的競爭意識。但一旦有人需要幫助,各地的人也都會紛紛傾囊相助。 Dorsey 說道:「我們的目標就是能夠保留霍金的聲音,每當我去找別人幫忙,說出『我需要你幫忙一起來拯救史蒂芬·霍金的聲音』之後,他們立刻就會加入。」

他在帕羅奧圖最親密的合作者是 Price,這位語音技術專家曾跟隨被稱為「霍金聲音的教父」的 Klatt 修讀博士後學位。她是音頻樣本分析領域的大師級人物,能夠將樣本進行彼此的對比,並使用音頻指紋對它們的創建方式進行反向還原。

Dorsey 試圖追溯源程式碼的嘗試結果令人沮喪。Nuance 沒人能夠從 1986 年的 CallText 版本中找到原始程式碼。不過,他們確實在比利時一家辦公室的備份磁帶上找到了 1996 年升級版本的程式碼。幾個月後,Nuance 的工程師讓這些程式碼重新運行了起來,並向霍金團隊發送了一系列的音頻樣本,對程式進行了調整以實現與 1986 年版本聲音的匹配。

但這仍然未能得到霍金的認可。兩個聲音非常接近,但算不上完美匹配。對於其他人難以察覺的一些微妙的差異,霍金卻了然於心。Price 表示:「這就像是識別你母親的聲音一樣,當你透過電話聽到她們的聲音時,你只要聽一兩個音節,就知道是不是她了。」

除此之外,還有一個問題,那就是程式碼的所有者是 Nuance,而不是霍金。這位著名的物理學家長久以來一直想要得到對自己聲音的控制權,如果他的技術助理團隊能夠做到不再依賴這種別人所有的專利軟體,那他就能得到更多的控制權。

「我很喜歡」,霍金說道。

於是,他們改變了方向,回到了最初的探索路徑:用軟體模擬 CallText ,類似於用個人電腦來模擬已經不再市售的任天堂遊戲一樣。

但是, CallText 顯然比任天堂更為複雜,它是由兩個陳舊、複雜的互動晶片來驅動,其中一個晶片由英特爾製造,另一個由 NEC 製造。構造模擬器需要進行編程、需要精準的直覺判斷以及另外一系列高科技含量的複雜技術操作。

首先必須用鑷子和螺絲刀將晶片從備用的 CallText 主機板上取下,英特爾晶片模擬器必須由 Benie 從零開始編寫,另一個用作 NEC 晶片的模擬則是從一個名為 Higan 的開源 Nintendo 模擬器中借用而來。

並且,所有的這些操作出來的結果必須能組成一個整體來工作,這就像是在一個黑暗的房間裡玩拼圖一樣。每 10 毫秒的時間,一個晶片就會向另一個晶片傳遞一個神秘的資料封包,原理是什麼?這其中又有什麼玄機?

接下來的一段時間,他們都在十分艱難地推進這一項目,收效甚微。出來的音頻樣本質量很差,以至於沒人敢將這些樣本拿到霍金面前。

直到 2017 年聖誕節前夕,事情出現了轉機,模擬器終於開始發出類似於他們一直想要的那種熟悉的聲音。雖然其中還有一些小瑕疵,但據 Price 表示,這個聲音與霍金原來用的聲音非常匹配,波形幾乎完全相同。唯一可以察覺到的不同之處在於這個聲音沒有之前那種嗡嗡的小雜音。用 Price 的話來說,「這就像是一個打磨之後的更為乾淨、更為透亮的聲音。」

Benie 第一次聽到這個聲音時,這一次是從電腦中而不是像以往那樣從霍金輪椅上的音箱裡,他認為這個聲音相比霍金用的聲音,美式英語口音更濃一些。這其實只是他的一種聽力幻覺,之後 Benie 意識到,也許是由於自己之前每次聽到霍金講話,都會在心裡默默地給他腦補一絲英式口音的感覺。

接下來幾週的時間裡,位於劍橋和帕羅奧圖兩處的團隊成員繼續對這一新聲音進行調試,用霍金以前的一些演講片段以及充滿隨機停頓內容的樣本文本來對它進行測試,並分析結果。

1 月 17 日,該團隊認為終於是時候向霍金展示這一新聲音成果了。Wood、Wozniak 和 Benie 一起前往霍金位於劍橋的家中,並在一台 Linux 筆記型電腦上播放了他們的樣本。令他們開心的是,霍金對此進行了肯定,這聽上去確實像他的聲音,這也讓整個團隊都鬆了一口氣。

接下來,他們仍然需要將聲音移植到霍金的個人電腦上。權宜之計,Wood 提出將這一聲音版本先加載到一個名為 Raspberry Pi 的微型硬體主機板上,因為他認為霍金可能會想在日常生活中先對這一聲音進行一下評估,而 Pi 是實現這一評估最快捷的方式。

1 月 26 日,Wood 帶著 Raspberry Pi 硬體主機板去到霍金的家裡,問他是否想要嘗試一下,霍金抬了抬眉毛表示願意。

Wood 將 Pi 放到一個小小的黑盒子中,用魔鬼氈將它固定到霍金的輪椅上,並將其與音箱連接。然後他們斷開了 CallText 的連接,這也是過去 33 年以來,霍金第一次離開 CallText 來講話。

Wood 急切地等待著霍金的評價。

「我很喜歡」,霍金說道。

接下來的幾週時間裡,在私人會話場合,霍金一直使用模擬器和 Raspberry Pi 的輔助,與朋友和同事聊天。Wood 表示:「能為他提供這樣的設備,我們感到很開心,畢竟這也是這麼多人努力這麼多年的心願所在。」

接下來,就只差最後一步了,就是給出這個聲音的 PC 版本。一開始有點小錯誤,但進展還算順利,在修改了幾個程式碼之後,他們終於完整地完成了這一項目。

Dorsey 說道:「我們幾乎克服了所有的技術障礙,到最後,所有人都認為肯定沒錯了,肯定能成,終於完成了。」

而那時,已經到了二月,霍金也是那個時候身體開始出現不適。

「雖然沒有來世,但他的聲音卻會永遠存在下去。」

據 Wood 透露,直到臨終前,霍金一直都在用這一模擬器。他都是透過 Raspberry Pi 上的新軟體與他的親友和護理人員進行交流。參與項目的每個人心裡都清楚,霍金的時間不多了,他可能等不到從這一模擬器中獲取更多的用途了。霍金之前也病過,但每次總能好起來。

2014 年,在 Wood 首次聯繫 Dorsey 時,正值霍金 72 歲。當時,他們認為霍金用的 CallText 設備可能只能再支撐半年,而霍金應該能活到 80 歲。

聽聞霍金去世的消息之後,除了悲傷, Dorsey 也感到有些失望。他和整個團隊多年來一直殫精竭慮,只為能再現這樣一個能夠良好運轉的聲音,但現在卻沒人去用了。

此外,這個項目也讓他想到了那個年輕時候的自己,那個想利用工程技術去做好事、幫助別人的自己。多年前,在為 CallText 研究語調演算法時,他無論如何也想不到自己的成果會被霍金這樣一位科學天才所鍾愛。

技術更新換代很快,絕大多數設備最後都只是被丟棄在歷史的角落裡,落得一層厚厚的灰塵。當我們離​​開這個世界時,我們的聲音也會隨我們離去。但霍金的聲音不同。原來的 CallText 設備屬於霍金遺產的一部分,支配權屬於霍金的家屬。 CallText 模擬器這一新軟體也是如此,他們表示如果未來有相關平台,這一新軟體可以移植到這些新平台上。

眾所周知,霍金是一位無神論者,不接受還有來世這樣的說法。他曾經說過:「我們只有這一世來欣賞這一浩瀚而宏偉的宇宙,為此,我非常感激。」現在,雖然沒有來世,但他的聲音卻會永遠存在下去。

相關文章

評論