Siri 怎麼學會說上海話?

蘋果、亞馬遜、微軟以及 Google 都提供語音助理服務,孰優孰劣?
評論
Luke Peters demonstrates Siri, an application which uses voice recognition and detection on the iPhone 4S, outside the Apple store in Covent Garden, L...
REUTERS/Suzanne Plunkett
評論

原文刊登於英語島雜誌 2017 年 6 月號,INSIDE 獲授權轉載。

更多詳情請見世界  公民文化中心粉絲專頁。

蘋果、亞馬遜、微軟以及 Google 都提供語音助理服務,孰優孰劣?根據路透社報導,蘋果的語音助理 Siri 在辨識語音、回答問題方面或許不再具優勢,但 Siri 一大優勢是能說最多種語言,現在正要學習說上海話,我們來看看它怎麼做到。進入本文前,想想以下單字英文怎麼說:

量身訂做 (B)(說話)含糊的 (C) 規模化


The voice-assistant wars are (1) in full swing, with Apple, Amazon, Microsoft and now Google all offering electronic assistants to take your commands.

蘋果、亞馬遜、微軟以及谷歌都推出了接受人類指令的語音助手服務,一場語音助手戰已全面打響。



Many researchers believe that Apple has squandered its lead when it comes to understanding speech and answering questions. However there is at least one thing Siri can do that the other assistants cannot: speak 21 languages localized for 36 countries, a very important capability in a smartphone market where most sales come from outside the United States.


許多研究人員認為在語音辨識和回答問題方面,蘋果的領先優勢已消耗殆盡,不過有件事目前只有 Siri 做到:說 36 個國家的 21 種語言。此功能在智慧手機市場極為重要,因為大部分智慧手機都銷往美國以外地區。



Microsoft Cortana, by contrast, has eight languages (A) tailored for 13 countries. Google's Assistant, which began in its Pixel phone but has since moved to other Android devices, speaks four languages. Amazon's Alexa features only English and German. Siri will even soon start to learn Shanghainese, a special dialect of Wu Chinese spoken only around Shanghai. 


微軟 Cortana 為 13 個國家制定了 8 種語言。Google 助理會說 4 種語言,這項服務出自 Google 自家手機 Pixel,現已開放其他 Android 系統手機使用。亞馬遜的 Alexa 只會說英語和德語。而 Siri 馬上要開始學上海話了,這是一種只在上海及其周邊地區使用的吳語方言。



At Apple, the company starts working on a new language by bringing in humans to read passages in a range of accents and dialects, which are then transcribed by hand so the computer has an exact representation of the spoken text to learn from, said Alex Acero, head of the speech team at Apple. Apple also captures a range of sounds in a variety of voices. From there, an acoustic model is built that tries to predict word sequences.


蘋果語音團隊負責人 Alex Acero 說,要發展新語言功能時,會讓有各種方言和口音的真人唸出文字段落,然後再手動轉錄,這樣電腦就可以擁有準確的學習樣本。蘋果還會從不同的聲音中捕捉各種語音,接著建立一個聲學模型,以嘗試預測字元序列。



Apple then deploys "dictation mode," its text-to-speech translator, in the new language, Acero said. When customers use dictation mode, Apple captures a small percentage of the audio recordings and makes them
anonymous. The recordings, complete with background noise and (B) mumbled words, are transcribed by humans, a process that helps cut the speech recognition error rate in half. 


Acero 說,接著蘋果會在新語言中部署「聽寫模式」,一種文本和語音之間的翻譯器。當使用者使用聽寫模式時,蘋果會抓取音訊錄音中的一小部分,然後對其匿名處理。這些錄音包含了背景雜音和含糊的詞語,由真人轉錄則可將語音辨識的錯誤率降低一半。



After enough data has been gathered and a voice actor has been recorded to play Siri in a new language, Siri is released with answers to what Apple expects will be the most common questions, Acero said. Once released, Siri learns more about what real-world users ask and is updated every two weeks with more tweaks. 


收集了足夠資料、配音員為 Siri 錄製講新語言的聲音後,Siri 即可發佈。發佈時,Siri 能回答出蘋果預期最常見的問題。發佈後,Siri 也能從用戶的實際問題學習,每兩周作調整並更新。



However, script-writing does not (C) scale, said Charles Jolley, creator of an intelligent assistant named Ozlo. "You can't hire enough writers to come up with the system you'd need in every language. You have to synthesize the answers," he said.


不過,智慧助理 Ozlo 的創造者 Charles Jolley 說,撰寫腳本無法規模化,「不可能聘僱夠多的作者,來打造每種語言所需的系統,必須人工合成回答。」



The founders of Viv, a startup founded by Siri's original creators that Samsung acquired last year, is working
on just that. "Viv was built to specifically address the scaling issue for intelligent assistants," said Dag Kittlaus, the CEO and co-founder of Viv. "The only way to leapfrog today's limited fuctionality versions is to open the system up and let the world teach them." 


「Siri 之父」的新創公司 Viv,正著手解決這個問題。這間公司去年由三星收購。Viv 的聯合創始人兼 CEO Dag Kittlaus 說:「Viv 想解決智慧助理的規模化問題,想要讓當今功能侷限的版本升級,唯一的方法就是開放系統,讓世界來教它們。」



1. In full swing 如火如荼;全力進行

By ten o'clock, the party was in full swing.

到了十點,派對已達到高潮。

 

從物流到巡檢!無人機小兵立大功,助產業翻轉應用場景、加速智慧城鄉腳步

隨著科技進步,在推動智慧城鄉的道路上,已發展出應用無人機來縮短城鄉差距、加速產業應用佈局,同時提升民眾的生活品質。
評論
photo credit:經濟部工業局
評論

談起無人機會令你想到什麼?對多數消費者而言,第一時間聯想到的或許是結合影音、娛樂的應用場景,藉由飛行優勢捕捉各種畫面、創造更有趣的觀賞體驗,但其實無人機早已升級,在許多我們意想不到的場域裡發揮它的技術,改善我們當前的生活品質。

根據 DRONEII.Com 的報告指出,全球無人機市場將從 2018 年 140 億美元、一舉躍升到 2024 年 430 億美元,其中能發揮無人機應用的場景除了熟悉的娛樂、拍攝外,勘/救災、預警系統、資料蒐集與分析與環境監測等,亦是無人機可著力之處。

看準無人機所具備的這些優勢,讓經濟部工業局在「普及智慧城鄉生活應用計畫」中,善用無人機的價值,讓它得以跳脫娛樂拍攝場景,以物流、巡檢等角色走入偏鄉,為在地民眾以科技力注入創新活水。

看無人機如何從物流到巡檢,翻轉智慧城鄉

「智慧城鄉的目的就是要透過科技力,讓偏鄉地區的民眾也能同步享受等同於都會區的資源與生活品質。」作為國內長期投入研發無人機的中光電智能機器人王仲平協理觀察,這也是為什麼中光電加入「普及智慧城鄉生活應用計畫」後,選擇以物流、巡檢等場景作為起手式,希望藉由技術的輔助讓偏鄉地區的生活體驗可以再升級。

攤開 Google 地圖,從新竹火車站前往尖石鄉的路程接近 3 小時,途中更是九彎十八拐,也常因天災造成道路坍方,切斷輸送物資的主要管道。「但這趟路對無人機而言僅需 10 分鐘」在天氣許可下,無人機能垂直飛行加速物資運送,讓偏鄉在資源需求上邁進了一大步。當然,王仲平也解釋,這樣的場景是需要串接地方政府、物流業者乃至於零售業者都缺一不可,中光電發揮在無人機的技術與專業,攜手夥伴們才能讓智慧城鄉的發展被實現。

而這項技術也已輸出海外、與日本樂天合作。王仲平透露,目前已在白馬山進行試飛,在高低落差近 1600 公尺、往返距離約 10 公里的地區,以無人機方式將貨物運送至目的地。讓過去需要耗費車程、人力約 7 小時的路途,如今只需要 10 分鐘就能解決,不只能運送物資上山、也同時能將山上的垃圾運下來,藉由無人機創造雙向價值、提升偏鄉的生活體驗。

除了物流場域,巡檢應用也同樣能發揮無人機效益。王仲平表示,電塔維護關係著偏鄉居民的生活及維修人員的生命財產安全,過去動輒爬上高處修繕或需要跨域的奔波,不僅耗時耗力、也可能有人為無法判斷的疏漏發生。如今在無人機的輔助下,不僅大範圍的檢測不成問題,因不受空間影響、更能 360 度的徹底檢查,即便在環境惡劣的山區也難不倒它。

photo credit:經濟部工業局

用「眼睛」跟「大腦」,讓無人機更智慧地徜徉在場域中

無人機之所以能實現如此多應用場景、強化偏鄉地區生活品質與智慧水準,全仰賴技術上的突破,「你就想像現在的無人機其實是台會飛行的掃地機器人,」王仲平生動地解釋。傳統無人機因缺乏人工智慧的導入,讓任務執行依舊需要耗費大量人力監控,也可能因人為操作而發生意外,而這也是為什麼中光電在研發無人機的第一天起,就希望能賦予智慧設計,讓無人機能具有思考與判斷能力。

首先,要能被稱作為智能機器人就需要配置影像辨識系統,王仲平表示這讓無人機如同人眼一般,能捕捉外界影像,讓它在執行任務時能採集需要的資訊,同時透過 SLAM 避障技術,協助無人機判別外界的障礙物,無論在運輸或是巡檢的過程中,更加順利。

此外,智能機器人也需要具備良好的運算平台、就像是大腦一樣,能將捕捉到的影像進行分析、並且建立模型,以利未來在同一條路徑上的飛行時,可以更加熟悉、也讓這台無人機得以減少對人為操作的依賴,加速對偏鄉服務的提供效率。

偏鄉需求大,無人機應用潛力無窮

「其實物流體系的成本有 75% 都是耗費在最後一哩路。」王仲平說,若能借重無人機的技術突破瓶頸,相信在偏鄉的民眾生活品質將會有大幅度邁進,同時為加快腳步,他認為每個物流節點都需要擁抱數位工具、面臨數位轉型,才能攜手翻轉當前的應用場景。

展望未來、王仲平更是滿心期待,他相信還有很多場域正等著無人機發揮技術突破現有框架,「你能想像如果我們有空中計程車的時候嗎?那將會是航空界的革命性發展,也將為偏鄉居民的醫療帶來全新的體驗。」短程的載人運送服務將可能為偏鄉居民、甚至是因登山發生意外的狀況,有了更即時與效率的幫助。藉著這次的計畫,王仲平相信在攜手產官學一同合作打造可落地的應用,就能讓更多人看見無人機的價值、也才能加速偏鄉擁抱智慧科技。

經濟部工業局廣告