【AIoT 的智慧未來】犀動智能:從旅宿情境揚帆,專精軟體端 AIoT 整合的語音新創

在研發台灣中文語音識別的科技廠商中,創辦人沈書緯具有 Google 背景的「Aiello」絕對是相當顯眼的存在。
評論
Photo Credit:Aiello 提供
評論

與圖像識別、資料探勘並列,語音識別可說是目前機器學習商業應用的顯學之一,在台灣致力中文語音識別的人也不少,最出名的就像 PTT 創世神杜奕瑾創辦的 Taiwan AI Labs 就有發展自己的通用型模型並推出「雅婷逐字稿」APP,又或是威盛電子還有推出 OLAMI 語音、語意的 API 供第三方使用。

但在這麼多研發台灣中文語音識別的科技廠商中,創辦人沈書緯具有 Google 背景的「Aiello」絕對是相當顯眼的存在。從商業模式來看,他們創業第一步不選擇投入泛用型中文語音模型,而是把旅宿當第一個進攻的垂直領域,為旅宿業智慧音箱設計專用的智慧語音助理「小犀管家智能語音 AI 平台」,是以軟體為本,但又具豐富 AIoT 整合經驗的 AI 新創公司。

作為 AIoT 專題的一部分,INSIDE 與 Aiello 創辦人沈書緯 Vic 進行了一次深入訪談來了解他們打造中文自然語言理解 NLU、自然語言處理 NLP 的經驗,以下使用 Q&A 方式進行:

Q:Vic 當初為什麼要選語音 NLU、NLP 當作創業題目?您的 Google 經驗又怎麼幫助你創業?

A:從個人角度來說,我高中開始就想創業了,也是為了創業才去 Google 這間全球數一數二的科技公司。我在 Google 時負責的就是 Google Home、Google Assistant 的 NLU,那時只要是要用到 Google Assistant 的軟硬體,基本上我都會接觸到。

就是這段工作經驗讓我察覺 NLU、NLP 逐漸開始出現技術突破點,有創業的可能性。當然,那時候在 Google 內部升遷也很有機會,但我更想自己創業,從頭到尾建立一間自己想要的公司、做自己想做的產品。

我可以分享一下:在機器學習普及化之前,對 NLU、NLP 大量研究心血的是語文科學家,而不是軟體工程師。但到了機器學習開始普及化,甚至到 Alexa 開始流行時,NLU、NLP 已經大量導入機器學習。不過反過來說,機器學習在 NLU、NLP 還是有很多待開拓空間的。如果說機器學習導入影像識別有 90 分水準的話,NLU 大概只有 5、60 分。

補充:NLU 是理解,NLP 是執行,NLU 幫你把意圖、名詞猜出來,但知道你想要什麼後,還要交給 NLP 幫你把行動執行。

Q:那中文 NLU、NLP 跟英文相比,開發起來目前最大的難關、限制在哪呢?

A:好,我分享第一個難關在於中文跟英文的模型本質差異。如果鎖定垂直領域,看場景、習慣性的話,我認為英文的 NLU、NLP 已經有 70、80 分的水準。

但是,NLU 的技術本身是從英文所原生發展的,像是語料、模型都是從英文來的,甚至全世界英文的數位資料量也遠遠比其他語言還多。這讓 NLU、NLP 的中文開發者都適用「遷移式訓練」,除非你是非常大或是有特殊目地的公司,不然不可能從零開始重練一套中文專用的語言模型,大多都是直接拿 GPT-3 或其他開源模型重新訓練。

延伸上一點,中文、英文這兩種語言本體的差異對訓練模型來說就會很明顯,中文本身特性是連結詞與贅詞特別多,而且中文是用「字拼成詞」,不像英文由一個詞一個詞個別所組成。我舉個例子:「我在野生動物園玩」這句話,在中文是在野生動物園裡面遊玩,但只要訓練一不小心,電腦就會把「在野」這個詞特別拿出來翻,兩者可是天差地遠。

當然,上訴問題不是不能解決的,但會大大提升模型訓練的困難度。關於這點,如果是把 NLU  運用在一個垂直領域、特定情境,自然準確度就能提升。

Q:那 Aiello 在訓練中文 NLU 模型時有何自家的特別技術?

A:這有三點可以分享,第一點是模型,我們的確也不是重頭訓練一個新的中文 NLU、NLP,而是找開放模型。但第二點我們一開始就想鎖定一個垂直領域做 NLU,我會把它稱為從「科學」到「商用化」的過程。怎麼說呢?一個垂直領域一定有很多專業術語、也會有特定的情境,舉個例子,我今天做一個披薩店的客服 NLU,那使用者就不會問美股的情報或天氣如何,而是專心訂一個披薩;那我自然就不用去處理問美或天氣的資料。

第三是 NLU 做到 100 分,不代表 NLP 做到 100 分!我舉例假設是在飯店裡講「我要開燈」好了,這句話很單純,NLU 判別這種單純的語意準確力很高,但 NLP 的處理細節很差,它沒辦法找到對應的 API 去開飯店的燈,那也無效,不是完整的服務。

所以我們的 Know-How 很大一部分在於針對行業專用語意、情境建立產業知識圖譜,用架構資料告訴 NLP 需要做什麼,只要節點出現越多、該詞彙出現越多次,那  NLP 就會越清楚知道要什麼。

Q:那 Aiello 是怎麼透過 IoT 軟硬優化提升自動語音識別品質的? 

A:Aiello 的服務核心是 NLP 平台與可以對應不同產業的 API,現在除了旅宿以外,也有金融業的 API 了,而能大幅優化 B to B 場景。

再舉個例子,如果有買 Google Home 的朋友應該可以理解,Google Home 的「智慧家庭」是「是 DIY Smart Home」什麼意思呢?就是使用者要享受便利的智慧家電之前,還要自己花一點時間去跟每台智慧家電連結,你要語音操作前,還要知道你的燈泡、冷氣、冰箱、電視跟掃地機器人叫什麼名字。

但你走進一間飯店房間時,總不會知道這盞檯燈、那盞落地燈叫什麼名字吧!我們的 NLP 平台就是在這裡下了巧思,讓使用者可以依照自己想要的情境、亮度、舒適度去語音操控。

根據統計,我們的使用者 90% 沒用過智慧音箱,所以沒辦法用 Google Home 那種邏輯提供智能服務。另外我們要把 NLP 平台適用在智慧音箱,在 IoT 整合也做過不少調整。像只要牽涉到聲學,就一定要處理回音消除(Acoustic Echo Cancelling,AEC)的問題。音箱有幾個麥克風?哪裡收音比較不清楚?然後到底要用多少 CPU 資源分配給 AEC?或是要用哪些喚醒詞、哪些詞又要特別注意不要跟喚醒詞搞混?

又或是智慧音箱跟雲端連線要消耗多少封包跟運算資源?要不要 device 內對資料壓縮?這些我們都有特別用心調整,而且我們還特別對飯店有做訂製化系統,每間飯店房間用的燈、裝置一定有細微差異,但我們的系統可以讓不管是 A 音箱、B 音箱,只要換 IP、MAC 跟房間對應好,那能讓不同音箱馬上使用了。

Photo Credit:截自 Aiello YouTube
Aiello 的飯店後台管理系統。

Q:那為什麼要特別會選「旅宿」這個情境當一開始的創業方向?

A:又要回到 NLU 的話題了(笑)。很多人都想像 NLU 是拿來取代遙控器或 App 的,但從商業成本來看,這是不太對的,像電視遙控器對消費者來說是一件三塊美金就可以做很好的事,而且你用語音取代電視遙控,還會剝奪一直轉台的樂趣,實在不值得花兩億去開發解決這種事情(笑)。

但旅宿這種垂直領域就很不一樣了,一方面系統一旦開發完成,它能很快地被飯店採用、迅速複製,而且能確實幫飯店精簡人力與提升,是個很有 end to end 價值的市場。

Q:能聊聊最近接受一輪 2 億元投資的狀況嗎?

A:先聊聊也有參與這輪的基石創投好了,我們跟基石在這一輪之前就已經合作過了,他們很理解目前網路語音 chatbot 的侷限,所以看好 NLP 可以在電商跟其他領域的發展。ColoplNext 他們則觀察在亞洲認真在做 NLU、NLP 的公司其實不多,但 NLU、NLP 的當地化又非常重要,他們很看好亞洲 NLU、NLP  的商務應用,想看誰會成為未來亞洲語音應用的市場先驅。

【2021 INSIDE 未來日】AIoT 智慧未來 數位轉型加速器

2021 INSDIE未來日 產官學跨界交鋒「一次看懂 AIoT+數位轉型大商機」!Accupass 取票頁請點我。INSIDE 將於 2021 年 9 月 24 日,舉辦一場為時 8 小時的線上論壇,預計號召 800 位以上的參與者於線上交流,深入探討與 AIoT 發展趨勢不可分割的三大面向:5G 服務、雲端科技、智慧生活,論壇總結將由 INSIDE 主編及兩位講者針對此次議題進行深度對談,提供與會者不同角度的觀點,創造更多商務合作和深度討論的機會。

核稿編輯:Mia

延伸閱讀:



高雄市實現智慧觀光抗疫!遠傳大數據應用助攻精準分析景區人流

今年 7 月份,第一波疫情稍緩,高雄市迅速推出結合 AI 和大數據科技的「高雄旅遊人潮警示燈號系統」,不但能即時在人潮密度過高時提出警示,旅客也能便利地透過電腦或手機查詢不同景點的即時人流狀況,讓不少計畫「報復性出遊」的旅客和景點攤商深刻有感。快速因應的「科技防疫」背後,其實是遠傳電信攜手政府單位,從智慧觀光到智慧城市的長期布局。
評論
Photo Credit:遠傳
評論

在疫情趨緩的時刻,一方面要振興觀光,另一方面又得堅守社交距離,維持防疫,對於政府和民眾都是一大難題。高雄市政府觀光局指出,「高雄旅遊人潮警示燈號系統」的推動,就是為了因應防疫需求快速應變。

Photo Credit:遠傳
高雄市因應防疫需求採用旅遊人潮警示燈號系統,透過三種燈號輕易管控景區人潮。

由於許多開放式風景區的幅員廣闊,而且沒有單一出入口,即使在出入口使用遠紅外線或 CCTV 監視系統掌握景點內的容留人數,依舊難以精準管理、分析特定熱點的聚集人潮;相對之下,運用電信大數據不需要採購、佈建大量硬體,更能省時省力地因應分秒必爭的防疫需求。觀光局說明,「高雄市觀光局在今年初透過招標評選與遠傳電信合作,採用去識別化的電信大數據和 AI 技術,希望利用較精準的科技方法分析開放式景區的人流情形,以供未來擬定觀光相關策略參考運用。」

結合遠傳既有的海量數據、分析技術和人流分析系統介面,可迅速依需求進行客製化調整,例如高雄市目前使用的觀光旅遊管理分析平台只花一個月就建置完成,並可依需求調整框選的景區範圍,後來因應防疫考量,又在兩周內及時設立了燈號系統,不只提供管理單位管控人潮的依據,也能提供民眾作為出遊參考。

電信大數據   協助政府單位實踐「數據治理」

打開高雄旅遊網的景區人流警示網頁,直覺清晰的燈號顯示,讓民眾能直接一覽各景點的人流是否擁擠,還串接景點周圍的交通資訊、天氣狀況等開放資訊,連停車場都能查詢。

Photo Credit:遠傳
民眾出遊前瀏覽高雄旅遊網的景區人流警示頁面,即可快速了解景點人流、天氣及停車場資訊。

「其實是用新方法解決老問題,過去的旅客洞察可能是透過抽樣問卷等方式來進行,電信數據這樣的新技術則可以同時達到動態的遊憩行為分析和人流管制的雙重目的。」遠傳技術及轉型科技群經理周玫芳表示。要達到這麼細緻的人流和移動分析,單單擁有電信大數據還不夠,需要搭配相當龐大的投資,才能即時針對海量資料進行運算。遠傳從五、六年前開始引進相關技術,最早其實是為了進行網路優化、提升用戶的網路品質,軟硬體層層疊加升級下來,漸漸延伸出電信大數據在公共政策上的應用。

從早期透過農村旅遊、遊樂園、路跑活動等不斷驗證、滾動式優化調整,到後來陸續和臺中、臺南、高雄、新竹市政府合作推動智慧觀光,遠傳的電信大數據現在不只能推估人數,也能針對旅客的旅次鏈、停留時間、留宿率、重遊率等遊憩行為和遊客輪廓進行更深入的洞察分析,還能回溯系統佈建前的電信大數據歷史資料,進行前後趨勢比較,或檢視觀光推動的成效。以高雄市的觀光大數據平台為例,管理者除了從線上儀表板掌握即時人流資訊,也能透過遠傳每個月提供的分析報告,協助後續觀光活動、假期交通疏導等政策的擬定。疫情期間,遠傳的電信大數據還被中研院用來分析人流移動模式,實際協助政府觀察疫情變化、提前預測重熱區。

遠傳大數據平台  實現數據多元應用、創新體驗

除了電信業者獨有、適合進行人流移動相關分析的電信大數據,遠傳長期從電信海量數據分析經驗建立起的大數據平台和技術能力,也能協助企業建置大數據平台來分析企業自有的數據資料。遠傳技術及轉型科技群資深協理陳佳玲說明,「我們提供專業顧問服務和平台產品協助企業客戶建置大數據平台,做到數據的清洗整理、建立分析模型、設計分析儀表板,讓企業客戶的營運數據能達到更有效運用,也能結合物聯網數據資料做到戰情室分析,進而輔助企業決策。」對於品牌或零售業者,還能結合遠傳線上線下足跡的數據分析,協助鎖定目標 TA ,透過簡訊或數位廣告等方式發送行銷活動內容,達成精準行銷的目的。

Photo Credit:遠傳
遠傳大數據團隊提供專業且客製化的一站式服務,致力成為政府與企業數位轉型的最佳夥伴。遠傳技術及轉型科技群資深協理陳佳玲(左)、經理周玫芳(右)。

從電信本業出發,拓展到電信大數據的應用,再到以大數據分析平台技術實現智慧化管理,遠傳不斷創造各種數據應用新體驗。近年來也跨業結盟,透過整合上、下游產業鏈,以 5G 特性結合遠傳「大人物」(大數據、人工智慧、物聯網)、資安及雲端技術助政府及企業升級轉型,提供從規劃、建置、移轉、維運的完整 5G 一站式服務。正如遠傳 Slogan 「靠得更近,想得更遠」所要傳達的,讓智慧觀光、智慧防疫、智慧城市、智慧零售不再遙遠,各種未來理想生活,咫尺可及。

Photo Credit:遠傳