
【Howie 商業投資】結盟康乃爾!Google為何跨入鳥類語音辨識領域?

語音辨識無疑是當前 AI 應用的當紅炸子雞,包含智慧居家、語音助理、車聯網、行動載具等產業都大量運用語音辨識,這塊近 1,300 億美元的市場吸引成百上千的科技公司與新創企業參加。不過,在這片紅海市場上,還是有些人默默的付出,Google 與康乃爾大學的聯盟測試的對象不是人類,而是鳥類。
Google 正利用人以外的語音作為模型開發利器
Google 實驗室中的認知科學團隊專門執行各種生物科學與語言處理的研究,對公司而言,雖然人類的語音有非常高的研究價值,但因為其複雜度高過任何其他動物的聲音,在面臨 Facebook 與 Amazon 的競爭威脅下,其 Google Assistant 必須能更快、更聰明的辨認人的語調,甚至從情緒中預測人的需求。但因為收集人類資料有隱私考量,因此公司需要更大量、更多元的資料作為新型訓練樣本。團隊把腦筋動到了動物身上,開啟了動物聲音研究+演算法的新紀元,並找上了康乃爾大學生物實驗室協助。
冷門卻利基的應用:鳥類復育
身為常春藤名校之一的康乃爾大學在人工智慧的投入不遺餘力,特別是在機器學習與語音辨識上也多次發表論文。不過研究鳥類要做什麼呢?在環境保護的浪潮下,動物復育已成為刻不容緩的議題,內華達山多次人為開發與森林大火已經嚴重破壞鳥類棲息地,加上鳥類處於食物連頂層,可以測試身體累積的有毒物質數量。Google 的與學校生物研究團隊正好都有動物語音研究需求,因此結盟後出發至內華達深山,由生物學暨 AI 教授 Connor Wood 領軍,結合 Google 資料科學小組。團隊先是花了數個月的時間部署 2,000 多具感測器,鳥種為林鶯鳥,原因是林鶯鳥的聲音較為高亢,音質資料便於感測器蒐集處理。
BirdNET 為這次擔任重責大任的演算法系統,其特色為能在一天內處理上千小時的資料量,由於林鶯鳥具備不只一種聲調,並且在不同時間的音頻也不同,因此對於一般語音辨識的演算法而言難以分析;此外,團隊採用語音辨識而非影像識別的原因在於影像識別圖片蒐集過於困難,再倒入深度神經網路模型中成效不佳,分析人員需要在資料庫中加入動物不同的姿勢、不同的生命階段等大量照片,以確保參數分析結果符合需求,因此這種方法並不適用於野生群落,特別是內華達深山內。

。資料來源:法國蒙彼利埃第三大學
從陸上到海上,所有動物都是研究對象
似乎沒有其他公司會像 Google 大手筆投入動物語音識別,甚至從內華達山、辛巴威草原、到大西洋深處都是研究場域;不只鳥類,Google 也投入其他動物研究,鬣狗獅子、鯨魚烏賊。除了達到生態保護,甚至可能發現新物種外種,豐富的資料成為模型訓練的最佳來源,而跟不同生態保育團體或大學合作,又可以提高公司的形象與人才招募能力,何樂而不為呢?
當然了,這些資料能不能商業化也是值得討論的議題,部分動保協會認為,用 AI 模型預測動物下個遷徙地作為動保決策確實不錯,但若盜獵團體也取得這部分資料並進行佈局,那可能就是物種滅絕而非保護了。美國有人權團體也指出,動物聚落的行為研究若運用到人類身上,可能在極權國家帶來不良示範。由此看來,該類研究似乎不是只有提高 Google Assistant 的功能這麼簡單而已。
責任編輯:Mia
核稿編輯:Anny
延伸閱讀: