想看什麼 AI 都知道!這幾年 Google 如何用人工智慧讓你緊緊黏在 YouTube 上?

為了讓系統能針對不同使用者推送合適影片內容,目前 YouTube 使用兩個神經網絡結合之推薦模型,候選生成模型 (Candidate Generation Model)以及排名模型 (Ranking Model) 這兩個神經網絡的推薦系統。
評論
評論

在高喊人工智慧的世代, AI 的真實應用與生活體驗才是許多人關注的重點,「終極版」AlphaGo Zero 讓世人驚訝,不過與我們的生活似乎還相當遙遠,然而,就從大家最普遍使用的影音平台  YouTube 來看,Google 藉由人工智慧系統讓平台觀眾看到更符合自己所需影片,讓過去三年 超過七成的觀看時間是來自觀看 YouTube 自動推薦的影片內容,進而提升用戶在平台黏著度的現象 就是最佳的例證之一。

今天 Google 台灣招開第三場機器學習媒體聚會,位於美國總部的  YouTube工程師研發副總裁 Cristos Goodrow 與軟體工程師 Jim McFadden 現場連線,介紹近幾年  Google 機器學習在 YouTube 上的應用以及所面臨到挑戰, Cristos 首先從演算法向大家說明機器學習如何對觀眾發揮最大效用,增加使用者體驗之歷程。

為了讓  YouTube 上觀眾真正能看到想要的內容,他們在近幾年來在平台算法上不段革新。2011 年到 2012 演算法由「觀看次數」改為以「觀看時間」為基礎, 他們發現到觀看次數並不能真實反應出推薦內容是否吻合觀眾所需,因此以「觀看時間」為算法重點,也就是觀眾對影片的黏著度有多高,以這樣影片的算法「觀看次數」在一天內跌了 20%,但平台觀看時間卻上升有史以來第二高,平均觀看時長從 120 秒上升至 140 秒。

隨著行動世代的到來,2014-2015 年展開第二階段的優化,因應 60% 的觀看時間發生在行動裝置上,YouTube 更新了行動版介面,調整首頁排版新增區塊像是:再看一次 Watch it Again 。另外也在此時由 Google Brain 團隊導入機器學習技術,增強個人化推薦機制。

隨著內容創作者以及平台觀眾來越多,從 2016 年至今 YouTube 不斷進行更新為了更有效給使用者最佳體驗,光是一年內就推出超過 190 個更新,以確保系統隨時能給觀眾最合適與吻合的新內容。

藉由人工智慧優化算法帶來的成效為何呢?  Cristos 表示,目前平台上 70% 用戶觀看時間來自  YouTube 之 自動推薦,此外, 近三年來觀眾瀏覽影片來源從 YouTube 平台 首頁 上自動推薦 成長超過  20 倍,目前在全球每日各 地區推薦超過  20 億組影片。

軟體工程師 Jim McFadden 接著分享了他們在 面對優化影片推薦所遇到的問題。首先, 在內容創作者不段更新的影音內容, 平台上 每分鐘 有超過  500 小時影片上傳至  YouTube,負載龐大的資料,訓練資料 含大量雜訊,而這些問題 Google 藉由 TensorFlow 學習模型以進行更多數據分析,TensorFlow 系統 為大規模分佈式訓練的深層網絡架構,提供一個靈活的框架。

為了讓系統能針對不同使用者推送合適影片內容,目前 YouTube 使用兩個神經網絡結合之推薦模型,候選生成模型 (Candidate Generation Model) 以及排名模型 (Ranking Model) 這兩個神經網絡的推薦系統。

首先為候選生成影片模型,從數百萬個影音資料中,把多種因素考慮進去,像是觀看歷史紀錄、搜尋歷史和年齡等等,縮限到數百個資料子集,再藉由第二階段的排名模型,以使用者語言、近期觀看紀錄、使用者和該影片過往連結、地理位置等特徵, 最終找到數十個最貼近觀眾的影片內容。

最後,YouTube 大中華區與紐奧技術管理負責人葉佳威分享  YouTube 如何透過機器學習辨識不當暴力影音內容,此項應用來自近期 Google 發表 藉由電腦視覺方式持續學習人類在影片中呈現的 原子視覺化動作  AVA(atomic visual actions),AVA 建構於原子視覺動作 (Atomic visual actions) 資料庫能夠為一段長影片中的每個人物提供數個行為動作標籤。目前 AVA 已經分析了超過 57 萬組影音片段, 生成 21 萬個動作標籤, 總計標註了 9 萬 6000 組人類的動作。

在 YouTube 的運作機制,可為影片中的人物動作媒合標籤,進行行為註解,為每個 3 秒影音
片段框中央的人類動作行為,從已經定義好的 80 組由時間- 空間定位的原子動作 (atomic action) 中選擇合適的動作進行標籤 ,例如是走路、踢 (球) 或是握手等動作,再根據標籤為影片中的行為進行註解。

透過學習的來自 YouTube 的海量影片,可以精準標註影片中的多人動作,最終學會人類互動行為。先前 INSIDE 也有 AVA(atomic visual actions)相關報導,有興趣的讀者可選 連結 觀看。

Google 表示目前 AVA 仍在初步研究階未來將積極投入研究, 加速 AVA 發展,除了協助機器學習在影片人類行為上之認知,未來能運用在更多層面,降低原先分析影片所需花費的人力。

未來不論是在優化算法讓用戶更順利的觀看到平台自動推薦的影片,更會投入更多人工智慧技術應用,讓系統更能「看」懂 YouTube 影片內容,進而防堵平台上非法暴力的影片,Google 將持續透過人工智慧實現更良好使用者體驗 。

 

延伸閱讀:

 

 


助攻金融科技!訊連科技推出 FaceMe® Fintech 解決遠距投保、視訊會議、人臉辨識三大難題

因應疫情時代的視訊投保需求,以及各種遠端金融服務場景,訊連科技推出 FaceMe® Fintech 一站式解決方案,解決遠距投保、視訊會議、人臉辨識三大難題。
評論
Photo Credit:訊連科技
評論

受疫情影響,金管會於今年 6 月宣佈視訊投保暫行方案,確保壽險業者各項服務及業務不因疫情影響中斷;截至7月底止,已有不少知名金融保險業者獲准試辦遠距投保業務項目。

目前小規模試辦的結果,卻因為市面上欠缺可整合視訊會議及 eKYC(Electronic Know Your Customer)的解決方案,業者大多得透過整合多套不同服務,例如:採用 Teams、Webex 或  LINE 等工具進行視訊會議,或保險簽單需事先提供予客戶列印、簽名,又或者是透過第三方的方式錄影(如透過手機或攝影機翻拍)等,導致使用者體驗不佳。此外,這樣的做法還是仰賴保險業務員以肉眼比對投保人及身分證,仍有冒用風險。

對於未來大幅度開放遠距投保,勢必需要更成熟、高度整合的解決方案。

訊連科技推出 FaceMe® Fintech 解決方案,解決遠距投保的身份認證難題

以保險、金融應用來說,目前主流的生物辨識 eKYC 技術主要包含:人臉辨識、指紋辨識、虹膜辨識等。其中,人臉辨識在過去數年來,因為深度學習技術導入,辨識度大幅提高,加上辨識速度快、無須專用硬體(可使用裝置上的相機)即可進行遠端辨識,大大降低接觸風險,因此也在這幾年成為生物辨識技術的主流。

只不過,目前全球的人臉辨識技術大多為中國廠商,在台灣要落地應用,恐怕會有資安疑慮,無法安心採用。

Photo Credit:訊連科技/訊連科技推出人臉辨識產品 FaceMe® 並可作為一系列金融科技解決方案。

值得注意的是,過去以威力導演、PowerDVD 等軟體知名的「訊連科技」,近年來也跨足 eKYC、AI 領域,擴充人臉辨識產品,推出「FaceMe® AI 人臉辨識引擎」,提供高達 99.7% 準確度的人臉辨識服務,並於全球知名的 NIST(美國國家標準暨技術研究院)之 FRVT 人臉辨識基準測試中,於 1:1(人證比對)及 1:N(身份認證)項目排行全球第六,除了是台灣排名最佳的廠商之外,也是該項測試排除中、俄廠商的全球第一。這樣的技術,也是訊連科技針對金融保險業者的 FaceMe® Fintech 解決方案中,重要的核心之一。

辨明真偽!FaceMe® Fintech 提供整合性的金融科技解決方案

談到金融科技,除了資安、金流系統之外,在講求無遠弗屆的遠端服務時,辨明真偽更是信任基礎的第一步。因此,訊連科技的 FaceMe® Fintech 以精準辨識的技術為核心,為金融、保險應用提供一系列解決方案,包含:

  1. eKYC SDK 提供人臉辨識、身分證真偽辨識、活體辨識、人證比對等功能。
  2. 視訊會議 SDK 提供金融保險業者於公有雲或私有雲架設視訊會議、進行錄音錄影、畫面分享,業務員能透過畫面分享進行保單說明。以公有雲來說,FaceMe® Fintech 的視訊會議採用位於台灣機房的 GCP (Google Cloud Platform),即可符合資料落地的需求。

其中,視訊會議 SDK 功能完整,有諸多優勢。除了可於視訊會議過程中進行錄音錄影(符合金管會要求)、業務員能透過畫面分享進行保單說明之外,還有許多身分驗證服務,可導入包含:

  1. 身分證真偽辨識:透過 AI 辨識身分證是否為真,避免業務員肉眼誤判。此外,若有二階段認證需求,也提供聲紋比對功能。
  2. 活體辨識:避免透過相片或影片假冒身分。FaceMe® 的活體辨識可提供透過一般行動裝置之 2D 鏡頭、或是透過 3D 鏡頭(如 iPad Pro、iPhone X 等)進行活體辨識。
  3. 人證比對及核身:透過人臉辨識,比對證件照及鏡頭前的投保人是否為同一人,減少業務員肉眼誤判。
  4. OCR 光學字元辨識: 身分確認後,將證件資訊帶入保單,如姓名、身分證號、換發日期等,省去打字麻煩,加快投保速度。
Photo Credit:訊連科技/FaceMe® 可跨平台建置於 Windows、Linux、Android 與 iOS 等作業系統,亦可提供 HTTP API ,進行網銀服務串接。開發者可在各種終端設備或雲端服務中快速導入人臉辨識功能,進行身份辨識、身分驗證等多種應用。

不限智慧金融!FaceMe® 的其他廣泛應用:智慧安控、智慧健康量測

於前一陣子 IEEE 舉辦的 ICCV 電腦視覺大會中,訊連 FaceMe® 活體辨識成績為全球第三,且是排除中、俄廠商的全球第一。 FaceMe® 除了核心的跨平台軟體開發套件外,也針對安控、金融保險等應用,提供垂直整合方案。

除了上述保險應用之外, FaceMe® 也可廣泛使用於遠距開戶、 ATM 無卡交易、行動網銀身分辨識、遠距客服等服務,或是於分行內建立迎賓系統、黑名單偵測、機房金庫的門禁管理等;在疫情時代下,也提供非接觸性的健康量測功能,例如偵測是否配戴口罩,或偵測訪客額溫等。如果終究都要推行遠端,何不現在就了解 FaceMe® 各種強大的應用之處?