為什麼我們很難像《魔球》一樣點石成金?——談大數據的機會與挑戰

我們活在巨量資料的世界,資料的數量與多樣化的程度,每日都以前所未有的規模撲向人類。無論你是不是在相關產業工作,都不可能逃離被大數據「圍攻」的現實。
評論
評論

我們活在巨量資料的世界,資料的數量與多樣化的程度,每日都以前所未有的規模撲向人類。無論你是不是在相關產業工作,都不可能逃離被大數據「圍攻」的現實。自哈佛大學電腦科學系畢業、Cambridge Semantics 共同創辦人 Lee Feigenbaum 撰寫的 〈Turnning Big Data into Smart Data〉 一文,告訴我們橫亙企業眼前的「大數據挑戰」。讓我們先來看看,大數據到底有多大?

  • 每天全球每一個人聚沙成塔,累積的新數據達到「艾位元組(exabytes)」(甚至達到「皆位元組(zettabytes)」,端賴統計的來源)。
  • 至今一半以上(有些報告甚至指出高達 90%)的數據資料是在過去 12 個月產生的。
  • 人們創造數據的速度每一個月都以雙倍速度成長。

除了嚇人以外,光有這些「大數據」,其實沒有什麼意義,唯有人類能夠從中發掘價值,大數據才產生意義。所幸,已有很多應用實例,讓大數據發出應有的光芒,也讓我們看到各行各業有無窮盡的機會,等待數據科學家的探勘。

魔球電影劇照
  • 在「大數據」還沒變成人人琅琅上口的流行詞彙之前,小說改變而成的電影《魔球》描述美國大聯盟運動家隊點石成金在缺乏明星球員的狀況下殺出血路的真實故事,早已讓人津津樂道,而它正是數據分析的絕佳體現。
  • 醫療與製藥產業紛紛投入大筆經費,研發「客製化」的個人醫學,透過分析病人的特徵與基因組成,給予個別病人量身定做的診斷與療法,實驗室與臨床都需要大量且多樣化的數據整合。
  • 智慧型手機、運動手環甚至後來的智慧型手錶,我們分分秒秒都在「量化自我」,健身的程度、攝取的營養、身心狀況、行為趨向全部都被巨細靡遺的記錄下來。
  • 大型銀行與隸屬政府的金融部門對資料長(chief data officer,CDO)與數據科學家需求若渴,他們要能全盤考量組織職能,針對數據的蒐集、分析與應用做出策略性的思維。
  • 無論地方政府或中央政府,都正流行「資料透明化」,如 政府皆建立網站揭示公開資料。人們自發性要求政府公佈更多資料的行動也如火如荼,例如美國的 DATA Act。
  • 大數據在美國總統大選中扮演了很關鍵的角色,幫助候選人清晰的辨識出搖擺不定的選民。
  • Target、Walmart 等零售商巨擘已經透徹分析顧客的資料好幾年,早就能夠在家人與朋友察覺之前,搶先一步知道某個消費者懷孕的消息。
  • 智慧型恆溫器 Nest Thermostat、智慧監控 Quirky、利用使用者 GPS「群眾外包」塞車情況的 Waze,都是基於數據蒐集與預測成就物聯網生活的新創公司,他們都已獲得 GE、Google 等大企業投入鉅資甚至併購,企盼能從巨量資料中挖掘巨量價值。

儘管有這麼多成功的案例,對很多企業來說,大數據仍像一座無法翻越的山嶺,難以將數據完美的融入決策過程。通常公司在運用大數據時,會遇到下列五個挑戰:

挑戰 1:我們不知道答案,甚至連問題是什麼都很模糊

大數據時代的其中一個關鍵特徵是,我們很難知道我們需要的答案,有時甚至連想要解決的問題都很模糊。有一部分原因是,大數據的價值在於模式(pattern)與相關性(relationship),但這些過去隱藏在大量資料中的模式與相關性,經常都是意外發現的。我們不能期待專家為每一行資料都特製 MapReduce(Google 提出的軟體架構,用於大規模數據的並行運算),其他大數據分析框架也一樣有很高的進入壁壘,阻礙簡單的資料探索與分析。

擁有深度分析、數學、統計與程式技能的數據科學家,無疑是現階段最炙手可熱的人才,不過人才養成的速度遠遠不及市場需求。

挑戰 2:非結構化的數據難以採集

就現實面來說,大數據其實就等於「非結構化」的數據,也就是從文本分析到未經梳理的文字、聲音與影片導出的數據。這些文本分析景觀,有著幾乎堆積成山的問題,讓我們難以利用非結構化的數據幫助日常的企業營運決策。這些問題包括:

  • 不同的內容需要運用不同的工具:客戶迴響與產業分析各有不同的語言分析工具,如果使用一般的分析軟體,可能就會犧牲精準度。
  • 不同的時機需要運用不同的文本分析技術:自文本中萃取企業內部資訊,跟分析社群媒體情緒波動是完全不同的挑戰。
  • 文本分析的結果不可預測:挖掘大量網頁、電子信箱中的信件、以及其他文件,通常能夠顯示過去未知的關聯性。只是,即使大數據的貯存,讓我們能夠更便利的捕捉難以控制的數據,不過後續的分析,光有大數據的存在是沒有多少幫助的。

挑戰 3:大數據難以重複利用

一般而言,數據的蒐集、貯存、使用,都是針對單一目的,像是投資銀行蒐集 10-K 文件(美國上市公司年度報表),協助買方從事權益分析,生技公司在資料庫中儲存臨床實驗的結果,向 FDA(美國食品藥品監督管理局)提交報告,電商從製造商擷取庫存滋料庫,與他們自己的網站內容管理系統整合在一起。這些數據既然只為特定目的服務,自然很難再被利用到其他使用情境上。因此,風險管理人員無法從 10-K 文件的分析獲取與自己職務相關的資訊,生技公司的資深科學家沒辦法自臨床數據滋料庫預測早期藥物的成功機率,電商從業者也沒辦法重複利用庫存資料庫,辨識不同商品的戰略性差距。

挑戰 4:大數據只是故事的一小部分

從前幾項挑戰看下來,想要促成一家真正由數據驅動、且由數據決策的公司,光有大數據是遠遠不足的。大數據得跟傳統的企業資料來源(如交易與營運資料庫或 ERP 儲存系統),或者雲端 SaaS 應用(如 Salesforce 的 CRM 資料)、無數的影子 IT(shadow IT)數據來源(包括試算表、簡報、文件、SharePoint),整合的工作極端昂貴而且曠日費時,但是如果不做,那也甭想利用大數據解決企業的問題了。

挑戰 5:大數據的「準備」階段成本極高

大數據時代的普遍心態與工具,總是鼓舞著我們蒐集愈多數據愈好。不過數據要有價值,在準備的階段就需考量整合、散佈與利用。大數據的「準備」可能代表三種情況:

  • 發現(discovery):在大量的數據儲存中辨識正確的數據記錄
  • 去蕪存菁(curation):評估與改善數據的品質、可靠度與精確度
  • 組合(alignment):將數據概要與個人記錄以常態的模式聯繫起來,以利整合與分析。

普遍來說,數據的準備,幾乎完全是純手工作業,因此非常冗長乏味,消耗很多時間,而且還很容易出錯。

要克服這些挑戰的方法,就是把大數據「變聰明」。Lee Feigenbaum 把未經處理的數據稱為「啞數據」,他也提供了「讓數據說話」的五個方法,我們將會在下個禮拜分享給大家。


NEC 以專業的生物辨識驗證技術,為人類生活打造更準確又安全的身份識別方式

NEC 具有多重比對臉部檢測法、攝動空間法、適應領域混合比對等先進技術,讓辨識更準確又快速,不但多次奪下美國國家標準暨技術研究院(NIST)評鑑第一名,在一對多的人臉辨識速度上也是業界之首。
評論
Photo  Credit:NEC 台灣政府公共解決方案事業群群總經理張裕昌
評論

你有沒有在機場使用過 e-Gate 快速通關系統呢?這種利用生物特徵的辨識技術既方便又安全,早在幾年前就已經是很多政府機關使用的成熟技術,讓我們跟著生物特徵辨識領導廠商 NEC 一起瞭解這種技術的原理吧。

生物辨識面面觀

身份辨識是電腦資安領域中很重要的一環,過去我們常常使用「知識辨識」方式來辨識使用者身份,但是使用輸入密碼的方式可能會被忘記,或是容易被破解的問題。至於「持有物辨識」是某種 USB 加密鑰匙,雖然可以省下記憶密碼的麻煩,但也有機率會不小心遺失。

生物辨識則是利用身體上獨一無二的特徵進行驗證,具備唯一性且不易盜用的先天優勢。其實這也不是很新的技術,早在數千年前人類就開始使用生物辨識,比如我們出門看到隔壁鄰居的臉,就能認出他是老王,這就是生物辨識的概念;但是要教會電腦辨識生物特徵,可就不是這麼簡單的事了。

生物辨識驗證領域全球領導廠商 NEC 從 1970 年代便開始研發指紋辨識、掌紋辨識和人臉辨識等技術。目前除了上述技術之外,NEC 也已開發出虹膜辨識、語音辨識,以及原創的耳道聲波辨識技術,這些獨特且高度準確的生物辨識驗證技術解決方案在全球各地都有實際應用的經驗。

NEC 將這些生物辨識驗證技術以「Bio-IDiom」品牌運用在各式應用中,並且以有效的組合運用這些技術,從而打造出「任何人都能安全無慮地使用數位內容」的世界。

NEC  在生物辨識驗證技術有 50 多年的經驗與龐大的研發團隊,並且具有多項領先技術。/Photo  Credit:NEC

領先業界的人臉辨識技術

以人臉辨識技術為例,它是透過攝影鏡頭補捉人臉的畫面,並透過電腦分析臉部各個特徵點的資訊,來判斷受檢人員是不是與登錄的資料相符。

人臉辨識技術有許多優點,由於人臉是平常人們用來判斷對方身份的方法當中最自然的一種,所以使用者的心理負擔很小,使用過程中也無需動手操作,而且一般攝影機就可辨識,讓建置更快速且低成本。此外它還具備有效防止弊端的特色,例如辨識的時候系統能夠留儲「臉部影像記錄」,讓管理者可以目視確認是否相符。

NEC 具有多重比對臉部檢測法、攝動空間法、適應領域混合比對等先進技術,讓辨識更準確又快速,也能在人臉被遮蔽或影像不清楚的情況下正確辨識,不但多次奪下美國國家標準暨技術研究院(NIST)評鑑第一名,在大規模一對多的人臉辨識準確度上也是業界之首。

生物辨識有使用方便、不易被盜用的優點,近年的應用越來越廣泛。/Photo Credit:NEC
除了人臉辨識之外,NEC 也有多種不同的生物辨識驗證技術可以交互搭配使用。/Photo  Credit:NEC

奧運史上首次使用人臉辨識入場

NEC 為 2020 東京奧運和東京帕拉林匹克運動會(Tokyo 2020)成功提供人臉辨識系統,為奧運的安全、可靠和高效舉辦做出貢獻。NEC 台灣政府公共解決方案事業群群總經理張裕昌在訪談中表示:「NEC 提供的臉部辨識系統,用於驗證運動員、工作人員、志工和其他比賽相關成員的身份,當他們進入奧運和帕運選手村、國際廣播中心(International Broadcasting Center, IBC)以及主新聞中心(Main Press Center, MPC),系統會自動進行臉部辨識。該系統為 NEC 生物辨識驗證技術『Bio-IDiom』的核心技術,採用準確度世界第一的臉部辨識技術。」

NEC 提供的臉部辨識系統,用於驗證 2020 東京奧運和東京帕拉林匹克運動會運動員、工作人員、志工和其他比賽相關成員的身份。/Photo Credit:NEC

One ID 帶來更便利的生活

機場是有高度安全考量的場所,因此無論在航空公司櫃台報到、海關查驗、登機口查驗,甚至在免稅店購物都需要旅客出示護照以確認身份,不但過程相當耗時,同時也增加了經常拿進拿出而遺失護照的風險。

以 NEC 提出的 One ID 解決方案為例,旅客只需要登錄其臉部影像,就能在機場辦理與進行各種手續,例如報到、托運行李、安檢、登機等,而不需要出示護照與登機證,不僅能加速程序的進行,還能達到全程零接觸,降低染疫風險。

全球最大航空公司聯盟星空聯盟(Star Alliance)、NEC 集團及國際航空電訊集團公司(SITA)達成一項新協議,在不久的將來,星空聯盟成員航空公司的飛行常客計劃之客戶,將能在任何參與此協議的機場與航空公司使用生物識別進行身份驗證。/Photo Credit:NEC
NEC 希望透過更多元的生物辨識技術改善人類的生活,透過只要伸出手指就能確實證明兒童身份的指紋辨識技術,就可以不受出生國家或地區左右,建立確實執行給予所有兒童合法出生證明與出生登記的環境,同時也打造兒童在成長過程中必要的、確保享有身為國民應有的公共醫療、教育機會與社會之保障。/Photo Credit:NEC

張裕昌提及,目前 NEC 的技術已經達到相當高的準確度與可靠性,未來的發展重點不再是改善辨識準確度,而是發展更多元的辨識種類,以及透過系統整合的方式,結合多種不同技術,以因應更多差異化的使用需求。

此外張裕昌總經理也特別提到,以 NEC 獨家的嬰兒指紋辨識技術為例,可以克服嬰兒指紋會隨時間變化的問題,有助於協助戶政系統不完善的國家追蹤嬰兒疫苗接種情況,發揮降低夭折比例的功效,為人類社會做出實質貢獻。