培養開放心態,迎接大數據時代:《大數據》作者麥爾荀伯格首度訪台論壇

評論
評論

IMG_6831

昨日,遠見天下文化出版事業群於新北市政府舉行「大數據論壇」,邀請《大數據》作者之一的 麥爾荀伯格 教授首度來台演講。

演講一開始,麥爾荀伯格先以著作《大數據》使用的例子作為開場:2009 年,Google 透過比對使用者的關鍵字、搜尋時間和地點,得出流感的發展趨勢預測,幾乎與疾病管制中心的專家們得出的研究結果相同,但是快了兩週!而且還是即時分析。

接著他又舉了 Farecast 這個機票價格預測網站的例子,由於創辦人 Oren Etzioni 教授在某次搭飛機之後發現自己的機票賣貴了,於是他蒐集各大網站的機票價格資料,告訴使用者何時買機票會最便宜,準確度達 70%。

麥爾荀伯格首先從大數據的幾個特性例如資料的數量、相關性重於因果關係等等談起,最後回到「人」的議題,探討大數據時代下「人性」有多重要。我們相當推薦各位讀者閱讀麥爾荀伯格與庫基耶(Kenneth Cukier)和著的《大數據》。

資料的大小

根據 Mary Meeker 的 2014 年網路趨勢報告 ,目前無論是運算、儲存、蒐集資料(例如感應器、頻寬)的成本每年都在以顯著的比例下降,我們處理大數據的能力比起過去要強大的多。

以基因定序工作為例,2000 年時,人類基因組計劃工作草圖完成,耗時多年,所耗用的經費龐大。到了今天,任何一個人如要做自己的基因定序,只需要花二至三天,費用不到 1,000 美金。

資料的數量「變大」後會發生什麼事?

麥爾荀伯格以一個很簡單的比喻告訴大家,當資料量變多的時候,會發生什麼事

他說,假如自己要為現場的觀眾拍照,那麼恐怕得決定要將焦距對準前排還是後排的聽眾,而且無論如何一定有一部分觀眾的臉是模糊的,但如果使用光場相機,那麼情形就不一樣了,這台相機可以將所有的「資訊」都記錄下來,「事後」再調整焦距。就好比我們為一匹奔馳中的賽馬拍照,得到的是一張相片;每一分鐘拍一張照片,得到的是一系列的照片;但若在一秒內連續拍攝 16 張,就成了一段短片——我們做的事情不變,就是拍照。

麥爾荀伯格說,使用大數據就跟我們使用光場相機一樣:我們先把所有的資訊收集起來(不管對焦,先拍照),日後將有機會發現原本不知道或是沒有注意到的事(調整焦距)。

What vs. Why

接著麥爾荀伯格講的是大數據另一個非常重要的觀念:巨量資料告訴我們的是「什麼」,不是「為什麼」。大量的數據經過分析後,我們得到的是相關性,而不是因果關係。

他舉了 Wlamrt 超市的例子,這家全球零售巨頭了解到,在龍捲風、颶風襲擊前,人們會購買手電筒——這不並意外,只是他們也發現,人們還會買很多的 Pop-Tarts(一種甜食),Wlamrt 不知道為什麼人們這麼做,不過他們曉得要在對的時候將這項產品放在貨架上最顯眼的位置。麥爾荀伯格又舉了一個例子:假如你前一晚去吃大餐而隔天早上拉肚子,很快地你會推論出一定是因為昨晚吃的東西有問題,但說不定真正的原因其實是你跟某人握了手——建立因果關係的機制深深地烙印在我們的腦中。

在大數據面前,我們要注意資料要告訴我們「什麼」而不是「為什麼」,在我們去探究「為什麼」之前,先專注於了解到底「發生什麼事」。當亞馬遜和 Netflix 在推薦使用者內容時,他們並不知道為什麼要推薦這些東西。

麥爾荀伯格又舉了一個例子:翻譯。50 年代電腦科學家試圖透過建立規則的方式,再輸入字典資料告訴電腦該如何翻譯,這個作法以失敗告終,因為例外實在太多了。80 年代晚期,IBM 嘗試了另一個方法:他們使用加拿大國會文件中的 300 萬個句對(英文和法文),統計某個詞最常被翻譯成另一種語言的相對詞彙,使用統計方法,IBM 在機器翻譯上取得了長足的進步,接著他們又想,如果調整演算法,說不定可以讓翻譯效果變得更好,結果卻不盡人意,後來 IBM 便放棄這個計畫。

最後是誰辦到了?大家應該都有猜到:Google。這家搜尋引擎公司認為問題不在於演算法,而是用來訓練電腦的資料。與其輸入辭典、翻譯規則或是 300 萬句的國會翻譯資料,Google 決定餵給電腦整個網際網路:數以十億計的網頁、數兆個詞彙、近億句的英文句子...... 雖然資料雜亂,不如 IBM 先前使用的經過精心翻譯,但是卻能順利地將許多語言完成翻譯,並且具備夠好的品質。「我如果想知道台灣讀者對我寫的書的看法,就會用 Google 翻譯。」麥爾荀伯格說。

解決醫療問題的,可以是電腦科學家

大數據的相關性顯示在另外一個例子:早產兒照護。早產兒容易遭受感染,但是常常在醫生發現症狀後會醫治不及。Carplyn McGregor 博士與安大略理工學院和 IBM 的研究人員合作,從早產兒身上每秒讀取 1,200 個資料點。經過數週後他們從許多早產兒身上搜集到許多資料,讓科學家從中找到了一種模式,可以在早產兒出現感染症狀前的 24 小時提出預警。「專業醫師們哪想得到,在爆發嚴重感染前,生命指數卻有一段時間呈現非常穩定的情況呢?」這個案例也顯示:用大數據解決實際問題時,往往這些資料科學家並非該問題的專家,但正因他們能夠找出大數據告訴我們「發生什麼事」,可以協助解決令「知道為什麼」的專家們苦惱的問題。

顛覆傳統科學研究方法

我們知道科學家們在研究問題時,會先提出假設,然後進行驗證,但是在大數據的時代,這個流程出現了變化。例如 Google,他們有個理論,但不知道要做什麼假設,所以他們把這項工作交給機器,讓電腦從大量資料中產生假設。

數據再利用,資料即產品

過去,人們會針對特定目的蒐集資料,但是在大數據時代,就像前面所舉,可以「先拍照再對焦」的光場相機,很多時候我們不會知道原來資料還有別的用途。

麥爾荀伯格舉了幾個例子,像是新創公司利用全球 SWIFT(Society for Worldwide Interbank Financial Telecommunication,環球銀行金融電信協會)網路資料預測全球經濟;荷蘭電信公司利用基地台數據測量當地的天氣變化,發現自己可以進軍氣象預報事業;勞斯萊斯是汽車公司,但他們同時也是全球第二大的飛機引擎製造商,他們整合自家飛機引擎數據分析後,可以在引擎故障發生前先預測故障的會是哪一具引擎並提早進行檢修。

大數據時代下的「人性」

演講最後,麥爾荀伯格再次提醒觀眾,千萬要小心因果關係與相關性的問題,以及大數據的限制。又,他也呼籲大家要重視大數據時代下,蒐集資料會不會侵犯了人們的隱私,以及我們利用大數據預測的事:美國的 Target 百貨曾經利用消費者的購物記錄,在婦女自己還不知道的情形下,預測出她懷孕了。

大數據這項威力強大的技術帶來許多好處,同時也帶來許多挑戰,我們需要學習的事情還很多,勿忘謙卑與人性。「最終,資料只是現實的影子。(The data at the end of the day, is always just the shadow of reality.)」麥爾荀伯格說。

麥爾荀伯格的演講結束後登場的就是這次的大數據論壇。

IMG_6842

政治人物應該具備的能力

今天新北市場朱立倫在座,他也問了麥爾荀伯格「政治人物該怎麼看待民意調查」這個問題,麥爾荀伯格表示,民意調查可以了解民眾當下的想法,但是無法預測人們未來的行為。他也提醒政治人物應該具備三種能力:

  • 核心議題:在這部分,政治人物應該善用巨量資料理解市政真正的問題。
  • 善於溝通:避免官僚或學者高高在上的態度與民溝通,政治人物應以淺顯易動的言語與民互動。
  • 明確願景:作為掌舵者,政治人物須有設定願景的視野,並且擁有承擔責任的勇氣。

他也提到,政府部門是掌握最多數據的機構,而政府決策影響甚巨,更該好好運用這些數據作為施政方向的基礎。先前 紐約市長彭博就請出大數據專家 ,找出危險程度最高的老舊建築,希望降低火災事故。世界上有愈來愈多國家對資料保持愈來愈開放的態度,

避免資料獨裁,應把資料視為機會

雖則麥爾荀伯格非常推崇巨量資料,但是正如「役物而不役於物」,他提醒我們不應全盤信任資料,應該帶著批判的眼光審視資料,否則到頭來反而容易走向另一個極端:對資料失去信任。麥爾荀伯格認為,適當配套的法律與政策架構,可以為巨量資料帶來健康良性的發展。

資料能夠告訴我們社會的變化趨勢,替我們預測未來,至於能否善加利用提前因應,就考驗政府的態度了。這並不表示政府得通通自己來,而是應該解放資料,交由民間力量解構分析。資料開放的威力有多強大,g0v 零時政府等組織已經樹立典範,他們挖出各種公家機關冗贅複雜的資訊,結合眾人力量拆解、重組,轉化為清晰易讀的版本,達成真正揭露資訊的效果。

只是,新北市長朱立倫在會中表示,公務員對於「資料開放」仍存有心理障礙,很怕因此「工作不保」,恐懼民間反彈,「不敢失敗、不敢冒險」的心態依舊很普遍。但朱立倫也承諾,藉著資料開放打造更有效率的新北市政府,並將開放的精神推廣到全國。

培養開放心態,迎接大數據時代

在資料導向的新經濟時代,台灣應該如何接招?麥爾荀伯格認為,在天然資源貧乏的地區,更該具備數據分析的能力,比如大學設立巨量資料分析研究所,會有很大的幫助。目前巨量資料專家還不是很多,是值得好好把握的機會。而在專業技能之外,也應該培養開放的心態與冒險犯難的精神,他鼓勵台灣人別只侷限在台灣,應當放眼世界。

其實,麥爾荀伯格自己就是出生於奧地利偏遠山城,但從學生時代就有宏大的野心,身為律師的父親要他繼承衣缽,但他對物理與電腦的興趣更加濃厚。在父親過世前一天,他問兒子「到底想要做什麼」,麥爾荀伯格說「我要到哈佛大學當教授」,父親仍要他好好思考第二選項,不過終究,麥爾荀伯格做到了。他完成父親的遺願,念了哈佛法律並順利當上哈佛法律教授,但後來也遵循自己的意志,探索浩瀚的網路科技,麥爾荀伯格目前擔任牛津大學網路機構(Oxford Internet Institute)教授。

相關文章

評論