要玩資料?先重視資料的可取得性——KKBOX 資料科學團隊經驗分享

上個月舉行的「2015 台灣科學愛好者年會」,KKBOX 資料科學團隊以「資料科學在數位音樂的實踐與分析」為題,向與會人士分享了這家以家跨出台灣的本土串流音樂服務,建立資料科學團隊的相關經驗與成果,本文將著重於 KKBOX 研究中心經理林佑璟建立資料科學團隊的經驗。
評論
評論

上個月舉行的「2015 台灣科學愛好者年會」,KKBOX 資料科學團隊以「資料科學在數位音樂的實踐與分析」為題,向與會人士分享了這家以家跨出台灣的本土串流音樂服務,建立資料科學團隊的相關經驗與成果,本文將著重於 KKBOX 研究中心經理林佑璟建立資料科學團隊的經驗。

來自國內業界的研究不多

林佑璟表示,過去在學習音樂檢索時,曾讀過許多論文,但國內外的研究有一項很大的差異:業界論文產出,來自亞洲業界的研究明顯比較少。因此,三年前他加入 KKBOX 成為第一位研究員,立志打造強大的資料團隊。

兩週後,資料呢?

不過,現實總是沒有想像中的美妙,林佑璟向資深工程師要資料,對方叫他開票(ticket),結果過了兩個禮拜後還是沒拿到任何資料。後來,他發現:

  1. 資料在哪個部門?得先找到對的人。
  2. 資料散落在各個機器裡,要先找出資料。
  3. 資料的格式和欄位,有些都是十年前的產物,現在可能沒人知道那些欄位代表什麼意思了。
  4. 經常需要向其他部門解釋為何他需要資料。

運用資料科學做研究,卻遭遇跨部門的問題,KKBOX 並不是一個,行政院副院長張善政曾在七月的一次談話中指出:

跨部會問題也是在做大數據分析時的障礙。以前面提過的民間企業薪資分析為例,他建議財政部整合勞動部的勞保資料,得到的回應竟然是「不想,因為很麻煩。」然而光是依靠所得稅資料來看的結果,就是怎麼做都做不出來。「做大數據分析,要勇於跨出部會間的藩籬。」

相關文章:〈 張善政:大數據應立專法,但不是現在

面對部門之間對於資料運用理解上的差異,林佑璟表示:只能靠溝通。

從對方的角度出發

林佑璟提到,向其他部門索取資料遭遇阻礙時,不要覺得對方是要刻意刁難,而是要透過溝通,從對方的角度出發,讓對方明白取得資料進行分析後,可以為該部門、為公司帶來的價值是什麼。

除了用講的之外,製作原型讓其他部門的人知道資料的效用也是好方法。在索取資料的同時,一定要讓對方明白研究團隊會好好地保管、使用資料。

經過一番努力之後,林佑璟與團隊取得了如下的成果:

  • 統一儲存位置:AWS S3
  • 統一為可延展的資料格式:JSON
  • 建立文件避免做重複的事:Wiki
  • 開放沒煩惱:避開個人隱私資料

資料有點太多

然而,往下坐之後,林佑璟發現一件事,讓他自己也覺得有趣:

資料有點太多。

龐大資料帶來的主要影響是跑一支程式需要花上好幾天的時間,萬一中間發現有 bug,又要花好幾天修改、等結果。因此團隊開始探索更合適的技術如 Hadoop。但林佑璟也直言,追新技術很花時間。例如 Hadoop 某些特性會造成跑一次會很久,使用當時還不穩定的 Spark,又常常會遇到 OOM(Out of Memory)。

然而,林佑璟指出,團隊內的資料科學家會抗拒使用 Hadoop 相關的技術,因為他們可能習慣使用 R 和 Python。他指出,要知道資料科學家不是神,問題要交給合適的人用合適的工具去解決。他引用了 Adam Drake 寫的文章,1 表示有時候用 command-line tools 就可以解決的問題,未必需要動用到 Hadoop。

於是 KKBOX 發展出了一套資料科學團隊架構。

KKBOX 的資料科學團隊架構

林佑璟所屬的 KKBOX 研究中心發展出以下的團隊架構:

Data Engineering

把 raw data 吃進來之後,使用 Hadoop 或 Spark 等技術製作儀表板和報告給管理團隊或相關團隊看,同時會將相關資料整理到比較好存取的資料庫,供未來其他團隊使用。

Data Science

資料科學團隊則是拿資料工程團隊整理好的儀表板和報告資料進行分析,偶爾也會看一下資料工程團隊整理好的原始資料,由於此時資料量已經沒那麼大,資料科學團隊的成員可以使用他們習慣的 Python 或是 R。

Machine Learning

林佑璟解釋,KKBOX 是音樂串流服務,因此推薦引擎和分類機制相當重要。推薦引擎這個「引擎」會需要好的「機油」,而資料科學家產生的 data insight 就是推薦引擎的「機油」。

進一步舉例,KKBOX 的想法是,如果要解決一個推薦引擎的問題,團隊會將問題細分成三塊,各自交給適合的小組來負責,這樣處理起問題會更加有效率。

林佑璟呼籲,團隊要重視資料的可取得性,沒人碰的資料等於沒有價值。選擇適當的工具,一味追求新技術並沒有那麼重要,能解決問題,舊工具也是好工具。不同的問題要交給不同的人處理。


  1. Command-line tools can be 235x faster than your Hadoop cluster

【一圖看懂】民生基礎建設的資安防禦為何重中之重?ACW SOUTH 沙崙基地打造天然氣、石化、變電所三大測試場域為大眾保駕護航

這幾年的新冠疫情、俄烏戰事奪走許多寶貴生命,讓網路流行一句「你的歲月靜好,是有人為你負重前行。」當我們能夠安居樂業過著恬靜生活,其實是仰賴一群人在社會各個角落堅守崗位,多數人才能享受無虞的生活及安全的家園。
評論
Photo Credit:TNL Brand Studio
評論

我們在食衣住行許多方面皆與水、電、天然氣等資源息息相關,在高度數位化的現代,臺灣在面對這些資源的基礎建設時,網路安全的防禦為何比其他國家更需謹慎面對?這件事可以從俄烏戰爭獲得啟發。

Photo Credit:TNL Brand Studio

從俄烏戰爭居安思危,臺灣每月面臨 4000 萬次的網路攻擊

有人說如果有一天真的發生第三次世界大戰,那一定會發生在網路上。從近期的俄烏戰爭來看,除了使用傳統槍砲坦克,更值得注意的是雙方都派出大量 IT 駭客,攻擊對方的油水電重要基礎建設的伺服器、通訊設施,企圖阻斷即時資訊,藉此癱瘓敵方的民生設備運作。

事實上,一般駭客不會主動攻擊一個國家的基礎建設,大多是鎖定企業等級為目標,像是美國燃油管線營運公司,受到來自東歐的勒索病毒攻擊,被迫暫停營運同時還要支付新台幣 1 億 4,000 萬元的贖金,造成當地民眾恐慌,發生一波搶購燃油熱潮。

而臺灣因為政治戰略的因素,外部駭客總是虎視眈眈,想要癱瘓我國的民生關鍵基礎設施。過去幾年間臺灣每月平均受到 2,000 萬到 4,000 萬次外來攻擊,甚至懷疑一起大型惡意軟體攻擊,幕後的駭客是有國家力量在撐腰。

臺灣民生建設資安防禦迫在眉睫,ACW SOUTH 沙崙基地扮演關鍵角色

身為島國的臺灣,電力、石油、天然氣及水利等資源設備,是供應國內經濟發展及民生需求的重要資產。面對各項能源設備資安的防護,我國經濟部長王美花過去就曾公開表示,「油電水等關鍵設施假使被破壞,後果不堪設想,所以資安是重要基本功,一定要發展做好防護措施。

身為國內首屈一指的「ACW SOUTH 沙崙資安服務基地」(以下簡稱 ACW SOUTH 資安基地),承接起重責大任,提供資安實驗場域,模擬攻防演訓及產品驗測服務;也會邀請資安服務廠商與工控營運業者到沙崙場域,進行實作的技術交流。

ACW SOUTH 資安基地計畫團隊表示,「透過資安服務商與工控營運業者的交流分享,有助促進產業對於工控資安了解與場域運用;同時我們也會辦理工控資安等相關課程、研討會及交流會,鏈結資安與工控業者幫助雙方有更深入的技術合作。」

目前 ACW SOUTH 資安基地的「關鍵基礎設施工控場域」主要有「石化/化工、天然氣及變電所」三套系統,模擬五套攻擊劇本,協助相關基礎設備的管理者,在受到攻擊當下知道該如何反應,及早因應強化資安防禦實力。萬一遭遇偽造工作站監看數據、偽造命令操控電磁閥和空壓機、電驛傳輸通訊中斷等攻擊事件,就能立刻啟動應變流程。

走訪 ACW SOUTH 資安基地關鍵基礎設施,了解三大測試場域功能有多強

場域一、石化基礎設施
2020 年臺灣兩大石化公司接連傳出資安攻擊事件,部分資訊系統感染勒索軟體病毒,造成加油站的支付系統停擺,導致消費者付款機制受到影響。

ACW SOUTH 資安基地提供的化工模擬製程實體運作機櫃,是全台首座「石化/化工製程水位控制平台」,模擬情境為一般化工反應槽連續式循環水流水位控制,以水為循環流體模擬,可提供研究測試與訓練使用、自主開發攻防情境。來現場測試的業者,可透過視覺式監控介面與 DCS 收集現場監測儀表的即時資訊,做到收集完整數據紀錄及警報,具體測試資安防護設備與解決方案。

場域二、天然氣基礎設施
美國一家天然氣壓縮公司曾經受到勒索軟體攻擊,駭客透過魚叉式網釣攻擊入侵 IT 網路,再找機會滲透到 OT 網路,並在這兩個網路部署勒索軟體,導致人機介面、伺服器完全失能,公司業務被迫停擺兩天。

ACW SOUTH 資安基地的儲槽氣體壓力監控系統,模擬情境為天然氣廠氣體儲槽壓力,使用空壓機模擬天然氣體,當氣體壓力高於或低於警報值時,系統畫面警示工作站主機,並同時記錄數據變化、警報和事件。

場域三、變電所基礎設施
2021 年台電董事長說台電遭駭客攻擊幾乎每天發生;俄烏戰爭過程,俄羅斯駭客也曾嘗試對烏克蘭發電廠下手,利用資料破壞軟體發動攻擊,藉此癱瘓高壓變電所,讓烏克蘭當地無電可用。

電力系統無論在發電、輸電及配電的任一部分發生故障,都有可能影響整個供電系統異常,因此保護電驛的作用就在及早隔離故障,避免影響到後續的相關設備。ACW SOUTH 資安基地的保護電驛監控系統採用 IEC61850 標準來進行網路通訊,可用來監視、記錄電驛突發事件,藉此模擬變電所遭受攻擊的危機處理。

要讓臺灣關鍵基礎設施免於駭客襲擊,可說是天方夜譚,但我們能做的是提升資安、強化防禦韌性,更有餘裕時間來防禦或補救攻擊。ACW SOUTH 資安基地的關鍵基礎設施,目前打造了三大測試場域,擁有可實際演練的攻防腳本,並進行資安產品的驗測。

ACW SOUTH 資安基地深知臺灣以製造業起家,尤其近年半導體領域成為舉世聞名的護國神山;另外因應全球淨零碳排議題,綠能也是前景可期的重要產業。因此在 ACW SOUTH 資安基地除了有關鍵基礎設施,還設計智慧製造、智慧綠能、半導體及物聯網等主題,可為相關業者做攻防演訓及產品驗測,有助提升我國整體資安防禦力。

「經濟部工業局 廣告」