專訪 KKTV 資料競賽團隊:辦比賽,得像新創公司一樣經營!

不過是辦個資料探勘競賽,有必要這麼認真,這麼花功夫嗎?KKTV 的經驗告訴你,真的很值得!
評論
評論

無論發起方規模大小,只要有好題目、好資料與好解法,資料探勘競賽不僅是工程師與駭客們彼此切戳的絕佳場景,也一直都是充滿活力,十分受用的創新途徑。但對一間企業而言,資料探勘競賽到底怎麼深化到組織內部,成為更深層也更有趣的創新動能呢?單單今年就一連舉辦四次,把「辦比賽」當作新創公司在經營的 KKTV、KKStream 或許就是好例子。

我們這次專訪到資深技術總監官順暉、資料科學家羅經凱、工程師莊鐵鴻與專案副理徐小涵,來談談 KKTV 怎藉由縝密的專案執行,讓資料競賽不只發揮了開發功能,甚至還進一步成為提升團隊全體技術水準的最佳媒介。

辦比賽就是在辦新創

「團隊雖然小,但我們完全把整回事(資料探勘競賽)當作在營運一間公司。」官順暉在訪談剛開始,就把成員列舉成新創公司的各主管一一介紹:他自己負責目標設定、資源調配與對外溝通,顯然是 CEO 的角色;怎麼籌劃整件事進行則是資料科學家羅經凱博士的工作,是 COO。

辦比賽有很多細節,像資料怎麼整理?比賽題目怎麼訂?要設定什麼環境?那就是由精通機器學習的 CTO 莊鐵鴻跟羅經凱一起討論了。最後 KKTV 那麼大,那該怎麼使資料競賽都能讓每位同事都能一起參與進來?所以就有了負責「行銷」的 CMO 徐小涵。

你或許看到這裡就會想問了:不過是辦個資料探勘競賽,有必要這麼煞有其事,這麼花功夫嗎?官順暉倒反過來說明:「單單只用舉辦一場『活動』,就讓(包括非技術職)同事們資料怎麼使用,甚至讓大家積極參與,這件事沒那麼容易。」從此不難窺見:像 KKTV 乃至 KKBOX 集團這種大型組織,若要真有效集合全體能量,就算是這種「有趣」的活動,縝密規劃仍不可少。

不只獲得開發成果,同仁技術水平也有顯著提升

那 KKTV 究竟是為了什麼舉辦資料探勘競賽呢?羅經凱說明原因分一遠程,一近端。放遠來看,KKTV 與 KKStream 畢竟是網路科技公司,同仁們也都知道「資料分析」是最重要也是最熱門的技術趨勢,但該怎麼落實到每位同仁手上?舉辦比賽就成了最有趣的路徑之一,而另一個近端原因就是 KKTV 想快速開發精準有效的推薦系統。

▲KKTV 資料科學家羅經凱博士之前在 KKBOX 就有豐富的資料分析經驗

因此他們在第一次、第二次競賽在 Kaggle 上釋出去識別化,連續三個月的使用者觀影資訊,其中包括觀看的時間點、時長,以及使用者所在的地區、國家,以及他們看的劇名、劇種;題目就是「推坑好劇,由你決定」,要從七百多部劇中,去猜七萬名使用者每個人下個月所看的劇。有點意外的是,第一次對內比賽居然是由懂機器學習,用 Random Forests 的在學生獲得冠軍,擊敗了眾多工程師。

莊鐵鴻補充第一次比賽有一隊由三位不會寫程式的 PM 所組成,居然用 EXCEL 也拿下了不錯成績!只可惜 EXCEL 算力終究有限,但這無疑為官順暉、羅經凱、莊鐵鴻等人感到窩心,讓他們覺得在公司舉辦資料競賽的方向確實可行。歷經了兩次競賽,KKTV 後來真依照其結果在七月實裝了頗為有效的推薦系統。

第三、第四次則是加入了「時間點」要素,一口氣釋出了上千萬筆去識別化的使用者資料,其中不只有從註冊至今的觀影行為,就連是用哪隻手機、桌機還是平板,甚至是用 Wi-Fi 還是 4G 都含括在內,請參賽者根據過去行為,推算使用者在未來一週內的看劇時段;往後運用在 KKTV 上,就是做出精準有效率的推播系統。在第四次最終公開賽,前三名 Leader board 成績幾乎達到了 0.893(也就是命中率 89.3%)之水準。

▲KKTV 後來真依資料競賽結果,七月實裝了頗為有效的推薦系統

機器學習如何在探勘競賽中發威?舉辦方又該怎麼整理資料?

莊鐵鴻分享了一個小插曲:在第三次比賽中,KKTV 內部有個團隊堅持用各種先期假設的演算法挑戰機器學習,但後來果然成績不敵機器學習的團隊,比賽後一轉態度,認真研究機器學習去了。「經過這次我們更深刻理解:現在很多事情已經無法靠 Domain Knowledge 解決,大家必須積極擁抱機器學習的時候到了。」像第一、第三名採用了 Gradient Boosting,第二名也就是莊鐵鴻自己則是用 CNN 卷積神經網路。

而第四次公開賽甚至吸引了來自趨勢、富士康、微軟等知名 IT 公司的高手參加,甚至有位大學教授在 Kaggle 只用十次解答,在最後一刻獲得了第三名。

談到資料探勘競賽,就不得不談談「資料品質」的話題。莊鐵鴻認為準備資料最重要的環節就在於這些資料到底能不能與問題的邏輯相符,然後再將其清乾淨並去識別化。官順暉補充 2007 年 Netflix 也辦過一次資料比賽,但去識別化後的資料竟然被參賽者反推成功,從此成為舉辦競賽的一次反例。所以提供給參賽者的資料不僅理所當然得把敏感個資去掉,就連使用者與影片的 ID 都要以亂數重新遮蓋,觀看時間也是整段平移了。

那明年 KKTV 還要繼續辦嗎?官順暉與羅經凱回答:當然要囉!事實上他們很享受跟資料高手過招、交流的過程,徐小涵也表示明年想擴大事後交流規模,成為資料圈中類似於創業小聚的常態性活動。「題目方面我們也不缺啦,資料能做的事太多了」羅經凱笑稱,接下來想湊合學界與業界做成 Workshop 的形式,讓台灣資料科學的大家都能正向成長。


一圖看懂微電腦瓦斯表:三大安全遮斷功能,守護居家安全「不漏氣」

相較於傳統機械式瓦斯表,新型的微電腦瓦斯表可以主動偵測異常情況,在漏氣、超時使用、五級以上地震發生時,自動遮斷瓦斯,以防瓦斯外漏所造成的氣爆、火災等危害,強化居家安全的守護。
評論
Photo Credit:TNL Brand Studio
評論

你收過瓦斯公司寄來說明可換裝微電腦瓦斯表的通知單嗎?自從 2011 年天然氣事業法通過之後,政府便開始推廣微電腦瓦斯表,屆齡換裝微電腦瓦斯表完全免費,每個月也只要多 40 元的基本費,就可以享受微電腦瓦斯表所帶來的安全保障。和傳統瓦斯表相比,微電腦瓦斯表增加了精密微電腦晶片、感震器、壓力開關、緊急遮斷閥等零組件,在偵測到漏氣、超時使用、大地震時,便會進行自動遮斷功能。這些功能對你我的居家安全有什麼保障?一起來搞懂吧!

Photo Credit:TNL Brand Studio

三大安全遮斷-漏氣遮斷

瓦斯管線會因為風吹雨淋日曬、被老鼠嚙咬等原因,而慢慢老化破裂;再加上台灣地震頻繁,也是導致瓦斯管線鬆脫漏氣的原因之一。一般來說,我們可以透過發現家中瓦斯的使用量異常增加,或者是聞到瓦斯特有的臭味,來注意到瓦斯有漏氣的情況。可是,現代家庭的瓦斯管線往往鋪設在室外,又或者大量漏氣的時候沒人在家、或正在其他房間休息,可能不會發現這個危險警訊。

微電腦瓦斯表可以偵測到瓦斯漏氣的問題,並且自動進行「漏氣遮斷」,在第一時間阻止易燃的瓦斯洩漏,以免在不知情的狀況下浪費瓦斯,甚至造成嚴重災禍,全家人每天都能安心生活。

三大安全遮斷-超時遮斷

想必很多人都有急著出門,然後突然想不起自己到底有沒有把爐火關掉的經驗吧?這種不踏實的心情,在忙得抽不開身的時候,特別讓人覺得難受。大家可能也聽說過,家中長輩開了瓦斯爐燒水泡茶,結果朋友打電話來聊天,講著講著就忘記瓦斯爐的火還開著,如果爐火一直燒下去,可能真的會導致一發不可收拾的憾事。

微電腦瓦斯表可以偵測瓦斯的使用量與時間的關係,開大火的話,用氣的時間會縮短;開小火的時候,時間就會相對拉長。這個功能可以在家人使用瓦斯,但忘了關火時,自動判斷是不是應該要啟動「超時遮斷」的功能。

三大安全遮斷-地震遮斷

發生五級以上的地震時,如果正好在使用瓦斯,微電腦瓦斯表就會馬上停止供氣,這就是「地震遮斷」功能。說到地震,其實和微電腦瓦斯表的發明及推廣有著非常密切的連結。日本早在 1987 年就開始推廣使用微電腦瓦斯表,因為有這項設備,所以不管是 1995 年的阪神大地震,或者 2011 年的 311 大地震,都因為「地震遮斷」發揮作用,才不至於因為瓦斯而引起更多事故。

同樣位於地震帶上的台灣,我們向來十分在乎房屋的結構和材料是否防震,如果能更進一步裝設微電腦瓦斯表,在地震發生時發揮作用,自動遮斷瓦斯,就能防止因為設備損壞所造成的瓦斯外洩以及氣爆、火災等事故。

微電腦瓦斯表在日本目前已有將近 100% 之普及率。在台灣,目前的年度裝置率則從 2014 年的 8.43%,提升至 2022 年第 2 季的 48%。所謂多一份用心,就是多一份保障。在我們小心用氣、用火的同時,再加上微電腦瓦斯表的主動防護,家人的生命安全和財產保障,就更加完整了!

經濟部能源局廣告