大數據時代中求生存:9 個必殺絕技殺進 Big Data 市場

拜網路普及與科技進步之賜,Big Data 的熱潮越燒越烈,許多處理資料分析與管理的技術因應而出,迎來了巨量資料的時代。要能在這大數據市場中殺出一條血路,以下這 9 個必殺絕技你一定要學起來。
評論
評論

拜網路普及與科技進步之賜,大數據(Big Data)的熱潮越燒越烈,許多處理資料分析與管理的技術因應而出,迎來了巨量資料的時代。要能在這大數據市場中殺出一條血路,以下這 9 個必殺絕技你一定要學起來。

yahoo網路行銷logo for inside

本文由 Yahoo 奇摩贊助。

1) Apache Hadoop 黃色小象幫手

hadoop-pic1

在上一篇文章 《認識大數據的黃色小象幫手 –– Hadoop》 裡介紹了 Hadoop 的兩大核心功能 —— 儲存(Store)及處理(Process)資料所用到的分散式檔案系統 HDFS 跟 MapReduce 平行運算架構。

基於 Hadoop 處理巨量資料的種種優勢,像是解決了檔案存放、系統擴張、資料處理及備份等問題,因此 Hadoop 被廣泛應用於大數據儲存和大數據分析,成為大數據的主流技術。

在近幾年內,叢集運算(clusters)在商用性與非商用性的領域也越來越普遍且應用的相當廣泛,2014 年無庸置疑成為了 Hadoop 的豐收年,對於 Hadoop 生態系例如 Flume, Oozie, Hive, Pig, HBase, YARN 等技能的市場需求也逐漸提高。

2) 大數據黑馬:Apache Spark

如果 Hadoop 是大數據市場裡的老大哥,那 Spark 則是具有超凡潛力的一匹黑馬!

Sparkimage

Spark 是一個用途廣泛的叢集運算引擎,簡單來說就是一個能讓原本使用 Hadoop 來處理及分析資料的系統快 10 到 100 倍的好工具。

由於 Hadoop 分析資料時需要將中間產生的數據存在硬碟中,因此會有讀寫資料的延遲問題;有別於 Hadoop 的 MapReduce 架構,Spark 使用了「記憶體內運算技術(In-Memory Computing)」,能在資料尚未寫入硬碟時,就在記憶體內進行分析運算,號稱比原先的 Hadoop 快 100 倍。

去年在 資料排序基準競賽(Sort Benchmark Competition) 中,Spark 用 23 分鐘完成 100 TB 的資料排序,刷新了原本由 Hadoop 保持的 72 分鐘世界記錄 1

3) 不只是 SQL:NoSQL

最近幾年網路上的資料量開始快速大量成長、資料量與日遽增,為了解決資料庫在進行大量資料存取時,所衍生出效能、擴充、維護等問題,近年來業界紛紛捨棄了以結構化查詢語言(SQL)為基礎的關聯式資料庫管理系統(RDBMS),改以 NoSQL 資料庫來提升效能與擴充彈性。

nosql

NoSQL 最早是指「No SQL」,號稱不使用 SQL 作為查詢語言的資料庫系統。但近來則普遍將 NoSQL 視為「Not Only SQL」,也就是「不只是 SQL」的意思,希望結合 SQL 優點並混用關聯式資料庫和 NoSQL 資料庫來達成最佳的儲存效果。

在巨量資料所帶動的潮流下,各種不同形態的 NoSQL 資料庫如雨後春筍般竄起,其中 MongoDB 是眾多 NoSQL 資料庫軟體中較為人熟知的一種。

4) 機器學習與資料探勘超夯!

在巨量資料中如何摸索出資料所要表達的意涵、提煉出「數據精華」是非常重要的課題,於是「機器學習(Machine Learning)」與「資料探勘(Data Mining)」成為了大數據時代中的重點領域。

large-icon

機器學習可以從過去收集的資料與經驗中,萃取出感興趣的部份,構造出模型(Model)和規律(Pattern)當作我們參考的基準,對未來進行預測。應用機器學習的方法處理大量資料庫的數據則稱為「資料探勘」(Data Mining),顧名思義,就好比在地球上從一堆粗糙的石頭中進行地物探勘、尋找有價值的礦脈,資料探勘就是從巨量資料中提取出未知的、有價值的潛在資訊。

機器學習跟資料探勘到底有多夯?LinkedIn 之前發表的 2014 年「最熱門工作技能」排行榜 2,資料探勘(Data mining)榮登排行榜第一名這樣夯。

The-25-Hottest-Skills-of-2014-on-LinkedIn

5) 統計及量化分析

大數據時代,統計與資料分析是根本中的根本,數學跟統計學則是基礎中的基礎。數據專家(Data Scientist)或量化分析師(Quantitative Analyst)的專業包含了統計學、電腦科學和數學,過去這些人才都搶著要進華爾街工作,但多虧了 Big Data 帶來的風潮,現在各行各業都在尋找擁有量化分析、統計學背景的工程師、數據專家。

如果數學是你的拿手強項,基本上你已經贏在起跑點了,接下來再學習市面上的一些資料分析軟體及程式語言,像是 R、SAS、Matlab、SPSS、Stata 等,具備了以上技能,相信要進大數據一行不成問題。

6) 結構化查詢語言 SQL

結構化查詢語言(Structured Query Language),簡稱 SQL,是專門用於關連式資料庫的一種查詢語言,可以用來定義資料庫結構、建立表格、指定欄位型態與長度,也能新增、異動或查詢資料。簡單來說,SQL 是一種用來從資料庫讀取與儲存資料的電腦語言。

SQL 歷經了四十多年的考驗仍然在蓬勃發展,雖然 NoSQL(上述第三點)的出現帶來了一些影響,但 SQL 仍然主導着市場,並在大數據領域贏得了很多投資與廣泛部屬。像是 Cloudera 推出了即時查詢開源工具 Impala –– 一款用來跑在 Hadoop 架構上的互動 SQL 查詢引擎,在這些工具發展下 SQL 在大數據領域中更是歷久不衰。

7) 看圖說故事:資料視覺化

大數據的重要性與日俱增,不少企業如電子商務、零售業及半導體製造業等,開始廣泛運用巨量資料為公司擬定企業策略,不過並不是人人都是數據專家、資料科學家,如果要讓主管跟客戶們清楚了解資料背後的意義,那倒不如讓他們「一目了然」。

資料視覺化(Data Visualization)是關於數據之視覺表現形式的研究,資料視覺化的技術可以幫助不同背景的工程人員溝通、理解,以達良好的設計與分析結果。市面上已經有許多工具、軟體為人們提供這方面的需求,像是 TableauQlikView 等工具就擁有絕佳的視覺化呈現效果,可以不限資料量、資料形式或主題,透過圖像化和便捷的操作介面製作出客製化報表,無需撰寫程式就能得到分析結果。

想多了解資料視覺化,可以看看這段 Ted Talk:

8) 基本程式開發能力

市場分析機構 Wanted Analytics 公佈的數據 3 中,具有數據分析背景的電腦程式開發人員職位正在逐年增加中,2014 年最後四個月就增加了 2000 個相關的新職缺,比起 2013 年同期多出了 337%!

1.5.15 hiring demand

因此,基本程式開發能力也是在這大數據市場中生存的必要條件之一,在資料科學界裡,Java、C、Python、Scala 都是十分受歡迎的程式語言。

9) 創造力和問題解決能力

problem-solving-assessment

巨量資料的型態及發展會不斷的演化,無論你的程式開發能力有多好、精通多少項資料分析工具,要在大數據時代中活得好、長得壯,創造力(Creativity)和解決問題能力(Problem Solving)的重要性不可忽視,更是以上提到的工具跟技術都無法取代的必殺技!


Cookie 消失?試試看全新 AI 影像內容辨識:讓用戶看的內容決定看到的廣告

Google Chrome 即將淘汰幫助廣告主的工具—— Cookie ,它的離去將再一次地影響數位廣告產業。
評論
Photo Credit:<a href="https://www.shutterstock.com/zh/image-photo/ai-artificial-intelligence-big-data-internet-1075853384" target="_blank">shutterstock</a>
評論

透過GA分析進站者發現, Safari的新客數越來越多,難道這表示 iOS 的用戶數也跟著增加了嗎?注意了,這有可能是 Apple 封鎖第三方 Cookie 帶來的影響。隨著 Google 即將淘汰 Chrome 上的 Cookie ,這個幫助廣告主記住用戶受眾的小工具,將要再一次地影響數位廣告產業。

Photo Credit:驚點股份有限公司( FreakOut Taiwan )

後 Cookie 時代的廣告受眾如何鎖定?

各大廣告平台在過去幾年不斷地透過 Cookie 以及其它方式,悄悄收集使用者的用戶數據,隨著這幾年用戶的隱私權意識抬頭, Apple 與 Google 對於藉由 Cookie 辨識用戶資料的廣告投遞方式,持有不同的態度,這也將是所有廣告主的極大挑戰。當 Cookie 不復存在,要如何辨識使用者資料?

Cookie 消失了,或許會有新的數據辨識工具來取代,但是任何試圖跟蹤受眾的方式,都難以符合大眾對於保護隱私權的期望。另一方面,也極有可能無法再通過日趨嚴格的媒體監管限制。無論如何,數位廣告不能像過去一樣,無條件地使用類似 Cookie 的追蹤方式,來達到與現在同樣的廣告效果。

後 Cookie 時代內容辨識類型的廣告鎖定方式,將成為未來具指標性的投放策略。廣告與瀏覽平台或內文主題的高相關性,不僅能顯著提高受眾的互動度,更重要的是,完全不需要收集任何個人數據。

FreakOut Taiwan 不斷嘗試更友善的廣告投遞形式, 自 2016 年進入台灣市場的原生廣告,到 2020 年末引進「 Mirrors 」 AI 影像視覺內容辨識系統,都是以網路使用者的角度出發。「 Mirrors 」不需要使用傳統的受眾興趣設定,即可針對「目標受眾在觀看的影像內容」、「品牌自身競爭對手或相關指定系列產品出現的影片」來投遞 YouTube 上的影音廣告。

Photo Credit:驚點股份有限公司( FreakOut Taiwan )

AI 人工智慧影像技術突破,推動新一代內容辨識功能

傳統的內容比對廣告皆為自然語言處理 NLP 中心,基於「純文字」的比對來顯示相關廣告,如大家很熟悉的 Google AdSense 。但是,結合新興的 AI 演算和複雜的圖像辨識,已然能夠達到「影片」的內容偵測,透過增加多個比對層和基於自然語言處理 NLP 的基準定位,可深度學習並提供更精細的辨識洞察力。

舉例來說,若想要將汽車廣告投放給對汽車有興趣的人,我們要先從可能對汽車感興趣的受眾中開始推估,並且根據過去的經驗加入不同的興趣條件,最後針對素材更進一步地測試。透過 Mirrors ,我們可以讓廣告出現在有滿足特定條件的影片內,例如:在消費者觀看的影片中,出現汽車評測報告、自家品牌或競爭對手的 LOGO 、代言人等指定條件,再依照不同廣告主設定的預算判斷是否露出廣告。

藉由這樣的影像比對方式,可以更有效地根據消費者行為觸發廣告投遞條件,而不再是現行的用戶受眾數據。人的興趣是多樣且多變的,當對汽車有興趣的用戶在完成汽車的選購後,短期內將不會再瀏覽相關資訊,轉而瀏覽其他更具時效性的內容。透過消費者當下正在觀看的影片內容,取代消費者身上被貼上的數位標籤,將更貼近消費者本身的使用行為。

Photo Credit:驚點股份有限公司( FreakOut Taiwan )

Mirrors AI 影像辨識:用消費者看的內容決定廣告

2021 年台灣數位報告指出,台灣人在各網路內容服務中,最愛「網路影片」的比例高達 97.9%,遠超過 Vlog、串流音樂、網路廣播、Podcast 。

影音廣告早已是品牌經營的趨勢:根據 DMA 2019 年台灣數位廣告量統計報告指出,台灣各類型廣告中,影音廣告以 37.2% 的成長比例大幅領先奪冠。其中 YouTube 持續蟬聯台灣最常被造訪網站第 2 名(僅次於 Google ) ,在台灣各大影音平台中的觸及率及影響力不容小覷。

2021 年 FreakOut Taiwan 已與客戶合作,進行搭載新系統的 YouTube 串流內廣告投遞,在針對品牌及產品客製化的多層鎖定策略建議下,房地產廣告的 CTR 表現高於平均,並發現「人臉」群組辨識表現為佳,其中多為財經、名嘴等名人。而美妝品牌廣告 VTR 表現優異,則以品牌「 Logo 」、「人臉」群組有最出色的表現。

本文章內容由「驚點股份有限公司( FreakOut Taiwan )」提供,經關鍵評論網媒體集團廣編企劃編審。