認識大數據的黃色小象幫手 –– Hadoop

繼雲端運算(Cloud Computing)之後,大數據(Big Data)接棒成為最熱門的科技潮字,和大數據有關的技術和科技接二連三成為科技圈注目的焦點,如果你也關注雲端跟大數據的資訊,Hadoop 這個字出現頻率一定挺高的,這個黃色小象 Logo 也應該經常亮相。究竟 Hadoop 是什麼?能夠用來解決什麼問題?又為什麼重要?
評論
評論

繼雲端運算(Cloud Computing)之後,大數據(Big Data)接棒成為最熱門的科技潮字,和大數據有關的技術和科技接二連三成為科技圈注目的焦點。如果你也關注雲端跟大數據的資訊,Hadoop 這個字出現頻率一定挺高的,這個黃色小象 Logo 也應該經常亮相。

yahoo網路行銷logo for inside

本文由 Yahoo 奇摩贊助。

hadoop-pic1

究竟 Hadoop 是什麼?能夠用來解決什麼問題?又為什麼重要?比起解釋一大堆技術上的細節,倒不如從 Hadoop 處理巨量資料的角度切入了解,看 Hadoop 能夠帶來什麼好處,同時也從這個方向反過來理解大數據。

Hadoop 簡史:黃色小象的由來

Hadoop 的雛形 Nutch 最初是由 Doug Cutting 和 Mike Cafarella 針對網頁相關的資料搜尋而開發,2006 年 Doug Cutting 進入 Yahoo 後成立了專業的團隊繼續研究發展這項技術,正式命名為 Hadoop。

Hadoop 這個名稱並不代表任何英文字彙或者縮寫代號,「Hadoop」來自於 Doug Cutting 兒子的一個黃色大象填充玩具 1,主要原因是開發過程中他需要為這套軟體提供一個代號方便溝通,而 Hadoop 這個名字發音簡單拼字容易,且毫無意義、也沒有在任何地方使用過,因此雀屏中選,黃色小象也因而成為 Hadoop 的標誌。

值得一提的是,在 Hadoop 之後所發展的幾個相關軟體和模組也都參考了這樣的命名方式,名稱不會與主要功能實際相關,而是採用與大象或其他動物有關的名稱作為其開發代號,像是 Pig、Hive、ZooKeeper 等等。

什麼是 Hadoop?

首先,想像有個檔案大小超過 PC 能夠儲存的容量,那便無法儲存在你的電腦裡,對吧?

Hadoop 不但讓你儲存超過一個伺服器所能容納的超大檔案,還能同時儲存、處理、分析幾千幾萬份這種超大檔案,所以每每提到大數據,便會提到 Hadoop 這套技術。

簡單來說,Hadoop 是一個能夠儲存並管理大量資料的雲端平台,為 Apache 軟體基金會底下的一個開放原始碼、社群基礎、而且完全免費的軟體,被各種組織和產業廣為採用,非常受歡迎。

然而要懂 Hadoop,你必須先了解它最主要的兩項功能:

  1. Hadoop 如何儲存資料(Store)
  2. Hadoop 怎麼處理資料(Process)

Forrester 分析師 Mike Gualtieri 曾錄製一段六分鐘的影片講解 Hadoop2,十分簡要易懂:

分散式檔案系統 HDFS

Hadoop 是一個叢集系統(cluster system),也就是由單一伺服器擴充到數以千計的機器,整合應用起來像是一台超級電腦。而資料存放在這個叢集中的方式則是採用 HDFS 分散式檔案系統(Hadoop Distributed File System)。

HDFS 的設計概念是這樣的,叢集系統中有數以千計的節點用來存放資料,如果把一份檔案想成一份藏寶圖,機器中會有一個機器老大(Master Node)跟其他機器小弟(Slave/Worker Node),為了妥善保管藏寶圖,先將它分割成數小塊(block),通常每小塊的大小是 64 MB,而且把每小塊拷貝成三份(Data replication),再將這些小塊分散給小弟們保管。機器小弟們用「DataNode」這個程式來放藏寶圖,機器老大則用「NameNode」這個程式來監視所有小弟們藏寶圖的存放狀態。

如果老大的程式 NameNode 發現有哪個 DataNode 上的藏寶圖遺失或遭到損壞(例如某位小弟不幸陣亡,順帶藏寶圖也丟了),就會尋找其他 DataNode 上的副本(Replica)進行複製,保持每小塊的藏寶圖在整個系統都有三份的狀態,這樣便萬無一失。

透過 HDFS,Hadoop 能夠儲存上看 TB(Tera Bytes)甚至 PB(Peta Bytes)等級的巨量資料,也不用擔心單一檔案的大小超過一個磁碟區的大小,而且也不用擔心某個機器損壞導致資料遺失。

來看看 Yahoo 的 Hadoop cluster 系統:

MapReduce 平行運算架構

上一段提到,HDFS 將資料分散儲存在 Hadoop 電腦叢集中的數個機器裡,現在我們要談談 Hadoop 如何用 MapReduce 這套技術處理這些節點上的資料。

在函數程式設計(Functional programming)3 中很早就有了 Map(映射)和 Reduce(歸納)的觀念,類似於演算法中個別擊破(Divide and Conquer)的作法,也就是將問題分解成很多個小問題之後再做總和。

MapReduce 顧名思義是以 Map 跟 Reduce 為基礎的應用程式。一般我們進行資料分析處理時,是將整個檔案丟進程式軟體中做運算出結果,而面對巨量資料時,Hadoop 的做法是採用分散式計算的技術處理各節點上的資料。

在各個節點上處理資料片段,把工作分散、分佈出去的這個階段叫做 Mapping;接下來把各節點運算出的結果直接傳送回來歸納整合,這個階段就叫做 Reducing。這樣多管齊下、在上千台機器上平行處理巨量資料,可以大大節省資料處理的時間。

黃色小象以及小象的朋友們

總和來看,Hadoop 透過 HDFS 和 MapReduce 這兩項核心功能,解決了檔案存放的問題、解決了系統擴張的問題、解決了系統備份的問題、解決了資料處理的問題,非常適合應用於大數據儲存和大數據分析,因此被廣泛接受成為大數據的主流技術。

當然 Hadoop 並沒有解決所有巨量資料帶來的難題,所以許多與 Hadoop 相關的技術被開發來應付巨量資料的其他需求 4。像是用來處理資料的 Script 語言「Pig」、類似 SQL 語法查詢功能的「Hive」、專門用在 Hadoop 上的資料庫系統「HBase」等。

Hadoop 生態系:

對 Hadoop 有初步的認識後,如果想進一步學習相關的大數據技術,可以參考 《成為大數據時代的精英學子:Big Data 的推薦好課!》 一文,其中列出了許多線上的 Hadoop 推薦好課。

 

<h3> 歡迎加入"Inside" Line 官方帳號,關注最新創業、科技、網路、工作訊息</h3>
<a href="https://line.me/ti/p/%40paq1370n"><img src="http://biz.line.naver.jp/line_business/img/btn/addfriends_zh-Hant.png" alt=" 好友人數" height="36″ border="0″ /></a>

<img src="http://qr-official.line.me/L/2Rc147bThe.png" alt="" />


Cookie 消失?試試看全新 AI 影像內容辨識:讓用戶看的內容決定看到的廣告

Google Chrome 即將淘汰幫助廣告主的工具—— Cookie ,它的離去將再一次地影響數位廣告產業。
評論
Photo Credit:<a href="https://www.shutterstock.com/zh/image-photo/ai-artificial-intelligence-big-data-internet-1075853384" target="_blank">shutterstock</a>
評論

透過GA分析進站者發現, Safari的新客數越來越多,難道這表示 iOS 的用戶數也跟著增加了嗎?注意了,這有可能是 Apple 封鎖第三方 Cookie 帶來的影響。隨著 Google 即將淘汰 Chrome 上的 Cookie ,這個幫助廣告主記住用戶受眾的小工具,將要再一次地影響數位廣告產業。

Photo Credit:驚點股份有限公司( FreakOut Taiwan )

後 Cookie 時代的廣告受眾如何鎖定?

各大廣告平台在過去幾年不斷地透過 Cookie 以及其它方式,悄悄收集使用者的用戶數據,隨著這幾年用戶的隱私權意識抬頭, Apple 與 Google 對於藉由 Cookie 辨識用戶資料的廣告投遞方式,持有不同的態度,這也將是所有廣告主的極大挑戰。當 Cookie 不復存在,要如何辨識使用者資料?

Cookie 消失了,或許會有新的數據辨識工具來取代,但是任何試圖跟蹤受眾的方式,都難以符合大眾對於保護隱私權的期望。另一方面,也極有可能無法再通過日趨嚴格的媒體監管限制。無論如何,數位廣告不能像過去一樣,無條件地使用類似 Cookie 的追蹤方式,來達到與現在同樣的廣告效果。

後 Cookie 時代內容辨識類型的廣告鎖定方式,將成為未來具指標性的投放策略。廣告與瀏覽平台或內文主題的高相關性,不僅能顯著提高受眾的互動度,更重要的是,完全不需要收集任何個人數據。

FreakOut Taiwan 不斷嘗試更友善的廣告投遞形式, 自 2016 年進入台灣市場的原生廣告,到 2020 年末引進「 Mirrors 」 AI 影像視覺內容辨識系統,都是以網路使用者的角度出發。「 Mirrors 」不需要使用傳統的受眾興趣設定,即可針對「目標受眾在觀看的影像內容」、「品牌自身競爭對手或相關指定系列產品出現的影片」來投遞 YouTube 上的影音廣告。

Photo Credit:驚點股份有限公司( FreakOut Taiwan )

AI 人工智慧影像技術突破,推動新一代內容辨識功能

傳統的內容比對廣告皆為自然語言處理 NLP 中心,基於「純文字」的比對來顯示相關廣告,如大家很熟悉的 Google AdSense 。但是,結合新興的 AI 演算和複雜的圖像辨識,已然能夠達到「影片」的內容偵測,透過增加多個比對層和基於自然語言處理 NLP 的基準定位,可深度學習並提供更精細的辨識洞察力。

舉例來說,若想要將汽車廣告投放給對汽車有興趣的人,我們要先從可能對汽車感興趣的受眾中開始推估,並且根據過去的經驗加入不同的興趣條件,最後針對素材更進一步地測試。透過 Mirrors ,我們可以讓廣告出現在有滿足特定條件的影片內,例如:在消費者觀看的影片中,出現汽車評測報告、自家品牌或競爭對手的 LOGO 、代言人等指定條件,再依照不同廣告主設定的預算判斷是否露出廣告。

藉由這樣的影像比對方式,可以更有效地根據消費者行為觸發廣告投遞條件,而不再是現行的用戶受眾數據。人的興趣是多樣且多變的,當對汽車有興趣的用戶在完成汽車的選購後,短期內將不會再瀏覽相關資訊,轉而瀏覽其他更具時效性的內容。透過消費者當下正在觀看的影片內容,取代消費者身上被貼上的數位標籤,將更貼近消費者本身的使用行為。

Photo Credit:驚點股份有限公司( FreakOut Taiwan )

Mirrors AI 影像辨識:用消費者看的內容決定廣告

2021 年台灣數位報告指出,台灣人在各網路內容服務中,最愛「網路影片」的比例高達 97.9%,遠超過 Vlog、串流音樂、網路廣播、Podcast 。

影音廣告早已是品牌經營的趨勢:根據 DMA 2019 年台灣數位廣告量統計報告指出,台灣各類型廣告中,影音廣告以 37.2% 的成長比例大幅領先奪冠。其中 YouTube 持續蟬聯台灣最常被造訪網站第 2 名(僅次於 Google ) ,在台灣各大影音平台中的觸及率及影響力不容小覷。

2021 年 FreakOut Taiwan 已與客戶合作,進行搭載新系統的 YouTube 串流內廣告投遞,在針對品牌及產品客製化的多層鎖定策略建議下,房地產廣告的 CTR 表現高於平均,並發現「人臉」群組辨識表現為佳,其中多為財經、名嘴等名人。而美妝品牌廣告 VTR 表現優異,則以品牌「 Logo 」、「人臉」群組有最出色的表現。

本文章內容由「驚點股份有限公司( FreakOut Taiwan )」提供,經關鍵評論網媒體集團廣編企劃編審。