學大數據不卡關:精選 Big Data 相關用語

大數據 (Big Data) 與資料科學 (Data Science) 已成為大眾耳熟能詳的詞彙,身處於「大數據時代」的我們,自然得對大數據有所認識。在這裏列出了一些經常跟大數據一起出現的陌生用語,認識了這些大數據相關字彙,下次看大數據的相關文章就不會一直「卡」了。
評論
評論

大數據 (Big Data) 與資料科學 (Data Science) 已成為大眾耳熟能詳的詞彙,各行各業正在積極運用且開發大數據的價值,這些巨量資料也帶來了巨大的商機。

yahoo網路行銷logo for inside

本文由 Yahoo 奇摩贊助。

這時身處於「大數據時代」的我們,自然得對大數據有所認識,在這裏為大家列出了一些經常跟大數據一起出現的陌生用語,認識了這些大數據相關字彙,下次看大數據的相關文章就不會一直「卡」了。

w645

Algorithm 演算法

出自於數學用語,在這裡指的是在有限步驟內,分析數據的具體方法,而且通常由軟體來執行。

AIDC 自動識別技術

AIDC(Automatic Identification and Data Capture)是將訊息數據自動識讀、自動輸入電腦的重要方法和手段,它是以電腦技術和通信技術為基礎的綜合性科學技術。常見的 AIDC 例如條碼(Bar codes)、磁條(magnetic strips)、生物識別(Biometrics)、RFID 等技術。

AWS 亞馬遜網路服務系統

2006 年 Amazon 開始以 Web 服務的形式向企業提供各種雲端運算服務,包括運算、儲存、資料庫、分析、應用程式和部署服務。現在許多科學家、開發人員以及各企業的技術人員都在利用 AWS(Amazon Web Services)進行大數據分析。

Avro 序列化系統

Avro 是 Hadoop 底下的子專案,是一個資料序列化系統(Data serialization system),被設計用來支援大量資料交換。

Behavioral analytics 行為分析

行為分析是指用科學方法分析環境刺激與行為之間的因果關係,藉著系統性的觀察來了解行為的變化原則,進而有系統的操作刺激,以達到行為的學習、塑造或改變。簡單來說,就是用一個有系統的方法去觀察、測量、收集客觀數據來分析目標的表現行為。

Big Data 大數據

大數據(or 巨量資料),顧名思義是指大量的資訊,當資料量龐大到資料庫系統無法在合理時間內進行儲存、運算、處理,分析成能解讀的資訊時,就稱為大數據。有興趣深入了解請參考 《巨量資料的時代,用「大、快、雜、疑」四字箴言帶你認識大數據》 以及 《7 個你不可不知的大數據定義》

BI 商業智慧

BI(Business Intelligence)指用現代資料倉儲技術、線上分析處理技術、數據挖掘進行數據分析,再以圖形化的界面或報表呈現以實現商業價值。

Cassandra 資料庫系統

是 Apache 軟體基金會底下的開源分布式 NoSQL 資料庫系統,適合用來管理巨量的結構化資料,由於其良好的可擴展性和性能,被 Digg、Twitter、Hulu、Netflix 等知名網站所採用。

CDR 詳細通聯記錄

CDRs(Call Detail Record)是電信網路的使用紀錄,例如通話時間、通話長度等資訊。CDR 是電信業者與企業分析網路營運和客戶行為的重要資源。

Clickstream Analytics 點擊流分析

點擊流(Clickstream)就是使用者在網頁間來來去去的點選記錄,也可以分成 Upstream –– 進入這個網站的「來源」,以及 Downstream —— 拜訪完這個網站之後的「去向」。對於網路行銷跟搜尋引擎來說,點擊流分析是十分重要的參考。

Cloud Computing 雲端運算

雲端運算(Cloud Computing)是一種將資料、工具及程式放到網際網路上處理的資源利用方式,是一種分散式電腦運算(Distrubted computing)的概念,也就是讓網路上不同的電腦同時幫你做一件事,可以大大的增加處理速度。

也因為所有資訊都被放置到網路的虛擬空間裡,工程師在繪製示意圖時常以一朵雲來代表這個虛擬空間,因而有了「雲端(Cloud)」一名。

Data Mining 資料探勘

顧名思義,就好比在地球上從一堆粗糙的石頭中進行地物探勘、尋找有價值的礦脈,資料探勘就是從巨量資料中提取出未知的、有價值的潛在資訊。

Data Modelling 資料建模

資料模式(Data Model)在資訊系統中指的是資料如何被表達、儲存及取用的方式,包括資料的格式、定義和屬性,資料之間的關係,以及資料的限制,而資料模式的設計過程就稱為「資料建模」。

Data Visualization 資料視覺化

是關於數據之視覺表現形式的研究,資料視覺化的技術可以幫助不同背景的工程人員溝通、理解,以達良好的設計與分析結果。

Data Experts 數據專家

數據專家就是能利用資料作出研究評估的專業人士,像是資料分析師、資料科學家、資料架構師等都可以被歸類為數據專家,其工作內容細分請參考 《資料分析師?科學家?架構師?大數據人才的工作內容及年薪比較》

Exploratory Data Analysis 探索式分析

探索式資料分析是指在沒有標準流程跟方法的情況下,在現有的數據中找尋資料的結構和特點、探索潛藏於資料中的訊息,這種資料分析方法強調的是探索式的分析而非嚴謹的模式確認。

Hadoop 技術

Hadoop 是一個能夠儲存並管理大量資料的雲端平台,為 Apache 軟體基金會底下的一個開放原始碼、社群基礎、而且完全免費的軟體,Hadoop 的兩大核心功能 —— 儲存(Store)及處理(Process)資料所用到的分散式檔案系統 HDFS 跟 MapReduce 平行運算架構。Hadoop 被廣泛應用於大數據儲存和大數據分析,成為大數據的主流技術。有興趣深入了解請參考 《認識大數據的黃色小象幫手 –– Hadoop》

Internet of Things 物聯網

物聯網(Iots)是一個全球化的網路基礎建設,透過資料擷取以及通訊能力以連結實體與虛擬物件,透過網際網路的發展,物連網可透過特定的機制,將所有裝置連結在一起,以供控制、偵測、識別,並交換所有的資訊。

NoSQL 資料庫系統

NoSQL 最早是指「No SQL」,號稱不使用 SQL 作為查詢語言的資料庫系統。但近來則普遍將 NoSQL 視為「Not Only SQL」,也就是「不只是 SQL」的意思,希望結合 SQL 優點並混用關聯式資料庫和 NoSQL 資料庫來達成最佳的儲存效果。

在巨量資料所帶動的潮流下,各種不同形態的 NoSQL 資料庫如雨後春筍般竄起,其中 MongoDB 是眾多 NoSQL 資料庫軟體中較為人熟知的一種。

Predictive Analytics 預測分析

是指透過預測模型、機器學習、資料挖掘等技術來分析現有和歷史的事實數據對未來作出預測的數據分析方法。

R 語言

R 是一個開放原始碼統計軟體,提供統計計算和繪圖功能,類似 Matlab 跟 SAS,而 R 不但免費 而且簡單易上手,近年來成為資料科學界裡的重要工具。

SaaS 軟體即服務

SaaS(Software-As-A-Service)是隨著網際網路技術和應用軟體的成熟而興起的一種軟體應用模式。SaaS 提供商將軟體統一部署在自己的伺服器上,藉由網路提供軟體給客戶,所以客戶不用購買軟體,而是根據需求向提供商訂購所需的服務,且客戶無需對軟體進行維護,服務提供商會全權管理和維護軟體;軟體廠商在向客戶提供網際網路應用的同時,也提供軟體的離線操作和本地數據存儲,讓客戶隨時隨地都可以使用其定購的軟體和服務。

對於許多小型企業來說,SaaS 是採用先進技術的最好途徑,它消除了企業購買、構建和維護基礎設施和應用程式的需要。

Terabyte (1 000 000 000 000 Bytes)

TB 為兆位元組,是資料量的分級,相當於 10^12 bytes。其他資料量分級如下:

  • Bytes (8 Bits)
  • Kilobyte (1000 Bytes)
  • Megabyte (1 000 000 Bytes)
  • Gigabyte (1 000 000 000 Bytes)
  • Terabyte (1 000 000 000 000 Bytes)
  • Petabyte (1 000 000 000 000 000 Bytes)
  • Exabyte (1 000 000 000 000 000 000 Bytes)
  • Zettabyte (1 000 000 000 000 000 000 000 Bytes)
  • Yottabyte (1 000 000 000 000 000 000 000 000 Bytes)

Cookie 消失?試試看全新 AI 影像內容辨識:讓用戶看的內容決定看到的廣告

Google Chrome 即將淘汰幫助廣告主的工具—— Cookie ,它的離去將再一次地影響數位廣告產業。
評論
Photo Credit:<a href="https://www.shutterstock.com/zh/image-photo/ai-artificial-intelligence-big-data-internet-1075853384" target="_blank">shutterstock</a>
評論

透過GA分析進站者發現, Safari的新客數越來越多,難道這表示 iOS 的用戶數也跟著增加了嗎?注意了,這有可能是 Apple 封鎖第三方 Cookie 帶來的影響。隨著 Google 即將淘汰 Chrome 上的 Cookie ,這個幫助廣告主記住用戶受眾的小工具,將要再一次地影響數位廣告產業。

Photo Credit:驚點股份有限公司( FreakOut Taiwan )

後 Cookie 時代的廣告受眾如何鎖定?

各大廣告平台在過去幾年不斷地透過 Cookie 以及其它方式,悄悄收集使用者的用戶數據,隨著這幾年用戶的隱私權意識抬頭, Apple 與 Google 對於藉由 Cookie 辨識用戶資料的廣告投遞方式,持有不同的態度,這也將是所有廣告主的極大挑戰。當 Cookie 不復存在,要如何辨識使用者資料?

Cookie 消失了,或許會有新的數據辨識工具來取代,但是任何試圖跟蹤受眾的方式,都難以符合大眾對於保護隱私權的期望。另一方面,也極有可能無法再通過日趨嚴格的媒體監管限制。無論如何,數位廣告不能像過去一樣,無條件地使用類似 Cookie 的追蹤方式,來達到與現在同樣的廣告效果。

後 Cookie 時代內容辨識類型的廣告鎖定方式,將成為未來具指標性的投放策略。廣告與瀏覽平台或內文主題的高相關性,不僅能顯著提高受眾的互動度,更重要的是,完全不需要收集任何個人數據。

FreakOut Taiwan 不斷嘗試更友善的廣告投遞形式, 自 2016 年進入台灣市場的原生廣告,到 2020 年末引進「 Mirrors 」 AI 影像視覺內容辨識系統,都是以網路使用者的角度出發。「 Mirrors 」不需要使用傳統的受眾興趣設定,即可針對「目標受眾在觀看的影像內容」、「品牌自身競爭對手或相關指定系列產品出現的影片」來投遞 YouTube 上的影音廣告。

Photo Credit:驚點股份有限公司( FreakOut Taiwan )

AI 人工智慧影像技術突破,推動新一代內容辨識功能

傳統的內容比對廣告皆為自然語言處理 NLP 中心,基於「純文字」的比對來顯示相關廣告,如大家很熟悉的 Google AdSense 。但是,結合新興的 AI 演算和複雜的圖像辨識,已然能夠達到「影片」的內容偵測,透過增加多個比對層和基於自然語言處理 NLP 的基準定位,可深度學習並提供更精細的辨識洞察力。

舉例來說,若想要將汽車廣告投放給對汽車有興趣的人,我們要先從可能對汽車感興趣的受眾中開始推估,並且根據過去的經驗加入不同的興趣條件,最後針對素材更進一步地測試。透過 Mirrors ,我們可以讓廣告出現在有滿足特定條件的影片內,例如:在消費者觀看的影片中,出現汽車評測報告、自家品牌或競爭對手的 LOGO 、代言人等指定條件,再依照不同廣告主設定的預算判斷是否露出廣告。

藉由這樣的影像比對方式,可以更有效地根據消費者行為觸發廣告投遞條件,而不再是現行的用戶受眾數據。人的興趣是多樣且多變的,當對汽車有興趣的用戶在完成汽車的選購後,短期內將不會再瀏覽相關資訊,轉而瀏覽其他更具時效性的內容。透過消費者當下正在觀看的影片內容,取代消費者身上被貼上的數位標籤,將更貼近消費者本身的使用行為。

Photo Credit:驚點股份有限公司( FreakOut Taiwan )

Mirrors AI 影像辨識:用消費者看的內容決定廣告

2021 年台灣數位報告指出,台灣人在各網路內容服務中,最愛「網路影片」的比例高達 97.9%,遠超過 Vlog、串流音樂、網路廣播、Podcast 。

影音廣告早已是品牌經營的趨勢:根據 DMA 2019 年台灣數位廣告量統計報告指出,台灣各類型廣告中,影音廣告以 37.2% 的成長比例大幅領先奪冠。其中 YouTube 持續蟬聯台灣最常被造訪網站第 2 名(僅次於 Google ) ,在台灣各大影音平台中的觸及率及影響力不容小覷。

2021 年 FreakOut Taiwan 已與客戶合作,進行搭載新系統的 YouTube 串流內廣告投遞,在針對品牌及產品客製化的多層鎖定策略建議下,房地產廣告的 CTR 表現高於平均,並發現「人臉」群組辨識表現為佳,其中多為財經、名嘴等名人。而美妝品牌廣告 VTR 表現優異,則以品牌「 Logo 」、「人臉」群組有最出色的表現。

本文章內容由「驚點股份有限公司( FreakOut Taiwan )」提供,經關鍵評論網媒體集團廣編企劃編審。