案例研究:掌握資料處理最佳程式語言,輕鬆駕馭 Big Data!

隨著大數據時代的興起,各行各業都有龐大的數據資料需要被處理,這時贏的關鍵在於誰能有效率的發現大數據的價值。面對大數據不再可怕,可怕的是不知道有什麼利器可以使用!在巨量資料分析上面,Python 有著重要的應用!
評論
評論

作者介紹

PyCon,亦即 Python 年會,是 Python 社群最大型的年度聚會。PyCon 是社群同好自發籌辦的活動,展現 Python 在各式領域的應用現況。我們致力讓亞太區 Python 年會成為高品質的專業活動,讓與會朋友享受技術交流的樂趣,體驗社群獨有的熱情。

2014 亞太區 Python 年會的特色,除了呈現 Python 在應用領域的案例和實務,也重視與會人員的交流互動,包括促成開發者與廠商之間的合作可能,提供創業者交流討論的園地,達到提昇社群技能和豐富產業發展的目的。

Inside 為 2014 亞太區 Python 年會合作媒體。

資料大爆炸時代來臨,發現資料的價值為致勝關鍵

近年來,隨著大數據時代的興起,各行各業都有龐大的數據資料需要被處理,這時贏的關鍵在於誰能有效率的發現大數據的價值。面對大數據不再可怕,可怕的是不知道有什麼利器可以使用!在巨量資料分析上面,Python 有著重要的應用!

CERN 的大型強子對撞機(LHC)是一座位於瑞士日內瓦近郊歐洲核子研究組織的對撞型粒子加速器,研究基本粒子,作為國際高能物理學研究之用。實驗過程中產生珍貴而大量的資料 (Petabytes 級),為了更有效率處理分析這些資料時需要的 13,000 個變數設定,以及減少維護系統困難度,CERN 決定將原本 C++ 的系統改寫成 Python / C++ .得到的結果是許多原本系統無法解決的問題,在新系統中只要一行就可以完成,並且讓沒有受過資訊訓練的物理系學生也能夠輕鬆地使用.整個開發的過程從規劃到完成,只使用了六個月的時間.

"Most developers in the CMS experiment are physics students looking for new physics in the data. Usually they don’t have any formal IT training. Python allows them to be productive from the very start and to dedicate most of their time on the research they want to carry out."

Benedikt Hegner – CERN

火星計劃的無人探測車能夠在火星表面自主行動,並且完成研究任務.背後依賴大量的叢集電腦(Hybrid Processing Units for Science (HPU4Science) cluster)的支援,來進行電腦視覺需要的影像處理與機械學習。這個叢集大量的使用 Python 語言來運作,包括使用 PyCUDA 控制 GPU。

“Python, for someone who enjoys programming and with a wide-ranging taste for beautiful and powerful languages, is a winning card. It’s really amazing.”

Yann Le Du – Chief Developer at the HPU4Science Project

AppNexus 是現今發展最快的網路廣告公司之一,短短三年從原本的 20 人發展到 350 人,每月處理 390 億的廣告需求。在 2012 年的紐約 PyData 研討會中他們分享 Python 是他們在人員、技術以及環境各方面進行快速開發與擴張時不會陷入泥沼的原因。

"Python is critical to us being able to rapidly iterate while scaling our team and technology"

Dave Himrod, AppNexus

選擇 Python 進行大資料處理的共通理由:

  • Python 的多面性能同時能夠滿足開發階段的便利性與上線的效能,加速開發的過程。
  • 豐富的資料處理工具如 Pandas、NumPy、IPython。
  • Python 彈性以及互動性的環境讓各種背景的開發者都很容易使用。

Keynote -- Rapid Iteration with Python: Scaling AppNexus from PyData on Vimeo.

延伸閱讀:

別埋頭苦幹了!掌握熱門套件是通往成功的唯一途徑

談到海量資料分析,從資料收集,資料整理,挑選出需要的資料,到將資料做視覺化的呈現,每一個步驟資料分析者都必須全力投入並且謹慎的執行;如此浩大的工程,善用 Python 豐富的套件可以大幅降低門檻,如果工程師熟悉 Python 資料處理工具,將會大幅度省下時間與人力成本,迅速幫助企業挖掘出大數據中的無限商機。

來 PyCon 與資料處理大神面對面!

掌握最佳工具,挖掘資料無限寶藏。Python 讓不可能變為可能,在資料處理中被大量使用,是資料處理的最佳程式語言。是資料處理首選程式語言之一。

本次 PyCon 將於 5/17~5/18 舉行.pandas 的作者也是 Python for Data Analysis 一書的作者 Wes McKinney,PyCuda 作者 Andreas Klöckner、IPython 作者 Fernando Pérez 也都會參加這次的 PyCon,把握與大神面對面的難得機會。

今年議程中新增討論有關 SciPy 的同步議程,另外特別安排會前的專業教學,請到資料處理明星講者,也是 R 聚會的主持人 張家齊(c3h3)帶領進階班學員使用 Pandas、matplotlib、scikit-learn、NumPy、scipy、jieba、NLTK、GemSim 等等的 Python 熱門資料分析工具,掌握成功處理資料的關鍵。(資料教學的訊息


Cookie 消失?試試看全新 AI 影像內容辨識:讓用戶看的內容決定看到的廣告

Google Chrome 即將淘汰幫助廣告主的工具—— Cookie ,它的離去將再一次地影響數位廣告產業。
評論
Photo Credit:<a href="https://www.shutterstock.com/zh/image-photo/ai-artificial-intelligence-big-data-internet-1075853384" target="_blank">shutterstock</a>
評論

透過GA分析進站者發現, Safari的新客數越來越多,難道這表示 iOS 的用戶數也跟著增加了嗎?注意了,這有可能是 Apple 封鎖第三方 Cookie 帶來的影響。隨著 Google 即將淘汰 Chrome 上的 Cookie ,這個幫助廣告主記住用戶受眾的小工具,將要再一次地影響數位廣告產業。

Photo Credit:驚點股份有限公司( FreakOut Taiwan )

後 Cookie 時代的廣告受眾如何鎖定?

各大廣告平台在過去幾年不斷地透過 Cookie 以及其它方式,悄悄收集使用者的用戶數據,隨著這幾年用戶的隱私權意識抬頭, Apple 與 Google 對於藉由 Cookie 辨識用戶資料的廣告投遞方式,持有不同的態度,這也將是所有廣告主的極大挑戰。當 Cookie 不復存在,要如何辨識使用者資料?

Cookie 消失了,或許會有新的數據辨識工具來取代,但是任何試圖跟蹤受眾的方式,都難以符合大眾對於保護隱私權的期望。另一方面,也極有可能無法再通過日趨嚴格的媒體監管限制。無論如何,數位廣告不能像過去一樣,無條件地使用類似 Cookie 的追蹤方式,來達到與現在同樣的廣告效果。

後 Cookie 時代內容辨識類型的廣告鎖定方式,將成為未來具指標性的投放策略。廣告與瀏覽平台或內文主題的高相關性,不僅能顯著提高受眾的互動度,更重要的是,完全不需要收集任何個人數據。

FreakOut Taiwan 不斷嘗試更友善的廣告投遞形式, 自 2016 年進入台灣市場的原生廣告,到 2020 年末引進「 Mirrors 」 AI 影像視覺內容辨識系統,都是以網路使用者的角度出發。「 Mirrors 」不需要使用傳統的受眾興趣設定,即可針對「目標受眾在觀看的影像內容」、「品牌自身競爭對手或相關指定系列產品出現的影片」來投遞 YouTube 上的影音廣告。

Photo Credit:驚點股份有限公司( FreakOut Taiwan )

AI 人工智慧影像技術突破,推動新一代內容辨識功能

傳統的內容比對廣告皆為自然語言處理 NLP 中心,基於「純文字」的比對來顯示相關廣告,如大家很熟悉的 Google AdSense 。但是,結合新興的 AI 演算和複雜的圖像辨識,已然能夠達到「影片」的內容偵測,透過增加多個比對層和基於自然語言處理 NLP 的基準定位,可深度學習並提供更精細的辨識洞察力。

舉例來說,若想要將汽車廣告投放給對汽車有興趣的人,我們要先從可能對汽車感興趣的受眾中開始推估,並且根據過去的經驗加入不同的興趣條件,最後針對素材更進一步地測試。透過 Mirrors ,我們可以讓廣告出現在有滿足特定條件的影片內,例如:在消費者觀看的影片中,出現汽車評測報告、自家品牌或競爭對手的 LOGO 、代言人等指定條件,再依照不同廣告主設定的預算判斷是否露出廣告。

藉由這樣的影像比對方式,可以更有效地根據消費者行為觸發廣告投遞條件,而不再是現行的用戶受眾數據。人的興趣是多樣且多變的,當對汽車有興趣的用戶在完成汽車的選購後,短期內將不會再瀏覽相關資訊,轉而瀏覽其他更具時效性的內容。透過消費者當下正在觀看的影片內容,取代消費者身上被貼上的數位標籤,將更貼近消費者本身的使用行為。

Photo Credit:驚點股份有限公司( FreakOut Taiwan )

Mirrors AI 影像辨識:用消費者看的內容決定廣告

2021 年台灣數位報告指出,台灣人在各網路內容服務中,最愛「網路影片」的比例高達 97.9%,遠超過 Vlog、串流音樂、網路廣播、Podcast 。

影音廣告早已是品牌經營的趨勢:根據 DMA 2019 年台灣數位廣告量統計報告指出,台灣各類型廣告中,影音廣告以 37.2% 的成長比例大幅領先奪冠。其中 YouTube 持續蟬聯台灣最常被造訪網站第 2 名(僅次於 Google ) ,在台灣各大影音平台中的觸及率及影響力不容小覷。

2021 年 FreakOut Taiwan 已與客戶合作,進行搭載新系統的 YouTube 串流內廣告投遞,在針對品牌及產品客製化的多層鎖定策略建議下,房地產廣告的 CTR 表現高於平均,並發現「人臉」群組辨識表現為佳,其中多為財經、名嘴等名人。而美妝品牌廣告 VTR 表現優異,則以品牌「 Logo 」、「人臉」群組有最出色的表現。

本文章內容由「驚點股份有限公司( FreakOut Taiwan )」提供,經關鍵評論網媒體集團廣編企劃編審。