資料科學家最常使用的十大演算法

本文來自於 KDnuggets 所做的十大演算法調查,對於資料科學家常用的演算法進行排名,並對其在 2011-2016 年間的變化進行介紹。
評論
評論

本文來自於 KDnuggets 所做的 十大演算法調查 ,對於資料科學家常用的演算法進行排名,並對其在 2011-2016 年間的變化進行介紹。INSIDE 獲合作媒體 雷鋒網 授權轉載。

 

基於調查,KDnuggets 總結出了資料科學家最常使用的十大演算法,它們分別是:

  1. Regression 回歸法
  2. Clustering 聚類法
  3. Decision Trees/Rules 決策樹
  4. Visualization 視覺化
  5. K-Nearest Neighbor 最近鄰接法
  6. PCA (Principal Component Analysis) 主成分分析法
  7. Statistics 統計算法
  8. Random Forests 隨機森林法
  9. Time series/Sequence 時間序列
  10. Text Mining 文本探勘

 

其中,受訪者表示平均使用了 8.1 個演算法,相比 2011 年類似的調查大幅提高了。與 2011 年的類似調查比較,我們發現最流行的演算法還是回歸法、聚類法、決策樹和視覺化。相對來說最大的成長是以下演算法:

Boosting,從 2011 年的 23.5% 至 2016 年的 32.8%,成長 40%

文本探勘 ,從 2011 年的 27.7% 至 2016 年的 35.9%,成長 30%

視覺化 ,從 2011 年的 38.3% 至 2016 年的 48.7%,成長 27%

時間序列 ,從 2011 年的 29.6% 至 2016 年的 37.0%,成長 25%

異常/偏差檢測(Anomaly/Deviation detection),從 2011 年的 16.4% 至 2016 年的 19.5%,成長 19%

集成方法(Ensemble Method),從 2011 年的 28.3% 至 2016 年的 33.6%,成長 19%

支持向量機(Support Vector Machine,SVM),從 2011 年的 28.6% 至 2016 年的 33.6%,成長 18%

回歸法 ,從 2011 年的 57.9% 至 2016 年的 67.1%,成長 16%

2016 年最流行的新演算法分別是:

最近鄰接法 ,46%

主成分分析 ,43%

隨機森林法 ,38%

優化(Optimization),24%

神經網路-深度學習(Neural networks -- Deep Learning),19%

奇異值分解(Singular Value Decomposition),16%

下降最多的分別是:

關聯規則(Association rules),從 2011 年的 28.6% 至 2016 年的 15.3%,下降 47%

增量模型(Uplift modeling),從 2011 年的 4.8% 至 2016 年的 3.1%,下降 36%

因素分析(Factor Analysis),從 2011 年的 18.6% 至 2016 年的 14.2%,下降 24%

生存分析(Survival Analysis),從 2011 年的 9.3% 至 2016 年的 7.9%,下降 15%

不同領域使用的算法比例

 

我們注意到幾乎所有人都在使用監督學習演算法(Supervised learning)。政府和工業界資料科學家比學生或者學術研究機構使用更多不同的演算法,而且工業界資料科學家更傾向於使用共通式演算法(Meta-algorithm)。

下面,我們繼續通過僱員的類型來分析最流行的 10 個算法和深度學習。

 為了讓這些差異更容易觀看,KDnuggets 針對特定僱員類型相關的平均算法使用量設計了一個算法。

Bias(Alg,Type)=Usage(Alg,Type)/Usage(Alg,All) -- 1.

 

這是一些 KDnuggets 分析之後發現的重點:

工業界資料科學家 更傾向於使用回歸法、視覺化、統計法、隨機森林法以及時間序列。

政府 / 非盈利組織 更傾向於使用視覺化、主成分分析以及時間序列

學術界研究人員 更傾向於使用主成分分析和深度學習

學生 一般使用的算法較少,但是他們會做更多的文本探勘以及深度學習

 另外,參與投票的讀者主要來自於

美國/加拿大,40%

歐洲,32%

亞洲,18%

拉丁美洲,5.0%

非洲 / 中東,3.4%

澳洲 / 紐西蘭, 2.2%

在 2011 年的調查中,KDnuggets 將產業 / 政府分在了同一組,將學術研究人員 / 學生分在了第二組,另外通過算法對於業界 / 政府的“親切度”進行了計算:

N(Alg,Ind_Gov) / N(Alg,Aca_Stu)

------------------------------- -- 1

N(Ind_Gov) / N(Aca_Stu)

親切度為 0 的算法表示其在產業 / 政府和學術研究人員 / 學生之間的使用情況對等。IG(Industry/Government)親切度越高,表示該演算法越被產業界普遍使用,反之則越「學術」。 

其中,最“ 產業 ”的演算法是:

增量模型 Uplift modeling,2.01

異常檢測 Anomaly Detection,1.61

生存分析 Survival Analysis,1.39

因子分析 Factor Analysis,0.83

時間序列 Time series/Sequences,0.69

關聯規則 Association Rules,0.5

其中增量模型(Uplift modeling)又一次成了最「產業」的演算法,但是令人驚訝的是其使用率卻很低,只有 3.1%,幾乎是這次調查中使用率最低的算法。

最「  學術  」的演算法是:

神經網路 Neural networks -- regular,-0.35

單純貝式 Naive Bayes,-0.35

支持向量機 SVM,-0.24

深度學習 Deep Learning,-0.19

集成方法 EM,-0.17

下圖是所有算法以及它們在產業界/學術界的親切度:

數據科學家最常使用的算法,工業界 vs 學術界

 

2016 數據科學家使用的算法調查匯總

匯總表格中各項含義分別是:

N:根據使用度排名

Algorithm:算法名稱,

類型:S -- 監督,U -- 無監督,M -- 元,Z -- 其他,

% 指代調查中使用這種算法的調查者比例

Change—變動(%2016 年/2011% -- 1),

Industry Affinity—產業親切度(前文中提到)

 


【 MarTech Asia 】數位轉型突圍!萬里雲推出機器人寫文案服務,以 AI 加速行銷流程

CloudMile 萬里雲旗下 Martech 產品── ADsvantage (廣告智庫)全新 2.0 功能上線,採用非營利人工智慧組織 —— OpenAI 強大的文章產成器 「 GPT 系列」為基礎,推出全新 AI 智慧寫手功能。
評論
Photo Credit:CloudMile
評論

 CloudMile  萬里雲旗下 Martech 產品── ADsvantage(廣告智庫)全新 2.0 功能上線,採用非營利人工智慧組織 —— OpenAI  強大的文章產成器「 GPT 系列」為基礎,推出全新 AI 智慧寫手功能。隨著行銷碎片化時代來臨,消費者的用戶輪廓越來越難拼湊,從獲取資料、數據分析,到廣告文案創作的最後一哩路,行銷人員必須借助更多工具幫忙,奪回行銷效益的掌握度。 ADsvantage 提供台灣中小企業行銷人員、廣告主及電商業者自助管理的廣告平台,大幅縮短廣告行銷人員作業時間。

 ADsvantage 推出新功能,受邀 2021 MarTech Asia 分享 AI 化數據行銷

日前全台最大的行銷科技盛會 2021 MarTech Asia ,阿物科技創辦人暨執行長林思吾號召 26 位業界領袖同台 ,現場及線上共有超過 1,800 位全球及台灣相關業者齊聚一堂,包括行銷科技之父 Scott Brinker、前 Verizon Media 國際事業董事總經理鄒開蓮、全聯實業副董事長謝健南等人,分享行銷科技的重要趨勢及後疫情時代的新生態。 CloudMile 萬里雲營運長高斌恒也受邀分享,各個科技巨頭都紛紛有許多針對隱私權的規範和措施,消費者的線上線下界線越來越模糊。 當今行銷人所面對的難題不只是 SEO、投放優化而已,「數據」才是致勝關鍵,透過將許多流程自動化,省下時間與人力成本的情況下,達到更高的行銷目標,其中包括 Cookieless 時代來臨、深化 OMO 無縫體驗、打造顧客數據平台( Customer Data Platform , CDP )等議題都受到業界高度關注。

豐富跨國實戰經驗的 CloudMile 機器學習團隊,運用超過 500 萬的文案數據庫、橫跨 20 種產業以上的廣告量,結合廣告代理商 20 年以上行銷經驗,創造 ADsvantage 「 AI 智慧寫手」 新功能。 CloudMile 看見客戶對於數位轉型及運用 MarTech 行銷科技推廣商品的急迫需求,希望可運用 AI 技術之力,縮短廣告前期企劃、發想關鍵字詞、寫文案和廣告投放設定,同時還需跨組溝通,尋找資源協助的時程, ADsvantage 廣告智庫即是專為滿足客戶後疫行銷需求的一站式廣告營運平台解決方案。

人工智慧寫手結合電商平台, 加速行銷流程的最佳 AI 助理

 ADsvantage 全新 2.0 功能上線,採用 GPT 模型,為矽谷時下最夯的自然語言處理模型,推出全新 AI 智慧寫手功能,透過平台能協助客戶透過數據匯流、 AI 分析達到預測的成效,快速蒐集最熱門的關鍵字、文案內容,加速創意的過程並提升廣告效率。

此全新產品適合應用在電商等大型網購平台上,透過機器學習與 AI 科技應用,讓中間產製時間被大幅被縮短,並提升操作數位行銷的「效率」與「精準度」,像是電商平台即可透過採用 ADsvantage 的服務,有效提升自己在數位行銷上的競爭力。

Photo Credit:CloudMile
ADsvantage 全新 2.0 功能上線,推出 AI 華語文案生成工具「AI 智慧寫手」。/Photo Credit:CloudMile

 ADsvantage 產品介紹

運用 AI 科技力助企業數位轉型的 CloudMile 萬里雲,發表關鍵字數位廣告輿情系統 ADsvantage(廣告智庫),提供企業廣告主及電商平台,透過超過百萬的文案創意庫( Ads  idea ) 、 AI 智慧監控工具及 AI 智慧寫手,平均只要 3 秒即可生成一個廣告文案。 CloudMile 透過 Google 雲端、機器學習與 AI 大數據分析技術,致力協助企業落實數位轉型。疫情期間抓住需求開發的 ADsvantage ( 廣告智庫) 服務,透過服務台灣、新加坡、及香港逾 400 家客戶的專業經驗,將傳統的商業廣告運營模式數據化,提供企業廣告主一站式 Google Ads 廣告文案創作 AI 化平台。

本文章內容由「阿物科技」提供,經關鍵評論網媒體集團廣編企劃編審。