資料科學家最常使用的十大演算法

本文來自於 KDnuggets 所做的十大演算法調查,對於資料科學家常用的演算法進行排名,並對其在 2011-2016 年間的變化進行介紹。
評論
評論

本文來自於 KDnuggets 所做的 十大演算法調查 ,對於資料科學家常用的演算法進行排名,並對其在 2011-2016 年間的變化進行介紹。INSIDE 獲合作媒體 雷鋒網 授權轉載。

 

基於調查,KDnuggets 總結出了資料科學家最常使用的十大演算法,它們分別是:

  1. Regression 回歸法
  2. Clustering 聚類法
  3. Decision Trees/Rules 決策樹
  4. Visualization 視覺化
  5. K-Nearest Neighbor 最近鄰接法
  6. PCA (Principal Component Analysis) 主成分分析法
  7. Statistics 統計算法
  8. Random Forests 隨機森林法
  9. Time series/Sequence 時間序列
  10. Text Mining 文本探勘

 

其中,受訪者表示平均使用了 8.1 個演算法,相比 2011 年類似的調查大幅提高了。與 2011 年的類似調查比較,我們發現最流行的演算法還是回歸法、聚類法、決策樹和視覺化。相對來說最大的成長是以下演算法:

Boosting,從 2011 年的 23.5% 至 2016 年的 32.8%,成長 40%

文本探勘 ,從 2011 年的 27.7% 至 2016 年的 35.9%,成長 30%

視覺化 ,從 2011 年的 38.3% 至 2016 年的 48.7%,成長 27%

時間序列 ,從 2011 年的 29.6% 至 2016 年的 37.0%,成長 25%

異常/偏差檢測(Anomaly/Deviation detection),從 2011 年的 16.4% 至 2016 年的 19.5%,成長 19%

集成方法(Ensemble Method),從 2011 年的 28.3% 至 2016 年的 33.6%,成長 19%

支持向量機(Support Vector Machine,SVM),從 2011 年的 28.6% 至 2016 年的 33.6%,成長 18%

回歸法 ,從 2011 年的 57.9% 至 2016 年的 67.1%,成長 16%

2016 年最流行的新演算法分別是:

最近鄰接法 ,46%

主成分分析 ,43%

隨機森林法 ,38%

優化(Optimization),24%

神經網路-深度學習(Neural networks -- Deep Learning),19%

奇異值分解(Singular Value Decomposition),16%

下降最多的分別是:

關聯規則(Association rules),從 2011 年的 28.6% 至 2016 年的 15.3%,下降 47%

增量模型(Uplift modeling),從 2011 年的 4.8% 至 2016 年的 3.1%,下降 36%

因素分析(Factor Analysis),從 2011 年的 18.6% 至 2016 年的 14.2%,下降 24%

生存分析(Survival Analysis),從 2011 年的 9.3% 至 2016 年的 7.9%,下降 15%

不同領域使用的算法比例

 

我們注意到幾乎所有人都在使用監督學習演算法(Supervised learning)。政府和工業界資料科學家比學生或者學術研究機構使用更多不同的演算法,而且工業界資料科學家更傾向於使用共通式演算法(Meta-algorithm)。

下面,我們繼續通過僱員的類型來分析最流行的 10 個算法和深度學習。

 為了讓這些差異更容易觀看,KDnuggets 針對特定僱員類型相關的平均算法使用量設計了一個算法。

Bias(Alg,Type)=Usage(Alg,Type)/Usage(Alg,All) -- 1.

 

這是一些 KDnuggets 分析之後發現的重點:

工業界資料科學家 更傾向於使用回歸法、視覺化、統計法、隨機森林法以及時間序列。

政府 / 非盈利組織 更傾向於使用視覺化、主成分分析以及時間序列

學術界研究人員 更傾向於使用主成分分析和深度學習

學生 一般使用的算法較少,但是他們會做更多的文本探勘以及深度學習

 另外,參與投票的讀者主要來自於

美國/加拿大,40%

歐洲,32%

亞洲,18%

拉丁美洲,5.0%

非洲 / 中東,3.4%

澳洲 / 紐西蘭, 2.2%

在 2011 年的調查中,KDnuggets 將產業 / 政府分在了同一組,將學術研究人員 / 學生分在了第二組,另外通過算法對於業界 / 政府的“親切度”進行了計算:

N(Alg,Ind_Gov) / N(Alg,Aca_Stu)

------------------------------- -- 1

N(Ind_Gov) / N(Aca_Stu)

親切度為 0 的算法表示其在產業 / 政府和學術研究人員 / 學生之間的使用情況對等。IG(Industry/Government)親切度越高,表示該演算法越被產業界普遍使用,反之則越「學術」。 

其中,最“ 產業 ”的演算法是:

增量模型 Uplift modeling,2.01

異常檢測 Anomaly Detection,1.61

生存分析 Survival Analysis,1.39

因子分析 Factor Analysis,0.83

時間序列 Time series/Sequences,0.69

關聯規則 Association Rules,0.5

其中增量模型(Uplift modeling)又一次成了最「產業」的演算法,但是令人驚訝的是其使用率卻很低,只有 3.1%,幾乎是這次調查中使用率最低的算法。

最「  學術  」的演算法是:

神經網路 Neural networks -- regular,-0.35

單純貝式 Naive Bayes,-0.35

支持向量機 SVM,-0.24

深度學習 Deep Learning,-0.19

集成方法 EM,-0.17

下圖是所有算法以及它們在產業界/學術界的親切度:

數據科學家最常使用的算法,工業界 vs 學術界

 

2016 數據科學家使用的算法調查匯總

匯總表格中各項含義分別是:

N:根據使用度排名

Algorithm:算法名稱,

類型:S -- 監督,U -- 無監督,M -- 元,Z -- 其他,

% 指代調查中使用這種算法的調查者比例

Change—變動(%2016 年/2011% -- 1),

Industry Affinity—產業親切度(前文中提到)

 


新國科會主委吳政忠:部會協力串聯,打造不只科技部的科技,回應社會多元需求

國家科學及技術委員會揭牌及主任委員布達儀式 7 月 27 日於科技大樓舉行,原科技部部長吳政忠出任首任主任委員,承接過去使命再提出四點精進方向,期待透過跨部會協力,布局新興科技與產業。
評論
Photo Credit:TNL Brand Studio
評論

科技部改制為「國家科學及技術委員會」(以下稱「新國科會」),7 月 27 日於科技大樓舉行揭牌及主任委員布達儀式,與會貴賓不只涵蓋產官學界,總統蔡英文及行政院長蘇貞昌也親臨會場,共同見證我國科研事務推動最高權責機關成立,為政府組織改造立下重要的里程碑。

Photo Credit:TNL Brand Studio

新國科會打造不只是科技部的科技,建立科技與臺灣社會的多元聯繫

臺灣的科技不應該只有科技部,而是還有經濟部、衛福部等所有部會在一起,但是用科技部的名稱出去國外,好像就變成全臺灣的科技都是科技部的。所以我說,科技不會只有科技部的科技,應該是所有部會的總合。

新國科會首任主委吳政忠在致詞開頭即強調「部會合作」的組織核心,表示「科技不只是科技,科技與經濟、社會、環境等面相都有密切的關係」,也因此不應侷限於某個部分,應當是多個部會、學術界、產業界等攜手合作推動。

有別於過去科技部與行政院科技會報辦公室以合作關係來協調部會,未來新國科會改以委員會的組織形式運行,透過每月主要部會的首長共同商議策略方向,能夠整合部會資源,協作共達目標,此舉不只立下我國科技發展全新的里程碑,也讓臺灣能夠更靈敏的面對國際競爭。

Photo Credit:TNL Brand Studio
新國科會主委 吳政忠。

新國科會前身是 1959 年行政院國家科學委員會,又於 2014 年改制為科技部,過去肩負推動全國整體科技發展、支援學術基礎研究,以及發展科學園區等三大使命,在歷任部長的努力下,更將創新創業加入推動目標。如今的新國科會不只承接過去使命,主任委員吳政忠更提出以下四點未來新國科會所精進的方向:

一、跨部會協力,布局新興科技與產業
儘管臺灣小、科技預算不如國外,但臺灣部會之間高效率、精準連結的合作模式,將成為與國外競爭時的最大優勢,而「跨部會」溝通不只是未來新國科會的努力目標,也是新國科會最核心的思考架構。

二、基礎學術研究奠基
回顧過去兩年臺灣新冠疫情的防疫成果,無論在病毒醫學還是疫苗研發領域,基礎科學研究一直都是技術開發的堅強後盾;所以在臺灣邁向國際頂尖的路上,無論半導體、太空、還是人工智慧,科技的基礎研究與國際互動都將是新國科會注重的發展方向。

三、打造精緻多元的生活科學園區
過去半導體產業已替臺灣打下堅實的基礎,科技園區的產值從 2.7 兆成長到去(2021)年 3.7 兆,但除了半導體,其他的產業也需要布局,尤其是精準健康、智慧農醫、電動車、太空科技、低軌衛星等「接近生活」的重點產業。

四、實踐科技的人文社會價值
隨著科技與生活拉近距離,未來的科技發展必然需要與社會需求、環境永續連結,回應外在社會環境的變化;此外,科技人才培育、加強臺灣女性在科技面的投入比例,都將是未來新國科會欲強化的目標。

Photo Credit:TNL Brand Studio

進一步探究,就會發現上述新國科會的策略方針並非憑空發想,而是源自對產業發展的細微觀察與豐富的知識、經驗的珍貴結晶。早在吳政忠任職行政院科技顧問組副執行秘書時,就已觀察到「當科技更接近生活,產品價值就會大幅度的翻倍成長」的現象,再回顧臺灣善於代工製造零件的發展歷史,才萌生「將臺灣強而有力的製造技術與創新想法整合」的初步想法。

但是「整合」一詞的背後,需要的是基礎研究、應用研究,產業實務之間的環環相扣,過程不只涉及公私跨部門、跨領域的協調,也是一個漫長轉換的過程,並非一蹴可及。最後,在數年醞釀及無數人的共同努力下,儘管過程困難重重,以「部會合作」思考為核心的組織架構「新國科會」終於順利誕生,讓整體國家的科技發展得以提升至行政院層級的高度,向下整合上中游的基礎研究、下游的應用研究及產業實務的連接,創造更多的商機與價值。

Photo Credit:TNL Brand Studio

新國科會的挑戰與期許,後疫情時代的科技人文關懷

如今全球進入後疫情時代,國際關係變動不定,更面臨供應鏈重組、數位轉型等產業挑戰,科技作為國家發展重要的中堅力量,勢必需要更快速的布局因應,在變動中搶得先機。但除了研究與創新,科技與人文社會的結合也是新國科會的一大核心。

隨著人工智慧、太空等科技發展,生活中科技將無所不在,因此未來傳統產業必然將被完全翻轉,此時人文社會科學就扮演嫁接技術與生活文化的重要橋樑,彰顯科學研究成果對人類福祉的巨大貢獻。但這一切的前提是科技與社會必須主動伸手,彼此接觸、相互了解,攜手促進社會總體的福祉發展。新國科會成立之日,同時也是「國科會職場互助教保服務中心 [ 註 ] 」揭牌日,便能看見國科會對人文的用心,除了前述四大重點外,對於女性人才的培育、原住民教育的深耕、環境永續,都將是國科會的重點目標,如何透過科技連結社會的需求,正是新國科會追求的核心,因此新國科會不只是部會整合、資源分配與未來展望而已,更是將科技應用在民間的推動者,同時成為科技與人文交流的平台,最大化科技對總體社會福祉的貢獻。

國科會科技辦公室 廣告


[ 註 ] :國科會職場互助教保服務中心於 110 年 8 月開辦,位於科技大樓 1 樓,是臺灣公共托育協會承接的第一間職場教保中心。以平價、優質、非營利、社區化之方向營運,希望透過政府與公益法人團體協力的方式,結合民間團體資源,提供孩子優質的教保品質,減輕社區家庭照顧負擔,提升教保人員工作環境與權益。資料來源:財團法人彭婉如文教基金會