資料科學家最常使用的十大演算法

本文來自於 KDnuggets 所做的十大演算法調查,對於資料科學家常用的演算法進行排名,並對其在 2011-2016 年間的變化進行介紹。
評論
評論

本文來自於 KDnuggets 所做的 十大演算法調查 ,對於資料科學家常用的演算法進行排名,並對其在 2011-2016 年間的變化進行介紹。INSIDE 獲合作媒體 雷鋒網 授權轉載。

 

基於調查,KDnuggets 總結出了資料科學家最常使用的十大演算法,它們分別是:

  1. Regression 回歸法
  2. Clustering 聚類法
  3. Decision Trees/Rules 決策樹
  4. Visualization 視覺化
  5. K-Nearest Neighbor 最近鄰接法
  6. PCA (Principal Component Analysis) 主成分分析法
  7. Statistics 統計算法
  8. Random Forests 隨機森林法
  9. Time series/Sequence 時間序列
  10. Text Mining 文本探勘

 

其中,受訪者表示平均使用了 8.1 個演算法,相比 2011 年類似的調查大幅提高了。與 2011 年的類似調查比較,我們發現最流行的演算法還是回歸法、聚類法、決策樹和視覺化。相對來說最大的成長是以下演算法:

Boosting,從 2011 年的 23.5% 至 2016 年的 32.8%,成長 40%

文本探勘 ,從 2011 年的 27.7% 至 2016 年的 35.9%,成長 30%

視覺化 ,從 2011 年的 38.3% 至 2016 年的 48.7%,成長 27%

時間序列 ,從 2011 年的 29.6% 至 2016 年的 37.0%,成長 25%

異常/偏差檢測(Anomaly/Deviation detection),從 2011 年的 16.4% 至 2016 年的 19.5%,成長 19%

集成方法(Ensemble Method),從 2011 年的 28.3% 至 2016 年的 33.6%,成長 19%

支持向量機(Support Vector Machine,SVM),從 2011 年的 28.6% 至 2016 年的 33.6%,成長 18%

回歸法 ,從 2011 年的 57.9% 至 2016 年的 67.1%,成長 16%

2016 年最流行的新演算法分別是:

最近鄰接法 ,46%

主成分分析 ,43%

隨機森林法 ,38%

優化(Optimization),24%

神經網路-深度學習(Neural networks -- Deep Learning),19%

奇異值分解(Singular Value Decomposition),16%

下降最多的分別是:

關聯規則(Association rules),從 2011 年的 28.6% 至 2016 年的 15.3%,下降 47%

增量模型(Uplift modeling),從 2011 年的 4.8% 至 2016 年的 3.1%,下降 36%

因素分析(Factor Analysis),從 2011 年的 18.6% 至 2016 年的 14.2%,下降 24%

生存分析(Survival Analysis),從 2011 年的 9.3% 至 2016 年的 7.9%,下降 15%

不同領域使用的算法比例

 

我們注意到幾乎所有人都在使用監督學習演算法(Supervised learning)。政府和工業界資料科學家比學生或者學術研究機構使用更多不同的演算法,而且工業界資料科學家更傾向於使用共通式演算法(Meta-algorithm)。

下面,我們繼續通過僱員的類型來分析最流行的 10 個算法和深度學習。

 為了讓這些差異更容易觀看,KDnuggets 針對特定僱員類型相關的平均算法使用量設計了一個算法。

Bias(Alg,Type)=Usage(Alg,Type)/Usage(Alg,All) -- 1.

 

這是一些 KDnuggets 分析之後發現的重點:

工業界資料科學家 更傾向於使用回歸法、視覺化、統計法、隨機森林法以及時間序列。

政府 / 非盈利組織 更傾向於使用視覺化、主成分分析以及時間序列

學術界研究人員 更傾向於使用主成分分析和深度學習

學生 一般使用的算法較少,但是他們會做更多的文本探勘以及深度學習

 另外,參與投票的讀者主要來自於

美國/加拿大,40%

歐洲,32%

亞洲,18%

拉丁美洲,5.0%

非洲 / 中東,3.4%

澳洲 / 紐西蘭, 2.2%

在 2011 年的調查中,KDnuggets 將產業 / 政府分在了同一組,將學術研究人員 / 學生分在了第二組,另外通過算法對於業界 / 政府的“親切度”進行了計算:

N(Alg,Ind_Gov) / N(Alg,Aca_Stu)

------------------------------- -- 1

N(Ind_Gov) / N(Aca_Stu)

親切度為 0 的算法表示其在產業 / 政府和學術研究人員 / 學生之間的使用情況對等。IG(Industry/Government)親切度越高,表示該演算法越被產業界普遍使用,反之則越「學術」。 

其中,最“ 產業 ”的演算法是:

增量模型 Uplift modeling,2.01

異常檢測 Anomaly Detection,1.61

生存分析 Survival Analysis,1.39

因子分析 Factor Analysis,0.83

時間序列 Time series/Sequences,0.69

關聯規則 Association Rules,0.5

其中增量模型(Uplift modeling)又一次成了最「產業」的演算法,但是令人驚訝的是其使用率卻很低,只有 3.1%,幾乎是這次調查中使用率最低的算法。

最「  學術  」的演算法是:

神經網路 Neural networks -- regular,-0.35

單純貝式 Naive Bayes,-0.35

支持向量機 SVM,-0.24

深度學習 Deep Learning,-0.19

集成方法 EM,-0.17

下圖是所有算法以及它們在產業界/學術界的親切度:

數據科學家最常使用的算法,工業界 vs 學術界

 

2016 數據科學家使用的算法調查匯總

匯總表格中各項含義分別是:

N:根據使用度排名

Algorithm:算法名稱,

類型:S -- 監督,U -- 無監督,M -- 元,Z -- 其他,

% 指代調查中使用這種算法的調查者比例

Change—變動(%2016 年/2011% -- 1),

Industry Affinity—產業親切度(前文中提到)

 


智慧照護新革命!AI 機器人成為智慧醫療助手

高齡化浪潮來襲, 2025 年台灣將步入超高齡社會,65 歲以上人口佔比超過 20%。高齡化加上少子化,衍生勞動力短缺不足,經濟部工業局推動「電子資訊智慧製造服務系統推動計畫」,加速服務型機器人產業發展,借鏡日本智慧長照現況,把科技導入照護場域,提升更好的生活品質。
評論
Photo Credit:經濟部工業局
評論

日本是全球高齡化程度最高的國家,而台灣高齡化的腳步愈來愈快,僅剩不到 5 年的時間準備。因應長期照顧與醫療照護需求,各單位紛紛投入 AI 應用服務,解決人口結構改變問題。綜觀以 AIoT(物聯網 + 人工智慧)為核心的智慧醫療趨勢,可輔助醫療流程、節省人力成本,更提升照護服務效率,為高齡化社會帶來了新的解方。

Photo Credit:經濟部工業局
台日照護機器人交流會邀請各界分享照護機器人開發與應用案例與經驗。

人工智慧產業前景看好

人類壽命越來越長,智慧醫療正逐步顛覆傳統醫療模式,從遠距醫療、機器人、物聯網到穿戴式裝置,龐大潛在商機吸引國際科技大廠投入。台灣醫療服務水準居亞洲領先地位,尤其是資通訊科技實力鏈結全世界,創新能力與解決方案屢屢獲得市場矚目。當人工智慧遇上健康醫療,擴展未來醫療的無限可能,對社會大眾都有切身影響,不僅引領新一波商業浪潮,也創造出更多的照護服務模式。

醫療與科技結合,帶來新變革也帶動數位時代轉型新契機,未來將有更多關於智慧醫療的布局,解決人口高齡化的社會問題。從另一個面向來看,人口快速老化促使長期照護需求,服務人力是建置完整體系的關鍵因素,衛福部在政策面不斷調整適當的滾動式管理。目前長照 2.0 擴增老年照護服務,以及任何年齡的失能身心障礙者,從長照人力需求來說,缺工現象嚴重,照護機器人將成為醫療、長照的主力。

台日照護機器人交流會

為提供台灣照護場域導入智慧科技之契機,在經濟部工業局指導下,服務型機器人聯盟與台灣智慧樂齡照護創新科技產業大聯盟於 5 月 6 日攜手舉辦「台日照護機器人交流會」,邀請各領域專家分享實務現況,作為研發製造與場域運用參考。經濟部工業局林青嶔簡任技正表示,隨著科技迅速發展,智慧醫療創新服務產業生態系逐漸茁壯,5G 落地、AI 應用更多元,機器人正在改革醫療世界。

圖2_經濟部工業局林青嶔簡任技正表示,超高齡社會即將來臨,透過服務型機器人創新科
Photo Credit:經濟部工業局
經濟部工業局林青嶔簡任技正表示,超高齡社會即將來臨,透過服務型機器人創新科技能解決照護人力議題。

「台灣和日本一樣,面臨急速老化的超高齡社會,因此對於熟齡及身障者的照護非常重要。呼應長照 2.0 政策,應用科技打造更多元化、人性化的服務,AI 及智慧機器人的運用更是未來顯學。」林青嶔簡任技正分享觀點,這場交流會聚焦台日相關經驗分享與討論,加速業者與國際連結。台灣具有精密機電與 ICT 產業供應體系的優勢,發展機器人科技的腳步正迎頭趕上歐美日等國家,尤其是服務型機器人產業,將是台灣製造業的明日之星!

圖3_因應疫情,透過網路視訊方式進行交流,雙邊合作討論熱烈。
Photo Credit:經濟部工業局
因應疫情,透過網路視訊方式進行交流,雙邊合作討論熱烈。

促成更多元的服務應用

透過「台日照護機器人交流會」,日本 ATA 協會五島清國部長、日方企業 Reif 與 Whill,以及台方微星科技、全智通機器人、福寶科技分享照護機器人的開發與普及應用現況,透過創新科技解決照護難題。照護機器人的開發,必須掌握使用者需求、符合未來照護趨勢,再藉由實體實驗場域的調校,完美融入生活當中。微星科技、全智通機器人、福寶科技旗下的產品已分別應用於物流、醫療、清潔等領域;因應新冠肺炎疫情的「低接觸」服務型態需求,更加快普及速度。

圖4_日本ATA協會五島清國部長強調照護機器人必須貼近使用者,幫助提升生活品質。
Photo Credit:經濟部工業局
日本 ATA 協會五島清國部長強調照護機器人必須貼近使用者,幫助提升生活品質。

服務型機器人的創新應用在不同領域逐漸成形,經濟部工業局透過政策資源、科專計畫等大力推動服務型機器人產業化,協助企業轉型發展機器人新事業動能或新創公司設立,包括微星、東元、佳世達、凌群等企業。另外,2018 年成立的「服務型機器人聯盟」,由資策會服創所與台灣智慧自動化與機器人協會(智動協會)合作發起,結合政府及民間力量整合產業鏈上中下游資源,共組國家隊搶攻國內外市場。

服務型機器人聯盟今年度規劃「2021 ROBO COM 蘿蔔控」創意實證競賽,延續場域實證的精神,擴大研發能量及市場化企圖。聯盟持續引入資源,推動機器人業者和學研團隊合作,展開技術及實務交流,共同激盪具市場潛力的創新方案。


 「2021 ROBO COM 蘿蔔控」服務型機器人創意實證競賽資訊

  • 報名期間:即日起至 5 月 15 日
  • 競賽期間:6 月 15 日 - 9 月 30 日
  • 報名資格:不限年齡、學生團隊、社會人士、非營利組織、地方社團乃至公司行號都可組隊報名
  • 組隊資格:接受個人挑戰或多人組隊,團體至多6人

立即前往活動報名頁面了解更多!

經濟部工業局 廣告