巨量資料的時代,用「大、快、雜、疑」四字箴言帶你認識大數據

你可能有注意到,「大數據(Big Data)」在我們的生活裡已經掀起滔天巨浪,繼雲端運算之後,儼然成為學術界跟科技業中最熱門的潮字(Buzz Word),似乎每家公司都在進行有關的研究,三句不離大數據。究竟大數據是怎麼出現,又代表著什麼意思呢?這篇文章為你整理了大數據的起源以及最有名的 4Vs 定義。
評論
評論

本文由 Yahoo 奇摩贊助。

你可能有注意到,「大數據(Big Data)」在我們的生活裡已經掀起滔天巨浪,繼雲端運算(Cloud Computing)之後,儼然成為學術界跟科技業中最熱門的潮字(Buzz Word),似乎每家公司都在進行有關的研究,三句不離大數據。究竟大數據是怎麼出現,又代表著什麼意思呢?

大數據(Big Data),資料爆炸的時代

Java Printing

大數據(Big Data)—— 或稱巨量資料 ,顧名思義,是指大量的資訊,當資料量龐大到資料庫系統無法在合理時間內進行儲存、運算、處理,分析成能解讀的資訊時,就稱為大數據。

“Big data is data that exceeds the processing capacity of conventional database systems.”

這些巨量資料中有著珍貴的訊息,像是相關性(Unknown Correlation)、未顯露的模式(Hidden Patterns)、市場趨勢(Market Trend),可能埋藏著前所未見的知識跟應用等著被我們挖掘發現;但由於資料量太龐大,流動速度太快,現今科技無法處理分析,促使我們不斷研發出新一代的資料儲存設備及科技,希望從大數據中萃取出那些有價值的資訊。

「Big Data」這個詞最早由 IBM 提出,2010 年才真正開始受到注目,並成為專業用語登上維基百科 1,算是「大數據」的正式問世。而在 2012 年時,《紐約時報》的專欄文章「The Age of Big Data2」更是宣告了「大數據時代」的來臨。值得一提的是,大數據並不是什麼新興的概念,事實上,歐洲粒子物理研究中心(CERN)的科學家已經面對巨量資料的問題好幾十年了,處理著每秒上看 PB(Peta Bytes,註:PB = 1,024 TB)的資料量 3

TED-Ed 的影片講解 Big Data 概念,簡單又好懂:

一般來說,大數據涵蓋的範圍很廣,定義也各家歧異。最早由 Gartner 公司的分析師 Doug Laney 在 2001 年發表的「3D Data Management: Controlling Data Volume, Velocity, and Variety.」4 一文中挑明了資料處理的三個關鍵挑戰 –– 資料量、速度、多樣性,並在 2012 年 Doug Laney 給予大數據一個全新的定義 5:「大數據是大量、高速、及/或類型多變的資訊資產,它需要全新的處理方式,去促成更強的決策能力、洞察力與最佳化處理。」

"Big data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization."

於是大部份機構跟公司都將大數據的特性歸類為「3Vs」或「4Vs」–– 資料量 Volume、資料傳輸速度 Velocity、資料類型 Variety,以及後來提出的第四個 V —— 真實性 Veracity。以下整理了 4Vs 簡單的定義跟解釋,可以從這四點切入認識大數據。

Volume 資料量

Data volume: amount of data

以前人們「手動」在表格中記錄、累積出數據;現在數據是由機器、網路、人與人之間的社群互動來生成。你現在正在點擊的滑鼠、來電、簡訊、網路搜尋、線上交易... 都正在生成累積成龐大的數據,因此資料量很容易就能達到數 TB(Tera Bytes,兆位元組),甚至上看 PB(Peta Bytes,千兆位元組)或 EB(Exabytes,百萬兆位元組)的等級。

Velocity 資料輸入輸出速度

Data velocity: speed of data in and out

資料的傳輸流動(data streaming)是連續且快速的,隨著越來越多的機器、網路使用者,社群網站、搜尋結果每秒都在成長,每天都在輸出更多的內容。公司跟機構要處理龐大的資訊大潮向他們襲來,而回應、反應這些資料的速度也成為他們最大的挑戰,許多資料要能即時得到結果才能發揮最大的價值,因此也有人會將 Velocity 認為是「時效性」。

Variety 資料類型

Data variety: range of data types and sources

大數據的來源種類包羅萬象,十分多樣化,如果一定要把資料分類的話,最簡單的方法是分兩類,結構化與非結構化。早期的非結構化資料主要是文字,隨著網路的發展,又擴展到電子郵件、網頁、社交媒體、視訊,音樂、圖片等等,這些非結構化的資料造成儲存(storage)、探勘(mining)、分析(analyzing)上的困難。

Veracity 真實性

Data veracity: uncertainty of data

這個詞由在 Express Scripts 擔任首席數據官(Chief Data Officer, CDO)的 Inderpal Bhandar 在波士頓 大數據創新高峰會(Big Data Innovation Summit) 的演講中提出,認為大數據分析中應該加入這點做考慮,分析並過濾資料有偏差、偽造、異常的部分,防止這些「dirty data」損害到資料系統的完整跟正確性,進而影響決策。

大數據特性,謹記四字箴言:「大、快、雜、疑」

大數據資料量龐「大」(Volume)、變化飛「快」(Velocity),種類繁「雜」(Variety),以及真偽存「疑」(Veracity)。尤其在這資訊大爆炸時代,這些資料變得又多、又快、又雜、又真偽難分。

當然在「大數據」一詞像病毒一樣,侵入我們生活中的各個層面,也有越來越多人提出更多的「V」來解釋大數據,像是 Volatility、Validity、Value、Victory 等,這些分歧的意見在這就不多詳述,只要知道有這些說法、以後聽到別人說到「7Vs」時不要覺得驚訝就行啦!


智慧照護新革命!AI 機器人成為智慧醫療助手

高齡化浪潮來襲, 2025 年台灣將步入超高齡社會,65 歲以上人口佔比超過 20%。高齡化加上少子化,衍生勞動力短缺不足,經濟部工業局推動「電子資訊智慧製造服務系統推動計畫」,加速服務型機器人產業發展,借鏡日本智慧長照現況,把科技導入照護場域,提升更好的生活品質。
評論
Photo Credit:經濟部工業局
評論

日本是全球高齡化程度最高的國家,而台灣高齡化的腳步愈來愈快,僅剩不到 5 年的時間準備。因應長期照顧與醫療照護需求,各單位紛紛投入 AI 應用服務,解決人口結構改變問題。綜觀以 AIoT(物聯網 + 人工智慧)為核心的智慧醫療趨勢,可輔助醫療流程、節省人力成本,更提升照護服務效率,為高齡化社會帶來了新的解方。

Photo Credit:經濟部工業局
台日照護機器人交流會邀請各界分享照護機器人開發與應用案例與經驗。

人工智慧產業前景看好

人類壽命越來越長,智慧醫療正逐步顛覆傳統醫療模式,從遠距醫療、機器人、物聯網到穿戴式裝置,龐大潛在商機吸引國際科技大廠投入。台灣醫療服務水準居亞洲領先地位,尤其是資通訊科技實力鏈結全世界,創新能力與解決方案屢屢獲得市場矚目。當人工智慧遇上健康醫療,擴展未來醫療的無限可能,對社會大眾都有切身影響,不僅引領新一波商業浪潮,也創造出更多的照護服務模式。

醫療與科技結合,帶來新變革也帶動數位時代轉型新契機,未來將有更多關於智慧醫療的布局,解決人口高齡化的社會問題。從另一個面向來看,人口快速老化促使長期照護需求,服務人力是建置完整體系的關鍵因素,衛福部在政策面不斷調整適當的滾動式管理。目前長照 2.0 擴增老年照護服務,以及任何年齡的失能身心障礙者,從長照人力需求來說,缺工現象嚴重,照護機器人將成為醫療、長照的主力。

台日照護機器人交流會

為提供台灣照護場域導入智慧科技之契機,在經濟部工業局指導下,服務型機器人聯盟與台灣智慧樂齡照護創新科技產業大聯盟於 5 月 6 日攜手舉辦「台日照護機器人交流會」,邀請各領域專家分享實務現況,作為研發製造與場域運用參考。經濟部工業局林青嶔簡任技正表示,隨著科技迅速發展,智慧醫療創新服務產業生態系逐漸茁壯,5G 落地、AI 應用更多元,機器人正在改革醫療世界。

圖2_經濟部工業局林青嶔簡任技正表示,超高齡社會即將來臨,透過服務型機器人創新科
Photo Credit:經濟部工業局
經濟部工業局林青嶔簡任技正表示,超高齡社會即將來臨,透過服務型機器人創新科技能解決照護人力議題。

「台灣和日本一樣,面臨急速老化的超高齡社會,因此對於熟齡及身障者的照護非常重要。呼應長照 2.0 政策,應用科技打造更多元化、人性化的服務,AI 及智慧機器人的運用更是未來顯學。」林青嶔簡任技正分享觀點,這場交流會聚焦台日相關經驗分享與討論,加速業者與國際連結。台灣具有精密機電與 ICT 產業供應體系的優勢,發展機器人科技的腳步正迎頭趕上歐美日等國家,尤其是服務型機器人產業,將是台灣製造業的明日之星!

圖3_因應疫情,透過網路視訊方式進行交流,雙邊合作討論熱烈。
Photo Credit:經濟部工業局
因應疫情,透過網路視訊方式進行交流,雙邊合作討論熱烈。

促成更多元的服務應用

透過「台日照護機器人交流會」,日本 ATA 協會五島清國部長、日方企業 Reif 與 Whill,以及台方微星科技、全智通機器人、福寶科技分享照護機器人的開發與普及應用現況,透過創新科技解決照護難題。照護機器人的開發,必須掌握使用者需求、符合未來照護趨勢,再藉由實體實驗場域的調校,完美融入生活當中。微星科技、全智通機器人、福寶科技旗下的產品已分別應用於物流、醫療、清潔等領域;因應新冠肺炎疫情的「低接觸」服務型態需求,更加快普及速度。

圖4_日本ATA協會五島清國部長強調照護機器人必須貼近使用者,幫助提升生活品質。
Photo Credit:經濟部工業局
日本 ATA 協會五島清國部長強調照護機器人必須貼近使用者,幫助提升生活品質。

服務型機器人的創新應用在不同領域逐漸成形,經濟部工業局透過政策資源、科專計畫等大力推動服務型機器人產業化,協助企業轉型發展機器人新事業動能或新創公司設立,包括微星、東元、佳世達、凌群等企業。另外,2018 年成立的「服務型機器人聯盟」,由資策會服創所與台灣智慧自動化與機器人協會(智動協會)合作發起,結合政府及民間力量整合產業鏈上中下游資源,共組國家隊搶攻國內外市場。

服務型機器人聯盟今年度規劃「2021 ROBO COM 蘿蔔控」創意實證競賽,延續場域實證的精神,擴大研發能量及市場化企圖。聯盟持續引入資源,推動機器人業者和學研團隊合作,展開技術及實務交流,共同激盪具市場潛力的創新方案。


 「2021 ROBO COM 蘿蔔控」服務型機器人創意實證競賽資訊

  • 報名期間:即日起至 5 月 15 日
  • 競賽期間:6 月 15 日 - 9 月 30 日
  • 報名資格:不限年齡、學生團隊、社會人士、非營利組織、地方社團乃至公司行號都可組隊報名
  • 組隊資格:接受個人挑戰或多人組隊,團體至多6人

立即前往活動報名頁面了解更多!

經濟部工業局 廣告