工程師們,教你使用 IoT ANALYTICS 網站進行大數據挖掘

作者:Ben Lieberman 博士
擁有科羅拉多大學健康科學中心的生物物理學與遺傳學專業的博士學位。 Lieberman 博士現任 BioLogic Software Consulting 首席架構師,將其 15 年來 所累計的軟體架構和 IT 經驗應用於各個領域,包括電信、航空、電子商務、政府機構、 金融服務,以及生命科學。 Lieberman 博士以軟體發展方面的最佳實踐為基礎提供諮詢服務,並專門負責物件導向的架構和分散式運算,尤其是基於 Java* 的系統和分散式網站開發,以及基於 XML/XSLT、Perl 和 C++ 的用戶端伺服器系統。 Lieberman 博士為不 同類型的機構提供架構服務,包括 Comcast、Cricket、EchoStar、Jones Cyber Solutions、Blueprint Technologies、Trip Network Inc. 和 Cendant Corp;教育機構 ,比如杜克大學和科羅拉多大學;以及政府機構,比如美國勞工部、礦山安全與健康監察 局、美國國防部的 Military Health Service。 他還是一位知名的職業作家,出版過著作(The Art of Software Modeling, Benjamin A. Auerbach Publications, 2007), 並發表過多篇與軟體相關的論文,以及 IBM 公司技術簡報。
裝置的互連,帶來了一個全新的商機。對於個人而言大幅了增加對於周圍的環境事物的可控度。我們可以遠端遙控家裡、交通工具和辦公室,只需要用到一支智慧型手機 。
利用這些高程度的互連裝置,現在我們還可以收集到巨量的資料「更加的具體真實」藉由內嵌著各式各樣傳感器的裝置提供多樣的訊息。這些傳感器例如:溫度傳感器、加速度傳感器和位置傳感器可以提供狀態的資料。但是這些資料僅是廣泛的資料數值,尚且缺乏強大的資料分析工具來處理訊息。這些泛用的數值資料可藉由英特爾的物聯網分析工具與建置在區域端的感應元件來匯集、整理與探勘大數據。
這些互連元件的需求成長是極具爆發性的。 可攜式產品的成長, 網際網路的普及和強健的功能與親民的價格造就了從個人連結到終端裝置的方式富而多元的想像空間, 這些都是前所未見的機會。
10 年以前誰可以預測到社群網路的蓬勃?同樣的,我們現在所處的世界,連結每百萬位元的資料量的花費大幅降低、無線通訊隨處可用,各種機器也可以相互連結。這就是物連網的世界。
收集與分析遍布各地的設置的感應器數據成為了物聯網發展過程中的一個顯著的成長點。設想一下,道路中内置溫度傳感器的數據收集。這些傳感器均通過有線或無線連接至當地的收集點,以供數據處理和匯集。
随後穩定的信息將傳給道路管理人員,他們負責決定何時何地部署開路、道路處理、封鎖施工,甚至暫時繞道。
現在,想像一下如何使用這些數據(以及幾年收集的豐富歷史數據)以建立關於路面溫度如何隨當地條件上下波動的預測模型。也許特定的橋會特別容易結冰;則這種情況的預警機制可以適時的提供適當的處置,從而減少橋上事故風險。
英特爾 Galileo 和 Edison 開發板經過專門的設計與建構,可為大眾提供這類傳感器數據收集的功能。各種各樣的傳感器可以將報告數據給物聯網集結成開發板,並對該數據進行暫時收集和進行預先處理。英特爾創建了物聯網分析網站(IoT Analytics)可連結英特爾 Galileo 和 Edison 驅動的傳感器網絡和匯集大量的時間序列數據作進一步分析。
今天,各種小型、經濟、功能強大的環境傳感器均可連接和集成至幾乎其他所有設備(見表 1)。這些傳感器發送在定義的頻率測量(例如:秒)和精確度傳輸測量值。這種數據生成由固定時間點和各時間點的值所组成的時間序列。例如,考慮一個發射射頻識別(RFID)晶片嵌入在礦工的徽章。該晶片將關於工人的時間和位置數據的連續資料傳輸,使礦井安全管理人員確切地知道那裡的工人人數。這樣的數據,如果在一個煤礦事故中,可以直接反應出挽救生命的關鍵價值。
傳感器可以建置來傳送他們的測量值,一則是可以透過限定的物理連接 (如一個 RS232 序列埠) 或使用的幾種無線的方法,諸如通過藍芽連接。唯一的要求是該傳感器需要被設計用於該物理環境--- 溫度,衝擊,壓力,等等,而且該連接是相當安全的。
傳感器數據流可直接轉發至物聯網分析站,或者先由開發板直接進行預先處理(以消除雜散測量值或空白)。欲了解更多相關訊息,請查看英特爾 Edison 發展板總整理(請參見“更多訊息”一節中的連接)。
所收集的和預先處理的傳感器數據流現在可以在二次加工點直接收集,譬如物聯網分析站(圖 2)。物聯網分析網站提供了一個工作區(請參見“更多信息”部分的連接,安裝說明和詳細信息)和一套工具,用於收集、視覺化、處理和示警傳感器的時間序列數據。用戶面板上就可以看到的設備的當前集合狀態、採取過去幾小時的觀測(測量),和已被觸發的所有用戶配置警報的運行審查。
本文採用物聯網分析網站服務應用程序編程接口(API)來展示如何使用收集到的數據可以進行數據挖掘和分析訪問。這個例子說明,包括從收集到的物聯網分析網站數據直接分析一個示例應用程序。
使用物聯網分析網站服務應用程式設計介面 (API) ,介紹如何訪問已收集的 資料以進行資料採擷與分析。 文章所列舉的示例包括說明如何在物聯網分析網站直接分析收集的資料的示例應用。
時間序列數據通常設置一個時間每個元件由一個時間 -- 值對,如(t)的輸入法= 0.55 秒或(v)ALUE=40.5oC. 如果傳感器數據流的週期性為 0.05 秒,然後下一測量預計在 t= 0.60 秒,接著用 t= 0.65 秒等該集合可以被可視覺化成的二維曲線圖,以時間為縱軸(x 軸)和報告的值作為橫軸(y 軸軸)。使用的物聯網分析站的示例性繪圖為圖 3 中所示。
正如你在圖中看到,物聯網分析網站能夠以各種格式繪製時間序列數據,包括總結的時間段(分鐘,小時,日,週,月,年),作為一個線或面積,並用“縮放”,在特定的數據集的基礎數據的更詳細的檢視。
時間序列分析科學有著悠久而豐富的歷史。有許多方法來處理原始數據的時間點和值表示,本文無法一一介紹。對於最近這些技術審查,連接到“更多信息”部分參考 T-C Fu 的文章。無論何種分析技術,但是以時間序列數據挖掘方法也有一些共同的特點。
原始時間序列資料的用處非常有限,比如目測檢查,無法進行下一步分析與建模。 僅管最近可根據最高限值設置警告(即一 SIGMA 方差統計),但有一種更為完善的方法來挖掘用於預測模型的資料。 在圖 3 的示例中,設想 CO2 汽車尾氣傳感器通過規定的時間週期以特定的頻率報告測量值。 如果這是可收集多個傳感器資料(比如引擎溫度和油耗)的大型資料集的一部分,你可以通過對比兩圖之間的差異尋找規律,以預測未來的汽車保養情況。
開發的分析模型的技術中,原始數據必須首先被修改或減少到一個可行的格式。多種技術已經開發了用於時間序列數據操作,但最常見的一種是所謂的 Z 型正常化。這種技術的時間序列的原始值轉換為具有 0 的中值(平均值)為 1.0 的標準偏差的值。這種轉換就可以比較同一時間序列數據直接設置與另一組,大大簡化了算法的複雜度。關於這種轉換的限制是,該數據點都必須有一個正態概率分佈,這是在指定的範圍內的標準的“鐘形曲線”預期值。對於大多數傳感器採樣數據,該曲線已被發現是真實的,所以這是比較通用的方法。
基於“正常”的預測模型(即,一般控制)系統的行為,通常需要以檢測異常的系統行為。有幾種方法來創建這樣的模式:利用一套行之有效的測量基線(監督),將預期的系統行為(半監督)的數學或工程預言,或者只是對自己在不同的時間(無監督)比較傳感器數據點。在最後的情況下,選擇的時間段與另一相比,多半是使用滑動窗口,以檢查異常值(見“參考信息”)。
為了創建這些模型中,在應用算法或方法對從傳感器收集的數據流。常見的技術包括傅立葉變換(轉換的時間序列值,以出現頻率),動態時間扭曲(時間序列數據組的測量次數無關),和小波變換(分割時間序列數據轉換成越來越小的段)。一種相對較新的技術,被稱為符號近似(SAX),採用新穎的變換時間序列數據來定義的符號組,的技術如字母表,它允許使用多種模式匹配算法,包括那些信對 DNA,RNA 和蛋白質的生物序列分析(例如,生物信息學)開發。
當你選擇了一個分析方法,接下來的決定是如何檢測異常。傳統上,已經完成或者通過識別離群值(稱為,統計檢測)或通過計算一個“標稱”數據曲線和測得的序列之間的差異。這被稱為一個距離量度,並使用連續的數據點之間的歐幾里得或正方形差經常計算。這些值的集合提供兩曲線之間的差異的定量指示。如果名義和測量的時間序列相差大於一個給定的量,時間序列被判進一步調查。此外,模式匹配(和得分)算法生物信息學研究開發的可用於定量評價兩個(或更多個)的時間序列。
本文最後一部分將探討如何通知相關方時間序列中所檢測到的異常。 物聯網分析網站可提供簡單但功能強大的示警機制,該機制基於一套規則。 如圖 4 所示,你可以針對適用於不同設備的感測器定義一組具體規則。 執行規則的條件可針對常見的情形進行評估 :
帳號啟動或者通過電子郵件註冊用戶就可以通知(使用帳戶建立時登記的地址),或者通過發送一個 HTTP 消息發送到指定的地址。
這些功能足以滿足那些需要傳感器分析大多數情況下,但下一篇文章將顯示,如果需要更深入的分析,那麼你可以使用物聯網分析網站服務器 API 來獲取傳感器的數據集,並進行額外的數據挖掘作業。
價格經濟、敏感性出色的傳感器不斷激增,以及網路連接的日益普及為開發新的日常設備評估與控制方法奠定了堅實的基礎。 通過彙集傳感器測量值並採用一台簡單的分析規則,我們可以在出現潛在設備故障的情況下主動採取措施,或更加快速地回應不斷變化的環境狀況。 而且,通過使用中心聚合網站(比如英特爾物聯網分析網站),感測器數據可由更先進的資料採擷方法進行處理,從而有助於創建和使用預測行為模型。
更多信息