揭開騰訊雲數據遺失事件真相,官方還原人為失誤全過程!

騰訊雲指出,「前沿數控」平台數據遺失除了物理因素外,人為失誤是重要原因!
評論
騰訊雲網站截圖
評論

本篇來自合作媒體  雷鋒網  ,INSIDE 經授權轉載。

騰訊雲官方微信公眾號發了《關於客戶「前沿數控」數據完整性受損的技術復盤》,對「數據遺失事件」全過程進行了還原。

「數據遺失事件」 指的是北京清博數控科技有限公司所屬「前沿數控」平台一塊作業系統雲端硬碟發生故障,導致檔案系統中介資料損壞此事件,而該公司購買的正是騰訊雲的服務。

據了解,這是騰訊雲繼  8 月  6 日上午《關於用戶「前沿數控」數據完整性受損及騰訊雲補償措施的說明》之後的第二次官方回應。此前聲明見文章: 騰訊雲回應「數據丟失事件

據觀察,此次騰訊雲發布的「復盤通知」主要有 4 點:

1、還原了故障過程

2、解釋了故障原因

3、公佈了改進措施

4、提出了客戶建議

騰訊雲指出,「前沿數控」平台數據遺失除了物理因素外,人為失誤是重要原因,騰訊雲為此做了深刻檢討:

復盤發現,該故障緣起於因磁盤 Silent error 導致的單備份數據錯誤,再加上數據遷移過程中的兩次不規範的操作,導致雲端硬碟的三備份安全機制失效,並最終導致客戶數據完整性受損。

「前沿數控」平台數據丟失,發生在 2018 年  7 月  20 日,當天騰訊雲維運人員是如何發現,又是如何嘗試組織技術專家修復的呢?

還原故障過程及故障原因

且看騰訊雲還原的全過程:
當天( 7 月  20 日)上午 11:57,我們的維運人員收到倉庫 Ⅰ空間使用率過高告警,準備發起搬遷擴容;

在 14:05 時,維運人員從倉庫 Ⅰ選擇了一批雲端硬碟搬遷至新數據庫 Ⅱ,為了加速搬遷,手動關閉了遷移過程中的數據校驗;

在 20:27 搬遷完成之後,維運人員將客戶的雲端硬碟訪問切至數據庫  Ⅱ,同時為了釋放空間,對倉庫 Ⅰ 中的原始 碼 啟動回收步驟;

到  20:30 監控發現倉庫  Ⅱ 部分雲端硬碟出現 IO 異常。

這個過程中涉及多次人為操作步驟,但「磁碟 Silent error 導致的單副本數據錯誤」此物理過程,維運人員是無法控制的,只有當中兩次操作是出了「大問題」的:

第一是正常數據搬遷流程默認開啟數據校驗,開啟之後可以有效發現並規避數據異常,保障搬遷數據正確性,但是維運人員為了加速完成搬遷任務, 違規關閉了數據校驗。

第二是正常數據搬遷完成之後,源碼數據庫應保留  24 小時,用於搬遷異常情況下的數據恢復,但是運維人員為了盡快降低倉庫使用率, 違規對源倉庫進行了數據回收 。

騰訊雲後續如何改進?降低人工干預、優化巡檢機制

實際上,這件事給騰訊雲帶來了不小的公關負擔,市場形象頗受影響。在復盤通知裡,騰訊雲誠懇地給出了一些加強和改進措施:

首先,我們將全面審視所有的數據流程,涉及數據安全的流程自動化閉環,進一步提升我們常規運維自動化和流程化,降低人工干預。同時把全流程的數據安全校驗作為系統的常開功能,不允許被關閉。

其次,針對物理硬碟靜態數據錯誤,在當前用戶訪問路徑數據校驗自癒的基礎上,我們優化現有巡檢機制,透過優先巡檢主備份資料段、跳過近期用戶訪問過的正確資料段等方法,加速發現該類錯誤,進行數據修復。

公告最後,騰訊雲提醒客戶,實際上,騰訊雲自  2016 年  3 月以來一直在提供免費的快照功能,可以對重要數據進行定期備份。同時出於對客戶數據隱私性和安全性的考慮,客戶可以自由選擇開啟或者不開啟此免費功能。騰訊雲呼籲客戶開啟此功能,進一步提升自身數據的安全性。

雙方商量恢復營運方案:和解金額未透露,未公佈責任員工名單

此前,「前沿數控」平台基於自身評估就此次故障對騰訊雲提出了高達 11,016,000 元人民幣的索賠要求,騰訊雲認為這明顯高於他們能夠提供的方案,這也是此次雙方此前未能達成一致的主要原因之一。

眼下,據騰訊雲方面透露,他們正在「積極與前沿數控方商量恢復營運的方案」。

現在看來,關鍵的一點是,他們最終會達成多少金額的賠償方案,先前騰訊雲 14 萬人民幣的賠償 +補償方案遭拒(客戶消費金額的  37 倍),這次會是多少?

因為,這不是個案,後期其他雲端廠商也會遇到類似的問題,市場都會關注騰訊雲的處理方式。

值得注意的是,對於這次事件中誤操作的工作人員,騰訊雲沒有點名,也沒有公佈處罰方式,預計已做內部處理。

何為磁盤 Silent Error?騰訊雲兩次公告都提及

騰訊雲兩次公告都提及一個原因:磁碟 Silent error。究竟這是什麼類型的錯誤?元兇是什麼?

Martin Petersen 和 Sonny Singh 在書中曾指出,數據損壞經常發生在寫入磁碟驅動器的時候。磁碟驅動器損壞有兩種基本類型:

第一種是潛在扇區錯誤,通常由物理磁碟驅動器故障導致。例如,磁碟陣列報告的檔案系統讀取錯誤。這種類型的損壞通常由 I/O 路徑中的錯誤更正碼  (ECC) 或循環冗餘校驗 (CRC) 檢測到,常常會自動糾正。

第二種是靜態數據損壞,可在沒有警告的情況下發生,可以定義為組件故障或管理操作疏忽所導致的非惡意數據遺失。靜態數據損壞發生在讀取或寫入無效數據時,不會導致 I/O 操作失敗。這種類型的損壞是最具災難性的,如果沒有端到端的數據完整性檢查,是沒有有效的方法來檢測它的。

使用虛擬伺服器和多核處理器,會增大故障儲存單元導致錯誤的可能。如果在應用程序或數據中心工作人員不知情的情況下發生這樣的錯誤,就稱為靜態數據損壞。儘管靜態數據損壞相對比較少見,但它可能長時間不被發現,從而導致代價高昂的關鍵業務功能無法使用的損失。

導致靜態數據損壞的常見元兇包括:

1、作業系統,包括核心操作系統和設備驅動程式

2、儲存硬體和韌體

3、管理錯誤

那麼「靜態數據損壞」發生的機率有多少呢?

《Silent data corruption in SATA arrays: A solution -- Josh Eddy August 2008》一書曾對 silent error 進行了解釋。該文提供了一組數據:

一項針對 NetApp 數據庫中 150 萬個硬碟驅動器的學術研究在  32 個月內發現, 8.5%的 SATA 磁碟會產生靜態損壞。某些磁碟陣列運行後台進程,以驗證數據和 RAID奇偶校驗是否匹配,並且可以捕獲這些類型的錯誤。然而,該研究還發現,後台驗證過程中錯過了 13%的錯誤。

這意味著沒有被發現的那些錯誤,最終會讓企業為此承擔風險、付出代價。實際上,隨著網路安全越來 越 重要,關於「靜態數據損壞」這個領域,相當值得各大雲端廠商加以關注並投入研究。


用 Line 視訊太久會致癌?別再污名化手機通訊,謠言比電磁波更有害!

「聽說 LINE 通話會讓電磁波飆高 6 萬倍」、「手機通話的電磁波可以爆爆米花」…這些如同都市傳說的網路文章,你是否也曾閱讀過呢?
評論
Photo Credit:Unsplash
評論

茶水間內,兩位 OL 正在一邊加熱中午的便當一邊閒聊著,「最近有一件事情讓我有點擔心⋯」今年剛滿三十歲的北漂族 A小姐說道,「因為疫情我跟我男友已經好幾個月沒有見面了,但我們還很熱戀呀,所以常常每晚都開著 Line 視訊電話聊到睡著。」

「這樣很甜蜜啊,有什麼好煩惱的?」B 小姐盯著微波爐內旋轉著的便當盒答。A 小姐吞了吞口水,「還不是最近看到一些網路文章,說電子產品用太多,那個什麼⋯電磁波會影響大腦,聽說會致癌耶!太可怕了,害我這陣子都怕怕的⋯⋯」

Photo Credit:unsplash

Q:聽說LINE通話會讓電磁波飆高 6 萬倍,恐導致癌症,這是真的嗎?

答案是錯的喔,台大電機系教授陳士元表示,手機的電磁波並不會因為你現在在用何種 APP,就會發出不同的電磁波。只要在一樣的通訊情境下,不管是滑臉書、看 YouTube,還是用 Line 講視訊電話,電磁波都不會大幅改變的。

當然還是會有輕微變動的狀況,通常發生於手機開機與接通電話的瞬間,電磁波會稍微增強,不過正常使用和通話期間電磁波反而強度會削弱,不過這些電磁波的數值都符合國家及國際規範。

你可能會問,但用 Line 講電話的時候,手機都會變得比較燙呀?陳士元教授解釋,這與電磁波無關,純粹就是手機用電量增加而熱度提高,大家毋須擔心。

這裡補充一個小知識——根據國際非游離輻射防護委員會規定,手機電磁波高低判定,是看每一款手機的電磁波能量比吸收率(Specific Absorption Rate ,簡稱 SAR 值),也就是指生物體在每單位公斤所吸收到的輻射量功率,當 SAR  值越低,代表人體所接收到的輻射量越少。

如果你和 A 小姐一樣,很好奇或擔心自己的手機到底會釋放多少 SAR值,可以到 NCC 網站中,點擊「型式認證查詢網頁」(https://nccmember.ncc.gov.tw/Application/Fun/Fun016.aspx),輸入手機的「廠牌」、「型號」或「型式認證號碼」等資訊,最後再輸入確認碼後就可以看到相對應的資料囉。網頁中也列出不符 NCC 所定技術規範的電子設備,也趁機檢查看看家中是否有這些帶有風險的裝置吧。

Q:之前曾在網路上看過手機通話時的電磁波可以爆爆米花的影片,看起來好危險喔,這是真的嗎?

這個在網路上流傳的影片,乍看之下好像很嚇人沒錯,但其實是美國的廣告影片,所以即使看起來很真實,但裡面的效果都是假象喔,大家可千萬別信以為真。

仔細想想,中午熱便當所使用的微波爐,也至少要花一分鐘才有可能將玉米變成爆米花,更何況是平均輸出功率更低的手機,簡直是不可能的任務。所以影片中應是在桌下藏了瞬間加熱器的裝置,才能在幾秒間將玉米變成爆米花呢。

Photo Credit:Unsplash

基地台太近對健康有害?答案並非你想的那樣!

民眾可能會有個迷思:離通訊基地台越近,信號越強電磁波應該也越強,對健康會造成危害?

事實上,手機發射的訊號與基地台電磁波的強度,兩者是反比關係喔。距離基地台越近,手機訊號越好,手機電磁波的強度越弱;反之,距離基地台越遠,訊號越差,手機電磁波反而強度越強。

此外,現在的通訊基地台皆採用「蜂巢式通訊系統」的架構來建造,將服務區域切割成小塊小塊的範圍,透過大數量基地台所組成的「蜂巢」來涵蓋所有通訊區域的範圍。也因此,每座基地台的電磁波強度皆不高,且都在人體可接受的範圍內,因此不會對健康有所危害。

 別再污名化電磁波,好好相處才是長久之道

今天我們簡單洗刷了「電磁波」的冤屈,還它個清白——A 小姐不需要再擔心使用 Line 通話會被電磁波影響健康了,如果你想認識更多相關資訊,歡迎至國家通訊傳播委員會的行動通訊電磁波官網(https://memf.ncc.gov.tw/),查看更多延伸閱讀。

除此之外,如果你對家中或手機的電磁波曝露量很有疑慮,也歡迎撥打基地臺電磁波量測服務專線 0800-580-010(0800,我幫您,量一量),讓專業人士到府服務來替你排除疑慮,停止被謠言迷惑心智!

國家通訊傳播委員會 廣告