在開放的同時,蘋果搬出了「次時代隱私策略」

評論
評論

 

作為一年一次必須「觀看」的科技盛宴, WWDC 其實才進入第三天。一般圍觀群眾最為關心的開幕已然結束,但在各式各樣的中文總結之中卻有一個蘋果非常強調的詞甚少出現,它就是隱私。

在一系列新隱私做法和策略中還出現了一個全新成員的面孔 — Differential Privacy(差分隱私),同時它也可能是目前解決大數據時代下隱私問題的最徹底辦法之一。

新服務、新體驗,背後卻是來自隱私的挑戰

雖說 10 個更新的 iOS 10 仍算不上單次更新最多的 iOS 版本,但是全新人工智慧、大數據技術的加入,給蘋果用戶帶來了全新的使用體驗。而要達成這些這些功能,首先第一步就是要對用戶的數據進行分析。

appleprivacy2

全新的 Home 應用讓用戶能夠遠端在統一的界面對家中的智慧家居進行調整,毫不意外的,蘋果對 Home 應用的遠程控制數據也採用了與 Facetime 、 iMessenger 一樣的端到端加密算法。

appleprivacy3

接下來照片應用不僅僅擁有原先的相冊功能,同時還加入了深度學習功能。能夠自動根據地點、主題、人、物將照片歸納分組,並且和一些相關資源組合,生成以「回憶合集」。蘋果的做法也很簡單,這部分用戶訊息的處理和加工全部只在 iPhone 本地完成。

appleprivacy4

同時蘋果還表示在 Siri 、 Map 一類的日常服務應用中,不會以「用戶個人檔案」的形式進行數據的收集。

appleprivacy5

之後我們就迎來了本文重點需要討論的「Differential Privacy」,按照字面意思來看,它似乎指的是蘋果在不同的應用中採用了不同的隱私策略,但它實際卻是一種全新的用戶數據收集方式,目的是從根本上保證在收集用戶數據的同時,保護用戶的隱私。

沒錯,聽起來真的就是這麼矛盾。

為了證明這項技術有多麼先進,蘋果的軟體工程高級副總裁 Craig Federighi 還在現場展示了一段來自賓夕法尼亞大學的隱私研究者, Aaron Roth 教授的一段表態:

將 Differential Privacy 廣泛的結合進蘋果現有的技術是非常有遠見的,這也讓蘋果再次在隱私方面走在了一眾科技公司的前面。

不被大家注意的「差分隱私」

appleprivacy6

蘋果之所以會在 iOS 10 上面打造了這樣一個以「開放」為主線的更新路線,其中最關鍵的可能就是新的關鍵算法——「Differential Privacy(差分隱私)」。

所以 Differential Privacy 究竟是個啥?用蘋果官方給外媒 Wired 的官方回復來解釋就是:

差分隱私會向用戶的使用規律片段樣本中添加數學噪聲訊息。隨著越來越多人分享同一個使用規律,就會顯現出通用的規律,從而得出可以提升整體用戶體驗的方法。

Wired 隨後也給出了自己理解的版本,可能更加通俗易懂一點:

這是一種利用概率學原理,在盡可能多地了解一個群體的情況下不去了解這個群體內的人。擁有了這項技術的蘋果,能夠利用他們手機和存儲的用戶數據反過來了解用戶言語、喜好、以及需求。即便是蘋果自己也無法從中得出針對特定個人的數據,這對於駭客、情報組織來說也是一樣的。

到這裡,你肯定還是聽的一頭霧水。所以,不妨讓我再來給你們解釋一些背景信息。

appleprivacy7

數據,是這個時代的一種全新「資產」,你可以通過採集用戶的數據進行分析,從而得出他們的行為規律,並且反過來提升用戶的使用感受。這也是「體驗至上」時代每個產品的製勝法寶,連蘋果都不例外。

但在被收集數據的時候,實際上用戶都是「毫不知情」的(很多時候知道也沒辦法),訊息中哪怕夾雜著大量的隱私訊息,也一樣被發送到了雲端。

早在 2007 年,美國德州 Austin 大學的 Arvind Narayanan 和 Vitaly Shmatikov 就進行了一次實驗,他們利用網路影片服務商 Netflix 提供經隱私處理的數據,與 IMDB 的數據進行比對,從而最終得出 Netflix 的匿名訊息。

這也意味著在大數據技術的幫助之下,哪怕你對用戶訊息進行了匿名處理,用戶的隱私依然無法得到保障。

在大數據時代的當下,這些用來反向比對的數據總有辦法獲得。最為明顯的例子就在網站密碼比對,如果你不習慣每個網站用一個帳號,那麼遲早你會被「盜用」。更不要提安裝種類繁複的輸入法了,大多數從用戶回饋的數據甚至使用明碼進行傳輸。

很可惜,蘋果目前也未透露其「差分隱私」技術的細節,同時也只是在 QuickType 鍵盤、表情推薦、Spotlight 深度鏈接推薦進行嘗試。

根據 Microsoft Research 工程師 Cynthia Dwork 和上文中賓夕法尼亞大學 Aaron Roth 教授一起刊發的一份相關論文來看,「Differential Privacy」即便是研究也處於一個非常初期的狀態:

差分隱私目前仍舊只是一個定義,目前我們能夠利用它來測量一個隨機算法的隱私性,而由分類定義錯誤導致的批評我們經常收到。

但在詢問了國內安全、隱私的相關工程人士之後,他給出了對 Differential Privacy 的看法

這是一個弱化之後的用戶訊息收集策略,關鍵在於不能從手機訊息裡還原具體是誰,但同時能夠區分是哪一群體。整體步驟應該包括用戶數據的「破碎化」,並且降低不同碎片之間的關聯性。

舉個例子:

士林梁朝偉放學之後,在學校門口的第三間書店見到了內湖張曼玉。然後在書店旁邊的電影院看了《重慶森林》,最後在和內湖張曼玉道別之後回到了自己在學校旁邊的家裡。

而蘋果實際收集的數據卻「很有可能」是這樣的:

很多人會放學,很多人會在電影院看重慶森林,很多人會告別
有一些人「放學+看重慶森林」
有一些人「看重慶森林+告別」
有一些人「放學+看重慶森林+告別」
但是蘋果實際是怎麼從用戶的數據裡面來提取這樣的「顆粒」?不知道。這個顆粒如何更新、組合、從而實現統計的有效性?還是需要實際試驗。另外一種可能性在於蘋果會通過收集這些「顆粒」來不斷修正自己的結果。

蘋果在 WWDC 現場提到的「不建立用戶檔案」正是其中一個重要的步驟,但如何降低用戶數據碎片之間的關聯性?在蘋果選擇公開之前,我們依舊無法得知。

科技巨頭都糾結的問題:隱私 vs 體驗提升

有意思的是,大多數科技公司在有可能侵犯用戶隱私的前提下,大量收集用戶數據的目的不是出售用戶的數據,而是分析用戶的使用數據,從而更加了解用戶,結合用戶的喜好、想法,最終提升用戶的使用體驗。

正如微軟中國 CTO 上個月底所說:

只要一上網,我們基本上等同於裸奔。只要你掏出手機打開 App,你今天去了哪兒、你的電話號碼是多少、你的即時位置訊息……你在手機上進行的一切動作,都被悄無聲息地記錄在冊。

無論是之前的 Google Assitant 、還是這次的 Siri,他們都擁有「預測用戶接下來想輸入什麼」的能力,要實現這個能力,一定不是靠人工逐項輸入,而是由數據直接分析結果。而分析所用的數據則是從用戶那裡收集而來,進而也就將隱私問題拉下了水。

對之前一直都被視為封閉系統典型代表的 iOS 來說,這個問題並不突出,至少蘋果對自己的安全技術有把握、有信心(連 FBI 都搞不定)。但既然選擇了開放,這就為外界獲得用戶訊息提供了可能。

這個潛在的「隱私危機」,大多企業的選擇都是盡可能,但是對於影響力巨大的蘋果來說,則是最終按下「開放」按鈕的必須前提。

從 07 年蘋果發布一代 iPhone 以來, iOS 一直都被視為封閉系統的典型代表,當然這也有 Android 充當「對照組」的原因。但實際,蘋果糾結的並不是「要不要開放」,而是「開放」之後可能帶來的安全、穩定性、生態等一系列問題。正如甲柏斯自傳中寫道:

因為這樣可能會把 iPhone 搞得亂七八糟,感染病毒,或者破壞其完整性。

而在用新方法解決了用戶的隱私問題之後,蘋果終於開始嘗試「開放」,雖然不知道「Differential Privacy」這項技術之後是否能夠普及並且惠及人類,但蘋果的吃螃蟹之舉,必將給予科學研究人士和科技行業以信心和提醒。

appleprivacy11

最後 Craig Federighi 在 WWDC 上也用一張 Keynote 表明了蘋果的決心:

優秀的功能和隱私保護。


精選熱門好工作

Video/Image Processing Software Engineer

PicCollage 拼貼趣
臺北市.台灣

獎勵 NT$20,000

樂趣買 事業開發 Business Development(Rakuma)

台灣樂天市場
臺北市.台灣

獎勵 NT$20,000

BD商務開發 (無經驗可)

WeMo Scooter
臺北市.台灣

獎勵 NT$4,000

評論