年度第一 emoji是它!但收集數據又保護隱私蘋果是如何辦到的?

蘋果公佈了今年最流行的 emoji 是笑著哭的表情,不過問題來了,一直宣稱注重保護用戶隱私的蘋果,是如何獲取用戶每天在鍵盤上發送出去的數據資訊,進而整理出這個榜單的呢?
評論
評論

本篇來自合作媒體 愛范兒 ,INSIDE 經授權轉載。

年底到了,蘋果公佈了今年 最流行的 emoji,在英美法三國的統計中,最受歡迎的 emoji 是笑著哭的表情(Face With Tears of Joy),第二流行的 emoji 則是紅心(Red Heart)。

對於我們而言,每天使用 emoji 已經習以為常,它們替代我們更便捷地表達了內心的感受。不過問題來了,一直宣稱注重保護用戶隱私的蘋果,是如何獲取用戶每天在鍵盤上發送出去的數據資訊,進而整理出這個榜單的呢?

最近, 蘋果的機器學習日報(Machine Learning Journal) 刊文解釋了他們是如何透過「差分隱私」(Differential Privacy)的方式,在保護用戶隱私的情況下收集到用戶群體的使用習慣。

差分隱私 這項技術,主要是在收集數據的過程中,加入一些隨機的干擾資訊,將用戶的個人數據打亂,然後與其他數百萬人的數據混合在一起。這樣一來,蘋果就只能看到整體的狀況,而看不到個人的具體數據。即使數據庫中的資訊被洩露,也無法將資訊對應到各個具體用戶。

差分隱私的原理,其實與統計人員做調查時,用來保護受訪者隱私的辦法是類似的。比如,想要調查某個人群的出軌率,為了保護受訪者的隱私,並且提高人們如實回答的意願,調查者通常會這樣設置調查方式:

調查問題是「你是否曾經有過出軌行為」,答案只有「是」和「否」兩個答案。然後每個人發一枚硬幣,在回答這個問題之前先拋擲硬幣,如果正面朝上,就回答真實情況,如果反面朝上,就再投擲一次硬幣,正面就回答「是」,反面就回答「否」。當然,第一次投擲為正面的人,也可以假裝再投擲一次硬幣來混淆視聽。

調查後會獲得 X 份問卷,其中有 Y 個人回答「是」,則可計算出這個人群的出軌率為(YX/4)/(X/2) 。即使這些收集到的問卷被盜或者洩露,受訪者的隱私依然能夠被保護。

需要明確的是,數據不等同於隱私,兩者的定義是不一樣的。隱私是對應單個用戶,比如,美國人 Amy 最常使用的 emoji 是「笑著哭」,這是屬於他的個人隱私;蘋果公佈英語用戶最喜歡使用的 emoji 是「笑著哭」,這是對應群體用戶的資訊,則不算隱私,但是如果可以從這些數據中推算出 Amy 的 emoji 使用習慣,那就是用戶隱私洩露。

在去年的 WWDC 大會上,蘋果就宣布使用差分隱私的方式來收集用戶資訊,並且首先應用到分析流行表情符號,收集 Safari 中能耗率高的網頁資訊,以及發現新流行詞語(QuickType 相關)上。

應用差分隱私方案,根據添加干擾資訊的先後,可以分為兩種設置:本地和中央。

蘋果在論文中講述了「本地差分隱私」此方案的使用:在數據從用戶設備發出之前,就會添加干擾資訊,同時每天只會透過加密通道上傳一次數據,數據在到達服務器後,設備的 IP 標識會被丟棄,各個記錄之間的關聯也會被丟棄。

當然,iOS 10、macOS Sierra 以上的用戶,可以自己選擇是否要加入差分隱私,在 iPhone 的隱私菜單,蘋果電腦的控制台中,可以自主設置。

不過,差分隱私政策真的安全嗎?據外媒《Wired》今年 9 月的報導,已經有學者反向研究出蘋果隨機加入干擾資訊的詳細步驟,並指出「差分隱私的有效性取決於被稱為隱私損失參數或’epsilon’的變量,這個變量決定了數據收集者為了保護其用戶的秘密而願意犧牲多少特異性」。他們認為蘋果在 MacOS 上所設置的參數變量,上傳了比預期更多的用戶隱私資訊。

曾任 Google 研究科學家的 Aleksandra Korolova 在《Wired》的報導中說道:「蘋果的隱私損失參數,已經超出了差分隱私研究領域中人們認為可以接受的程度。」

不過蘋果也對此進行了反駁,他們說自身的差分隱私系統為不同類型的數據裡添加了不同的干擾資訊,遠比這些研究人員所得出的結論要安全,並且會去掉不同數據類型之間的關聯。

然而學者和大眾也有同樣的顧慮,蘋果自認為所蒐集的用戶數據之間的關聯已經被去除,但是不排除有人可以逆向倒推出來。

如今無論在哪個產業和產品,透過收集數據了解用戶使用情況,對於改進產品、提升用戶體驗至關重要。隨著數據挖掘和人工智慧技術正逐漸成為優化產品的重要驅動力,用戶使用產品的數據已經是驅動算法迭代的能量。沒有產品經理能夠放棄用戶資訊,就看他們是否願意、會用什麼辦法保護我們的隱私了。