GDPR資料保護條例將對資料科學領域發展上造成嚴重影響嗎?

隨著技術的進步,機器學習也在飛速發展,全球對這一領域的投資也日益增加,機器學習正在迅速成為企業資料科學的趨勢。而隨著嚴格的 GDPR 問世,對機器學習究竟會產生哪些影響?如何在 GDPR 的限制下繼續資料科學及其研發項目?
評論
評論

本篇 Oreilly 原文《How will the GDPR impact machine learning?》經合作媒體 雷鋒網  編譯,INSIDE 授權轉載。

歐盟於 2018 年 5 於 25 日出台資料保護條例 GDPR ,隨之在資料科學領域引起了廣泛的討論,這是因為嚴格的資料條例,將對資料科學項目,尤其是機器學習領域產生巨大的影響。

目前,隨著技術的進步,機器學習也在飛速發展,全球對這一領域的投資也日益增加,機器學習正在迅速成為企業資料科學的趨勢。而隨著嚴格的 GDPR 問世,對機器學習究竟會產生哪些影響?如何在 GDPR 的限制下繼續資料科學及其研發項目?

剛剛頒布的 GDPR 還沒有全面生效,大家對於如何執行這一法規的認識還是模糊的,仍在不斷摸索中,但 GDPR 帶來的關鍵問題和挑戰已逐漸顯現。資料管理平台 Immutable 的首席隱私官與法律工程師 Andrew Burt 撰寫了一篇文章,一一解釋了自己公司受到的關於對機器學習影響的三大問題。

問題 1: GDPR 是否會禁止機器學習?

當然不是。即使是 GDPR 生效後,在歐盟,機器學習也不會被禁止。但是,不可避免地,此後機器學習的應用都會涉及沉重的法規問題。

根據法規的要求, GDPR 將全面禁止沒有人為干預、並會對資料主體產生重大影響的自動化決策。值得注意的是, GDPR 適用於所有使用了歐盟資料的情況,這些資料可能都能夠辨識出一個資料主體,而對於使用了大量資料的資料科學計劃,這意味著 GDPR 將適用於其所有的活動。

GDPR 對於「自動化決策」的定義是指,在沒有人為直接參與的情況下自動作出決策的模型。這包括了對資料主體的自動「使用者畫像分析」,例如將使用者分類為「潛在客戶」或「40 -- 50 歲男性」,以確定貸款申請人是否有資格獲得貸款。

因此,鑑別機器學習模型是否是屬於「自動化決策」,首先是看模型是否是在沒有人為干預的情況下自動部署的,如果是,那麼這樣的模型默認為是被禁止的。而事實上,大量的機器學習模型都是這種情況。儘管許多律師和資料科學家反對過這一點,但參與起草和解釋 GDPR 的歐盟官方——第 29 工作組對於這一條解釋就是如此。

GDPR 禁止機器學習了嗎?「禁止」這一詞很具誤導性。禁止自動化決策是可以存在特例的,使用「禁止」這一詞太過強硬了。一旦 GDPR 生效,資料科學家應該期望的是,機器學習的大部分應用仍還可以實現,只是增加了他們不能忽視的合規負擔。

下面會詳述「禁止」以外的特例。

GDPR 法規明確了使用自主決策合法的三個領域:

  • 在簽訂了合同的情況下,資料處理是必要的;
  • 其他法律另行授權的情況;
  • 資料主體明確同意的情況。

事實上,最後一條是較為符合實際的,解決這一禁令的常用方法,就是資料主體明確允許他們的資料可以被模型使用。但是,讓資料主體同意並不容易。資料主體可以同意許多不同類型的資料處理,並且他們也可以在任何時候撤銷同意,這意味著在資料的使用上,需要精細化地管理資料主體對於資料使用的同意,允許資料主體選擇不同類型的同意,動態(允許資料主體撤銷同意)以及要提供足夠的使用者友好性,即讓資料主體有能力理解他們的資料如何被使用的,並且給予使用者控制資料使用的權力。

GDPR 並沒有完全禁止使用機器學習模型,但它會使得很多機器學習的模型及其輸入資料的部署和管理變得越來越困難。

問題 2: 機器學習是否需要「可解釋性」?

關於 GDPR 對機器學習的影響,我最常聽到的問題之一,就是機器學習是否需要「可解釋性」。去年作者特意寫了一篇文章討論這個問題。

這個問題源於 GDPR 本身的條例有些模糊不清。

「可解釋性」這一點帶來的風險是非常高的,可能會對企業資料科學產生巨大的影響。機器學習模型的複雜結構賦予了其神奇的預測能力,想要把其內在構成解釋清楚是很困難的。

我們從 GDPR 條例的文本開始說。

在條例的第 13 -- 15 條中, GDPR 一再聲明資料主體有權了解關於資料使用的「有意義的訊息」和自動化決策帶來的「重要和可預見的後果」。然後,第 22 條中, GDPR 規定,只有在具備了上述影響類型的情況下,使用者才可以對決策提出反對。最後,第 71 條序言是該條例中包含的不具約束力一部分,它指出資料主體可以要求自動化決策給出合理的解釋,並且資料主體能夠質疑這些決策。總而言之,這三項規定給資料的使用帶來了更複雜的場景。

由於文本的模糊不清,歐盟監管機構可能以最嚴格的方式去解釋這些規定,例如要求機器學習的模型對內部結構做出完整解釋,但這樣的做法似乎是不合理的。

這些文本更恰當的解釋可能是,當機器學習用於沒有人為干預下做決策時,以及當這些決策對資料主體產生重大影響時,資料主體有權對正在發生的事情有基本的了解。 GDPR 中的「有意義的訊息」和「可預見的後果」或許可以這樣解讀。歐盟監管機構可能會將重點放在資料主體有權就資料使用情況作出決策上,而對於資料使用的透明度,則可能會依據於模型及對應的情況而定。

問題 3:資料主體是否有權要求刪除他們的訊息後重新訓練模型?

這也許是 GDPR 條例下最難回答的問題之一。換句話說,如果一個資料科學家使用某個資料主體的資料來訓練模型,然後在這個模型中融入了新資料,那麼此前的資料主體對於之前用他們的資料訓練出來的模型是否還有一定的權力?

據我所知,答案將是否定的,至少在實踐中是這樣的,只有非常少的特例。為了解釋更清楚,我先從這些特例說起。

在 GDPR 下,所有資料的使用都需要在法律的允許下進行, GDPR 第 6 條規定了六項對應的法律依據。其中有兩個最重要的「合法權益」的依據,並且資料主體明確同意使用該資料。這種情況下,當處理資料是依據於資料主體的同意時,資料主體將仍保留對該資料的重要控制權,這意味著他們可以隨時撤回同意,處理該資料的合法性將不再存在。

因此,如果組織從資料主體收集資料,資料主體同意將他們的資料用於訓練特定的模型,但隨後又撤回同意,何時資料主體可以強制模型重新訓練新資料?

答案是只有當該模型繼續使用該資料主體的資料時才可以。

正如 29 工作組所指出的那樣,即使資料主體撤銷了同意,撤銷前所發生的所有的處理仍然是合法的。因此,如果資料被合法地用於創建模型或預測,那麼無論這些資料的產出是什麼,都是可以被保留的。事實上,一旦用一組訓練資料創建了模型,那麼訓練資料的刪除和修改都不會影響到之前的模型。

但是,一些研究表明,模型可能會保留關於訓練資料的訊息,即使在訓練資料被刪除之後,仍然可以通過模型找到原始資料,正如研究人員 Nicolas Papernot 等人寫的一樣(模型的隱私性問題,參見這篇文章)。這意味著在某些情況下,保留訓練模型而刪除原有資料,不能保證在以後原有資料不會被重現,或者說在某些情況下,原有資料還是仍可能在使用的。

但是從模型中復原原有的訓練資料有多大可能呢?幾乎是不可能的。

目前所知,這種研究只在學術環境中進行,企業的資料科學與學術環境相差甚遠。正是由於這個原因,作者不認為模型會因為受到資料主體的要求而重新訓練。雖然這在理論上是可能的,但已經是非常邊緣的特例了,只有在特定情況下特例發生之後,監管機構和資料科學家才需要去處理。

儘管如此,所有這些問題都存在大量的細微差別,未來這些細微差別一定會出現。 GDPR 有 99 條正文和 173 條引言,注定是非常長且複雜的法規,並且隨著時間的推移變得更加複雜。

但是,至少有一點是明確的:要感謝 GDPR ,在未來的大規模資料科學計劃中,律師和專門負責處理隱私的工程師將會成為資料科學計劃的核心成員。


看見社會包容力 ─ 每一簇的數位星火

過去一年,新冠肺炎讓全球進入一座大型數位轉型實驗室,小從日常飲食、上班上課,大至城鄉發展,這波加速的數位轉型,並不會隨疫情退散而消失,正因如此,影響社會各層面的「數位包容」顯得格外重要。
評論
Photo Credit:unsplash
評論

根據國際數據資訊(International Data Corporation)預估,2020 ─ 2023 年,全球與數位轉型相關的直接投資金額,每年以 15% 增速成長,2023 年將達到 6.8 兆美元,建立起強大的數位平台與生態系。在台灣無論是在深山林裡、海濱小村、城市邊緣的各個角落中有許多善用科技,結合創意與行動力量,讓不分年齡、行業的每一份子,在數位轉型的進程上不脫隊。

長年在東海岸投入偏鄉工作的師大教授須文蔚,可說是弭平城鄉落差最有創意的實踐者。他主持的宜蘭花蓮數位機會中心(下稱 DOC)、「教育部邁向數位平權推動計畫」,替鄉村裡的學童、老人家、新住民、返鄉青年,找到了夢想和方向。

弭平城鄉落差 DOC數位機會中心創意無限

談到數位包容,須文蔚強調,科技固然是必要工具,但「偏鄉機會不在於昂貴的 ICT 投資,而在於創新應用的推廣,以及人際脈絡的連結」;花蓮的宜昌國小就是很好的例子。DOC 多年來推動「小攝影師的三個大夢」計畫,向各界募集二手相機給孩子課後使用、邀請公視導演開攝影課,並攜手瑪利亞社會福利基金會舉辦公益競賽;而宜昌國小的學童在學會了攝影技能後,把海邊淨灘撿到的垃圾全程影像紀錄並以攝影展呈現,提醒各界重視環保,得到那一年公益競賽第一名。

DOC 募集了超過 600 台二手相機,為孩子辦理課程與攝影展。圖右二為須文蔚老師。Photo Credit:須文蔚老師

須文蔚笑說,別小看孩子的決心,「他們現在到夜市會自己帶容器,還叫老闆不能用塑膠袋。」偏鄉的孩子們能夠自發推廣環保理念並化為行動,最初的起心動念竟是攝影課和公益競賽。

偏鄉有自己的智慧 只是需要輔助工具與科技

「智慧在偏鄉,地方從自己的獨特條件中,都找得到可能性;他們需要的是工具,我們就從旁協助。」須文蔚說,從創意發想、熱血實踐、再加上科技的臨門一腳,讓偏鄉的成員不再單打獨鬥,彼此有了連結,成為榮耀的共同體。DOC 替偏鄉導入的科技也與時俱進,像是使用 3D 列印建模,製作具地方特色及 Logo 的商品;近期也運用網路視訊電話,號召十多名志工,每天上線陪獨居老人聊天,「一開始大家很尷尬,但一年多下來,視訊成了日常,老人家也習慣科技結合人性的陪伴。」

儘管在偏鄉已有豐碩成果,但須文蔚坦言,數位包容仍有許多困境必須克服,例如科技的導入涉及跨部會的整合,遠距醫療、電子支付,都待進一步解套。「高齡的月琴阿嬤十多年前就來跟我們學電腦,一路在社區工作上陪伴我們成長。兩年前,她身體不適,請村長載她到市區看病,一個多小時的車程說說笑笑,沒想到抵達醫院不久就過世。」須文蔚說,偏鄉往返醫院的成本極高,遠距醫療若能普及,早期治療與預防,這樣的悲劇或許可以減少。

瑞穗 DOC 最認真的資深學員月琴阿媽能用滑鼠畫出美麗的蝴蝶。Photo Credit:須文蔚老師

面對疫情 餐飲小商家需要數位包容的保護傘

數位包容的範圍並不限於偏鄉,即使在城市中心,也可能面臨不平等與差距。過去兩個月,全台三級警戒,首當其衝的小型餐飲店家。相較大型業者,它們更缺乏資源來因應突如其來的疫情衝擊,例如原料採購成本提高,就使得小商家更顯弱勢。為弭平差距,透過共同採購、成本分攤、借重數位平台的雲端廚房,或許可成為選項之一。

中央廚房連線全台 19 個衛星廚房 Just Kitchen 提高美食製作及遞送效率

Just Kitchen 便是台灣首家雲端廚房業者,創始成員均來自台灣,憑藉代理國際餐飲品牌的經驗,將原本的中央廚房改裝,結合 AI、大數據、銷售分析,成立了雲端虛擬廚房,於去(2020)年 3 月開始推廣。Just Kitchen 行銷長 John 指出,所謂雲端廚房,就是純粹製作外送餐點,透過流程簡化及共同採購等各項優勢,打造更有競爭力的商業模式。

科技部門及大數據部門 餐飲商家進入市場 快速無痛且精準

除了經營自有代理品牌如 Fridays 的外送餐點,Just Kitchen 也與傳統業者如鬍鬚張、大三元攜手,替品牌設計適合外送的菜單,協助轉型擴大客源;未來更不排除與小型業者合作。營運長 Kent 指出,Just Kitchen 內部成立了科技部門及大數據部門,前者協助餐飲業者快速上線、有效執行營運 SOP 如庫存及管銷等;後者則分析人口特性、手機使用習慣、不同族群的喜好,以便更精準觸及客戶群。

以滷肉飯商家為例,在疫情衝擊下必須從原本的內用模式,快速無痛轉型至外送,即可借重雲端廚房。「我們替品牌業者全新設計外送菜單、採購食材、烹調製作、上架宣傳,再分潤給品牌夥伴。」Kent 指出,雲端廚房可協助既有品牌快速轉型、也能降低新品牌進入市場的門檻,還能將地方美食向外推廣到不同區域。

虛擬廚房界成長最快速的 Just Kitchen ,創始成員左至右分別是:策略長劉揚、營運長吳得暉、執行長陳星豪、行銷長游竣文、資訊長林效誠。Photo Credit:Just Kitchen

台灣美食揚名國際 寄望雲端廚房

日本的壽司、義大利的 Pizza、泰國的 Patai,都是不分國界朗朗上口的美食;台灣目前除了珍珠奶茶,尚未出現國際級的代表性美食。Just Kitchen 行銷長 John 指出,台灣的美食如此多元,卻不具備足以匹配的全球知名度,相當可惜;因此 正在計畫將牛肉麵、滷肉飯等推向國際。Just Kitchen 在台灣及香港的雲端廚房已經上線,未來還有美國、菲律賓、新加坡即將開站;有朝一日,台灣的一個小小店家,或許也能藉由像 Just Kitchen 這樣的平台,揚名全世界!

不遺漏任何人的數位包容島

不論是 DOC 運用科技推動資訊教育、地方創生、農村商機、文化紀錄,抑或是 Just Kitchen 雲端廚房為微小企業帶來的新希望,都與聯合國亞太經濟社會委員會(ESCAP)在今年三月提出的疫情報告《因應新冠疫情:不遺漏任何國家》,相互呼應聯合國數位政府永續目標 — Leave no one behind,檢視最脆弱的社會部門,並透過加強區域合作來改善。

以台灣的科技產業強項,再結合多年來政府與民間攜手在數位包容工作上的創意與經驗,相信並期待種種在台灣「Leave no one behind」的嘗試與成果,成為台灣貢獻國際社會的有力切入點,當在地的數位包容經驗走向國際,台灣也更能被世界看見。

行政院科技會報辦公室 廣告