從北市校園販賣機議題,再評估資料的價值與風險

leafwind

研究所涉獵資訊檢索、資料探勘與機器學習|曾在 Appier 擔任軟體工程師,有五年以上資料科學產品開發經驗|熱衷於寫科普文章、分享心得。| Telegram 聯絡我
leafwind

對資料處理過程不熟悉,會低估了三件重要的事情:資料價值、資料風險與外洩機率

最近台北市校園販賣機的議題算是弄了不少風波,有位財經人士針對這件事情做了一些評論

先說明我自己的立場:台北市校園販賣機並沒有人臉識別等敏感的功能,根據翟本喬的查證,廠商也無法直接對應到個資,頂多就是消費記錄可以做一些分析,而這些隱私記錄對「個人」的影響並不大。

因此,若是針對校園販賣機一案,現階段我覺得這件事情並沒有嚴重到值得媒體花那麼多篇幅去討論。

但我有疑慮的是對於隱私資料的認知,並非如這位財經人士所說的那麼輕描淡寫,文中引用了許多大企業的規範或例子,但這些例子不但沒有辦法說服我,反而讓我有另外的擔憂:如果用這些觀念去面對其他隱私議題,恐怕會面臨到額外的潛在風險,以下是原因。


低估資料的價值與風險

去識別化不代表無法識別

以下是節錄一段原文,這位財經人士認為抹去個人資料(去識別化)之後,演算法並沒有那麼令人害怕。

大家對演算法可能有些害怕,例如我經常看到有些臉友說,自己剛剛看了哪些文章,立刻跳出來相關的廣告,非常可怕。不過到我自己從事了這個行業,才比較清楚的了解到,絕大多數以商業交易為目的的演算法,是抹去個人資料的,收集資料時會禁止可辨認到個人的收集行為。資料處理的大原則,是以無法追蹤到各別個人,而只能知道你的行為樣態為準。

理論上我們把 PII(personally identifying information, 個人識別資訊)都去識別化,應該就可以避免被識別,但實務上並非只有 PII 才有辦法識別一個人的模糊地帶,這是很頭痛的問題。

舉一個真實存在的例子:如果 Glassdoor 只做了去識別化,那麼這個服務是不可能上線的,因為當薪資數字精確的時候,根本不需要知道員工名字,公司方只要一查,就能知道是哪個員工提供的,一堆員工會被他害到丟工作。

Glassdoor 的解決方法是:在使用者提供薪資的時候,刻意將薪資範圍模糊化,並且在薪資筆數少的時候先隱藏起來,等到量夠多再顯示,這樣才可以某種程度地保護前幾個提供薪資資訊的員工。(但也只是某種程度,並非完全)

再想像一個很極端的情境,如果今天有一筆交易資料是某個富豪買了台灣僅有一輛的限量跑車,恰好那個富豪在臉書炫富,那麼即使交易內容將姓名、身分證、email 等「足以辨認出個人」的資料都去識別化,但內部員工只要用商品名稱去查(因為不是敏感資料)就知道這個 ID 是富豪,而且還可以知道所有的交易歷程,包含他愛吃什麼牌的食物,喜歡在什麼時間購買等等行為。


無法識別不代表安全,剖析常常才是真正的價值與風險所在

GDPR 明文規定反剖析權,但這是 GDPR 裡面很容易規避的條文之一,實務上極度難以舉證,但做出來的模型又可能非常強大。

舉例來說,中國將所有參加反送中街頭運動人民的行為收集起來,做成一個「反送中預測器」,用它來預測這個人會不會是「激進分子」,在他還沒上街頭之前就到家抓起來,或者是在他購買某些物品與使用特定交通路徑的時候,就提供政府警示,這是理論上做得到的,而且也不需要太精準,只要能殺一儆百就好。

這些行為記錄可能都去識別化了、也無法辨識出誰做了什麼事情,但是仍然對這個群體,甚至當事人未來再行動的時候造成威脅。

因此,我不認為「無法識別」就等於「安全」,它只是變模糊、從針對一個人變成針對一個群體而已。


低估資料被竊取的機率

資料是虛擬可複製的,與鈔票不同

馬雲曾經說:「資料是越使用越值錢」,這句話我想改成「行為記錄越用越多,根本不會被消耗掉」。

鈔票、黃金、珠寶是實體的,他們的價值在於存在的數量,只要最終我看到保險箱東西沒少,那就沒問題;但資料是可以輕易被複製的,即使最終存放的保險箱(資料庫)東西不變,也有可能在傳送過程被偷偷擷取、複製給第三方。

因此,資料被竊取的難度遠比實體財產還要低,常常是神不知鬼不覺。

例如台灣的Line數據得要打開中華電信的機房才能看,而你想打開中華電信的資料庫,那真的很難,我保證總統去他們會先報警。

這指的是外人要去打開的情況,但因為資料源頭仍然是 Line 的員工放進去的,只要在放進去之前偷偷複製一份,就不需要經過中華電信的機房。當然,這個法律責任與風險也很高,這裡我單純就技術層面來看,難度會低很多。

例如說,大型電商公司裡面的數據委員會是十分嚴格的,誰有權力打開哪些層級的數據,哪些基礎數據是可以丟到資料公有池給大家共用,誰有權限進入公有池,都有一套嚴謹的分級帳號管理辦法,就像我們動用多少預算要多高層的長官簽字才能算數一樣,我的層級到哪、業務管轄權限到哪,才可以開到哪些層級的資料,並不是誰都可以打開資料庫隨便亂看。以前我們一天到晚纏著數據團隊,希望他們開帳號給我們看商家銷售榜,作為宣傳重點,但數據團隊就否決了我們的帳號權限。

撰文者之所以會認為資料很難竊取,是因為他身為資料使用端,唯一的途徑就是去申請保險箱的權限,甚至也不知道哪裡有非法途徑;但身為工程師,我很清楚地知道,風險大部分都不是在使用端,而是更前面的工程端,其中的權限分級會更模糊、更難處理。

我或許可以保證保險箱裡面的資料從來沒被人碰過,但在放進去之前有多少人碰過呢?這個就很難說了。


制度只是用來防君子

大型電商的數據制度當然是比較嚴格且完善的,但臉書這麼大的公司都被證實洩漏用戶個資,也爆過用明碼存用戶密碼。

我並非指臉書的制度不嚴格,而是任何規則一定都有漏洞,你可以說公司內部的君子拿不到資料,但你不能用同樣邏輯說小人拿不到。

用「理論上」、「大致上」的情形去衡量是不對的,因為事情往往都發生在那些「意外」之上;而且層級明確也不等於安全,如果我說「你的保險箱很安全,只有銀行總裁可以開」,這種銀行肯定沒人會去光顧(雖然技術上來說也沒有差很多)。


成本並非是大問題

這位財經人士認為,電商沒有這樣的資本負擔儲存成本:

除了數據交換規範之外,成本是另一個理由。要辨認到個人,並且儲存起來你的行為歷史,是非常花錢的事情,一般企業行號的雲端儲存是非常貴的,如果還要把每個交易的個人建檔,不但有違法被抓的風險,而且非常花錢,其實從商業利益上來說並不值得。一家電商一年能從你口袋裡挖出來的錢已經有限了,看一下台灣電商的毛利率就知道,他還要做個人建檔管理,真的沒有那樣的資本,更何況是飲料販賣機這麼小的廠商。

但我不認為如此。

電商雖然毛利低,但成本主要都不在資訊系統

毛利率低,不代表資本額低,台灣幾間大電商的資本額都比多數的新創公司還要高非常多,只要從其中提出很小的比例去做就夠了。

這也意味者,若能反過來有效地降低物流、倉儲、人力等成本,資訊部門就會有很充足的資訊設備與資源去做。就我的觀察,現在台灣電商也都非常積極在投入這一塊的發展。

有很多工程方法可以降低成本到合理範圍

或許你還是覺得成本高到難以負荷,但其實不然。資料的存放方式有很多種,並非只有「存下每一筆完整資料」這種方法能用,最簡單的兩個例子就是取樣與剖析。

最暴力又簡單的就是取樣:如果每一百筆我只偷一筆最重要的(比如,最貴的紀錄),就只需要 1% 的成本;又或者,一百個欄位之中只挑五個重要的欄位就好,但這樣難道不是竊取個資嗎?

更甚者,我只要把這些資料訓練完保留一個月就刪掉,只留下模型,一樣可以獲取利益,成本也低,而且幾乎不可能被查出來。


校園販賣機沒那麼危險,但不夠謹慎的資料隱私保護觀念,會在未來引入更多危險

再次重申,這篇文章並非要替北市校園販賣機背書或反駁,但其中引發的論戰,讓我認為多數人可能對於資料在實務上運作的概念並不夠熟悉,這些不夠謹慎的觀念,或許會在以後類似的議題上引發更多潛在的風險,是比起校園販賣機更值得注意的地方。

相關文章:  關於專題《科技與反烏托邦》

您可能也會喜歡…

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

這個網站採用 Akismet 服務減少垃圾留言。進一步瞭解 Akismet 如何處理網站訪客的留言資料