必威电竞|足球世界杯竞猜平台

差分隱私
來源:互聯(lián)網(wǎng)

差分隱私(英語:differential privacy)是密碼學(xué)中的一種手段,旨在提供一種當(dāng)從統(tǒng)計數(shù)據(jù)庫查詢時,最大化數(shù)據(jù)查詢的準(zhǔn)確性,同時最大限度減少識別其記錄的機會。

正式的定義和應(yīng)用示例

假設(shè)是一個正實數(shù),A是一個隨機算法,它將數(shù)據(jù)集作為輸入(表示信任方擁有的數(shù)據(jù))。imA表示A的映射。對于在非單個元素(即,一個人的數(shù)據(jù))的所有數(shù)據(jù)集D1和D2以及imA的所有子集S,算法A是 -差分隱私,其中概率取決于算法的隨機性。

例如, 假設(shè)我們有一個醫(yī)療記錄數(shù)據(jù)庫 D1 在那里每條記錄是一對 (名字, x), 其中 X 是一個布爾值表示一個人是否瘓有糖尿病。例如:

現(xiàn)在假設(shè)一個惡意用戶 (通常被稱為攻擊者) 想知道Chandler是否有糖尿病。假設(shè)他知道Chandler在數(shù)據(jù)庫的哪一行。現(xiàn)在攻擊者只能使用特定形式的查詢Qi返回數(shù)據(jù)庫中前i行中第一列 X 的部分總和。攻擊者為了獲取Chandler是否有糖尿病的信息。只需要執(zhí)行兩個查詢 Q5(D1)和Q4(D1),分別計算前五行和前四行的總和,然后計算兩個查詢的差別。在本例中,差是1。攻擊者在知道Chandler在第5行的情況下,就會知道他的糖尿病狀況是1(有糖尿病)。這個例子顯示了即使在沒有明確查詢特定個人信息的情況下, 個人信息如何被泄露。

繼續(xù)這個例子,如果我們用(Chandler,0)代替(Chandler,1)構(gòu)造D2,那么這個惡意攻擊者將能夠通過計算每個數(shù)據(jù)集的來區(qū)分D2和D1。如果攻擊者被要求通過 -差分隱私算法接收Qi值,對于足夠小的,則他將不能區(qū)分這兩個數(shù)據(jù)集。

靈敏度

d為正整數(shù),D為一個數(shù)據(jù)集的集合,為函數(shù)。代表的函數(shù)的靈敏度由下式定義:

其中最大值是D中的所有對數(shù)據(jù)集對應(yīng)的D1和D2中最差別最大的一對,表示曼哈頓距離。

在上面醫(yī)學(xué)數(shù)據(jù)庫的例子中,如果我們認(rèn)為f是函數(shù)Qi,那么函數(shù)的靈敏度就是1,因為改變數(shù)據(jù)庫中的任何一個條目都會導(dǎo)致函數(shù)的輸出改變0或 1。

有一些技術(shù)(如下所述),我們可以使用這些技術(shù)建立低靈敏度差分隱私算法。

準(zhǔn)確性與隱私的均衡

通過差分隱私加擾的結(jié)果,要在統(tǒng)計數(shù)據(jù)的準(zhǔn)確性和隱私參數(shù)之間有權(quán)衡。這種均衡也必須考慮到ε參數(shù)乘以查詢數(shù)量(包括預(yù)計的查詢數(shù)量)。

差分隱私的其他概念

對很多應(yīng)用而言, 差分隱私被認(rèn)為過于嚴(yán)格, 因此建議了許多被弱化的版本。這些包括-差分隱私, 隨機差分隱私, 以及特定標(biāo)度的隱私。

差分隱私機制

由于差分隱私是一個概率概念,任何差分隱私機制必然是隨機的。下面描述的拉普拉斯機制就依賴于我們對結(jié)果添加的受控噪聲。其他的像指數(shù)機制和后驗抽樣依賴于問題的分布族。

拉普拉斯機制

許多差分隱私方法以添加受控噪音實現(xiàn)降低查詢結(jié)果的靈敏度。拉普拉斯機制增加了拉普拉斯噪聲(即符合拉普拉斯分布的噪聲,其可以用概率密度函數(shù) 表示,其均值為0和標(biāo)準(zhǔn)偏差是)。現(xiàn)在在我們的例子中,我們將的輸出函數(shù)定義為實值函數(shù)(稱為 的輸出副本)為,其中 和f是我們計劃在數(shù)據(jù)庫上執(zhí)行的原始實值查詢/函數(shù)。現(xiàn)在很明顯,可以被認(rèn)為是一個連續(xù)的隨機變量,其中,最多為 .我們可以認(rèn)為是隱私因子 .

因此,遵循不同的隱私機制(從上面的定義可以看出)。如果我們試圖在我們的糖尿病例子中使用這個概念,那么從上面推導(dǎo)出的事實可以看出,為了讓 作為 -差分隱私算法,我們需要。雖然我們在這里使用了拉普拉斯噪聲,但也可以使用其他形式的噪聲,例如高斯噪聲,但這樣可能需要略微放寬差分隱私的定義。

設(shè)想一個受信任的機構(gòu)持有涉及眾多人的敏感個人信息(例如醫(yī)療記錄、觀看記錄或電子郵件統(tǒng)計)的數(shù)據(jù)集,但想提供一個全局性的統(tǒng)計數(shù)據(jù)。這樣的系統(tǒng)被稱為統(tǒng)計數(shù)據(jù)庫。但是,提供有關(guān)數(shù)據(jù)的綜合性統(tǒng)計也可能揭示一些涉及個人的信息。事實上,當(dāng)研究人員鏈接兩個或多個分別無害化處理的數(shù)據(jù)庫來識別個人信息時,各種公共記錄匿名化的特殊方法都失效了。而差分隱私就是為防護(hù)這類統(tǒng)計數(shù)據(jù)庫脫匿名技術(shù)而形成的一個隱私框架。

Netflix獎

舉例來說,2006年10月,Netflix提出一筆100萬美元的獎金,作為將其推薦系統(tǒng)改進(jìn)達(dá)10%的獎勵。Netflix還發(fā)布了一個訓(xùn)練數(shù)據(jù)集供競選開發(fā)者訓(xùn)練其系統(tǒng)。在發(fā)布此數(shù)據(jù)集時,Netflix提供了免責(zé)聲明:為保護(hù)客戶的隱私,可識別單個客戶的所有個人信息已被刪除,并且所有客戶ID已用隨機分配的ID [sic]替代。

Netflix不是網(wǎng)絡(luò)上唯一的電影評級門戶網(wǎng)站,其他網(wǎng)站還有很多,包括IMDb。個人可以在互聯(lián)網(wǎng)電影資料庫上注冊和評價電影,并且可以選擇匿名化自己的詳情。德克薩斯州大學(xué)奧斯汀分校的研究員Arvind Narayanan和Vitaly Shmatikov將Netflix匿名化的訓(xùn)練數(shù)據(jù)庫與IMDb數(shù)據(jù)庫(根據(jù)用戶評價日期)相連,能夠部分反匿名化Netflix的訓(xùn)練數(shù)據(jù)庫,危及到部分用戶的身份信息。

醫(yī)療數(shù)據(jù)庫事件

卡耐基·梅隆大學(xué)的Latanya Sweeney的將匿名化的GIC數(shù)據(jù)庫(包含每位患者的出生日期、性別和郵政編碼)與選民登記記錄相連后,可以找出馬薩諸塞州州長的病歷。

元數(shù)據(jù)與流動數(shù)據(jù)庫

MIT的De Montjoye等人引入了單一性(意為獨特性)概念,顯示出4個時空點、近似地點和時間就足以唯一性識別一個150萬人流動數(shù)據(jù)庫中的95%用戶。該研究進(jìn)一步表明,即使數(shù)據(jù)集的分辨率較低,這些約束仍然存在,即粗糙或模糊的流動數(shù)據(jù)集和元數(shù)據(jù)也只提供很少的匿名性。

現(xiàn)實世界中對差分隱私的采用

至今為止,比較知名的采用差分隱私的應(yīng)用如下:

??美國人口調(diào)查局,展示通勤模式。

?谷歌的RAPPOR,用于遙測,例如了解統(tǒng)計劫持用戶設(shè)置的惡意軟件。

??Google,分享歷史流量統(tǒng)計信息。

??2016年6月13日,蘋果公司宣布其在iOS10中使用差異隱私,以改進(jìn)其虛擬助理和建議技術(shù),

??在數(shù)據(jù)挖掘模型中使用差異隱私的實際表現(xiàn)已有一些初步研究。

參考資料 >

生活家百科家居網(wǎng)