l-diversity比k-anonymity好在哪?
匿名隱私保護演算法
http://www.cs.cornell.edu/~vmuthu/research/ldiversity-TKDD.pdf
讀完就懂了。
某醫院有如下數據
姓名 生日 性別 是否有性病 是否智障
張三 85.10.05 男 有 否
小紅 00.01.02 女 是 是
為了方便醫學研究,該醫院要公布一個醫療數據。
為了保護隱私,公布的數據長這樣:
姓名 生日 性別 是否有性病 是否智障
*** 85.* 男 有 否
*** 00.* 女 是 是
生日和性別帶有一定程度的個人信息,但又不是真實姓名,所以叫做quasi-identifier,
後邊的兩條叫sensitive data。
接盤俠拿到這個數據,請問如何推斷其未婚妻小紅是否有性病?
k-anonymity指的是除非有k-1個人的數據同時被公布,才可能推斷出第k個人是誰。
比如說整個數據里,至少有k個女人是同一天生日,那麼無法推斷小紅是哪一條目,
除非你知道另外k-1條對應的對象。
加密演算法很簡單,保證相同的quasi-identifier下,至少包含k個不同條目即可。
所以把原始數據中quasi-identifier逐步隱去,直到達到這一要求:
先隱去出生日期,看看是否滿足k-anonymity條件。
不行再隱去出生月份,不行再隱去年份、性別等。
兩種情況下k-anonimity不管用:
1. 比如說上面的data里,所有00年出生的女人都有性病。
那接盤俠馬上意識到,不用管哪條對應小紅,反正一定有病。
2. 如果存在背景信息。比如00年出生的女人有5條,其中4個是智障,
小紅不是智障,那一定對應那條不是智障的。
兩種情況都源自數據缺少diversity,而l-diversity就是為了解決這個問題。
不是要求相同的quasi-identifier下至少有k個條目,
而是要求至少有l「類」條目。
什麼叫「類」有不同定義,但總的意思是,要增加樣本的多樣性。
比如同年出生的女性,必須既有患病的也有沒患病的,而且相同的條目應該有多個。
我是初學者哈,提個問題:為什麼不能把性病或者智障也一起作為QID呢
推薦閱讀:
※如何評價boss直聘在『李文星事件』中爆料記者真實姓名?
※手機驗證碼接收平台的原理和合法性?
※如何在知乎上取消別人對我的關注?
※「中大校方告知「秋白」父母其性取向」這一行為道德或邏輯上的支持是否充分?
※政府真心要整治私人電話號碼泄漏的話,推行「私人聯繫方式合法來源申報制度」能否解決問題?