l-diversity比k-anonymity好在哪？

12-27

匿名隱私保護演算法

http://www.cs.cornell.edu/~vmuthu/research/ldiversity-TKDD.pdf
讀完就懂了。

下面講一個計算機科學家和接盤俠鬥智斗勇的故事。
某醫院有如下數據

姓名生日性別是否有性病是否智障張三 85.10.05 男有否小紅 00.01.02 女是是

為了方便醫學研究，該醫院要公布一個醫療數據。
為了保護隱私，公布的數據長這樣：

姓名生日性別是否有性病是否智障 *** 85.* 男有否 *** 00.* 女是是

生日和性別帶有一定程度的個人信息，但又不是真實姓名，所以叫做quasi-identifier，
後邊的兩條叫sensitive data。

接盤俠拿到這個數據，請問如何推斷其未婚妻小紅是否有性病？

k-anonymity指的是除非有k-1個人的數據同時被公布，才可能推斷出第k個人是誰。
比如說整個數據里，至少有k個女人是同一天生日，那麼無法推斷小紅是哪一條目，
除非你知道另外k-1條對應的對象。

加密演算法很簡單，保證相同的quasi-identifier下，至少包含k個不同條目即可。
所以把原始數據中quasi-identifier逐步隱去，直到達到這一要求：
先隱去出生日期，看看是否滿足k-anonymity條件。
不行再隱去出生月份，不行再隱去年份、性別等。

兩種情況下k-anonimity不管用：
1. 比如說上面的data里，所有00年出生的女人都有性病。
那接盤俠馬上意識到，不用管哪條對應小紅，反正一定有病。
2. 如果存在背景信息。比如00年出生的女人有5條，其中4個是智障，
小紅不是智障，那一定對應那條不是智障的。

兩種情況都源自數據缺少diversity，而l-diversity就是為了解決這個問題。
不是要求相同的quasi-identifier下至少有k個條目，
而是要求至少有l「類」條目。
什麼叫「類」有不同定義，但總的意思是，要增加樣本的多樣性。
比如同年出生的女性，必須既有患病的也有沒患病的，而且相同的條目應該有多個。

我是初學者哈，提個問題：為什麼不能把性病或者智障也一起作為QID呢