Secure and Utility-Aware Data Collection with CLDP

這是來自今天arXiv上面的一篇文章，標題為：Secure and Utility-Aware Data Collection with Condensed Local Differential Privacy。

摘要大致如下：當前LDP已經廣泛用於保護隱私的數據收集了，雖然當前基於LDP的方案在大數據樣本下能較高地保證數據有效性，但是在樣本量較小時LDP的表現就不太好了。而且當前缺乏對敘述序列和非敘述序列的擾動機制用於保護序列長度和內容。本文引入CLDP（Condensed Local Differential Privacy）用於小樣本數據手機問題，我們提出了一系列CLDP方案，這些方案都可以用於對樣本進行統計，並且數據有效性較高。我們的方案支持不同類型的客戶端數據，如有限空間的數據（惡意軟體感染的統計數據），序數以及非序數（OS版本，交易種類等）。數據集上的實驗表明與現有的LDP方法對比來看，CLDP能產生更高的效用。實際數據集的研究也表明方法的有效性。

本篇推送簡單掃一下這篇文章。談一談我理解的這篇文章的出發點。

在看CLDP概念之前，我們不妨看一下一篇CCS13年的文章，標題為：Geo-Indistinguishability: Differential Privacy for Location-Based Systems。這篇文章應該是將DP用到LBS中的鼻祖了。我們先來看一下理想中的LBS保護：需要同時提供數據有效性和隱私性。

以週一中午定外賣為例，假如我在紫荊15號樓。那我美團搜索的時候，會經歷這麼個流程：

美團獲取我的定位。
根據我的定位查詢1公里內的商家。
按照商家到我的距離排序告知我，讓我選擇。

當然，這個1公里是我瞎選的。好巧不巧，我老闆呢就能拿到美團的核心數據（當然，這是我杜撰的）。這時候我就擔心受怕了呀，這外賣要是一點，紫荊15號樓的定位一發，老闆就知道我沒去實驗室了。所以只能抱怨了，美團這對於用戶隱私也太不保護了。

美團：MMP, 你要我咋樣保護。

來來來，我們看看怎麼用DP來保護。

解決方案：運用多元回答下的Random Response，假定有N個地點，以較大的概率回答當前地點，以較小的概率回答其他地點，差不多就是這麼個方程：

$operatorname{Pr}left[M(v)=y ight]=left{egin{array}{ll}{p=frac{e^{varepsilon}}{e^{varepsilon}+|mathcal{U}|-1}} & { ext { if } y=v} \ {q=frac{1}{e^{varepsilon}+|mathcal{U}|-1}} & { ext { if } y eq v}end{array} ight.$

其中上面的概率表示真實回答的概率。那麼這個解決方案行不行呢？不行。為什麼呢？

因為假定不成立，這個世界並不是有N個地點。而是有無限個地點。當然，這個無限的問題是可以解決的，比如把地圖分為多少塊。
數據可用性保證不了啊，我在紫荊，你給我產生一個虛擬地點說我在塞納河畔。浪漫是浪漫，可我喫毛線呢。

但是，這之中有矛盾，想要保護位置，就一定要生成一個虛擬的位置報告給伺服器，產生虛擬位置就一定會有可能導致無法提供有效的服務（當然，可以認為所有的DP都有這個問題，因為單個數據是假的一定會導致數據有效性降低）。比如，查個天氣預報我在五道口你給我分到水立方我覺得問題都不打，定個外賣我在五道口你給我分到水立方的話外賣小哥要被氣死。

所以，我們轉換一下思路，地點之間是有一個潛在的相似性的，越靠近的地點，相似性就越高。所以，能否以較大的概率生成離我近的地方，以較小的概率生成較遠的地方呢？回到原來的例子，我在紫荊，你給我報告個三教，我也很美滋滋，畢竟根據這個機制，我在實驗室也很可能定位到三教去。

所以，引入了這個概念之後，用DP保護地理位置的機制可以濃縮成這個方程，這就是著名的Geo-indistinguishability:

$K(x)(Z) leq e^{epsilon cdot dleft(x, x^{prime} ight)} Kleft(x^{prime} ight)(Z)$