Discuz! Board

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 discuz
查看: 357|回復: 0

交部分切片时这种改进

[複製鏈接]

1

主題

1

帖子

7

積分

新手上路

Rank: 1

積分
7
發表於 2024-5-6 16:55:58 | 顯示全部樓層 |閱讀模式
差分隐私是隐私的严格数学定义。算法是随机的通过确保添加或删除数据点时任何特定输出的概率几乎不变来保护用户数据。因此算法的输出不会透露任何一个数据点的存在。通过和等贡献差分隐私的基础研究和采用都取得了重大进展。机器学习和数据分析算法通常可以被描述为在同一数据集上执行多个基本计算步骤。当每个这样的步骤都是差分隐私时输出也是差分隐私的但如果有多个步骤整体隐私保证就会恶化这种现象称为组合成本。组合定理将隐私损失的增加与计算次数联系起来在一般情况下隐私损失随着的平方根而增加。这意味着我们需要为每一步提供更严格的隐私保证以实现我们总体的隐私保证目标。但在这种情况下我们就失去了效用。改善隐私与实用性权衡的一种方法是确定用例何时允许比组合定理得出的更严格的隐私分析。当每个步骤应用于数据集的不相的良好候选者。

当以数据无关的方式选择切片时每个点仅影响个输出之一并且隐私保证不会随着的变化而恶化。然而在某些应用程序中我们需要自适应地选择切片即以取决于先前步  沙特阿拉伯手机号码列表 骤的输出的方式。在这些情况下单个数据点的更改可能会级联更改多个切片从而增加合成成本。在上提出的阈值的最佳差分隐私学习和拟凹优化中我们描述了一种新的范例允许自适应地选择切片同时避免组合成本。我们表明用于多个基本聚合和学习任务的算法可以在这种重新排序切片计算范式中表达从而在实用性方面获得显着改进。重新排序切片计算范例如果算法可以用以下通用形式表示请参见下面的可视化则它属于范式。输入是一组敏感的数据点。然后该算法执行一系列个步骤如下所示选择数据点的排序切片大小和算法。该选择可能取决于先前步骤中的输出因此是自适应的。根据数据集中的顺序切出大约前个数据点将应用于切片并输出结果。





三个重新排序切片计算步骤的可视化。如果我们使用合成定理来分析算法的整体隐私损失则隐私保证会受到预期的合成成本的影响即它随着步骤数的平方根而恶化。为了消除这种组合成本我们提供了一种新颖的分析完全消除了对的依赖整体隐私保证接近于单个步骤我们更严格分析背后的想法是一种新颖的技术该技术可以限制修改单个数据点时受影响步骤的潜在级联详细信息请参阅论文。更严格的隐私分析意味着更好的实用性。算法的有效性通常用足以发布满足隐私要求的正确结果的最小输入大小数据点数量来表示。我们描述了可以用范式表达的算法的几个问题并且我们更严格的分析提高了实用性。私人区间点我们从以下基本聚合任务开始。输入是来自有序域的个点的数据集将域视为和||之间的自然数。目标是返回中位于区间内的点即中的最小值和最大值之间的点。如果没有隐私要求间隔点问题的解决方案很简单只需返回数据集中的任何点即可。但该解决方案不保护隐私因为它公开了输入中特定数据点的存在。


回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|小黑屋|DiscuzX

GMT+8, 2024-11-15 14:49 , Processed in 0.083067 second(s), 19 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回復 返回頂部 返回列表