Output
下面是好好范文网小编收集整理的Output,仅供参考,欢迎大家阅读!
论文题目:Privacy of Big Data: A Review
文章链接:
这篇文章是2019年的一篇大数据隐私保护综述性文章,论文非常简单,
个人认为其创新点在于对隐私保护方法的新的分类,是比较新颖的。至于其中的涉及的方法,其实都是比较主流的方法了。
大数据隐私保护方法的分类体系(来源论文原图)
如上图,论文将隐私保护方法分为Input Privacy和Output Privacy,这种分类方法是从隐私保护的数据对象特点来分类的,援引原文的定义:
In input privacy, one is primarily concerned with publishing anonymized data.
In output privacy the result is perturbed or audited in order to preserve privacy.
通俗地理解,前者关注的是匿名发布数据过程中保护隐私,后者关注的是数据的分析/查询结果如何保护用户隐私。
此外,还有基于加密的隐私保护机制。
Input Privacy方法
这一部分的方法,主要是k-anonymity,l-diversity,t-closeness,以及差分隐私保护方法(Differential Privacy)。
Output Privacy
主要是关联规则隐藏方法、查询审计、分类准确率提升。
Association Rules Hiding方法中,主要目的是identifies the sensitive rules and increases or decreases the support and confidence of the rule thereby the support and confidence becomes less than the minimum threshold。
Query auditing is a privacy preservation mechanism to investigate and avoid private data disclosure from the database. 是针对数据库查询的隐私泄露问题
Classification Accuracy方法中,是在决策树分类方法中,对数据干扰过程中尽可能使新重构的数据与原始数据分布接近。
个人思考与总结
大数据的隐私保护方法,大体上可以分为基于加密的方法、基于干扰的方法和基于变形的方法。基于加密的方法应该是基础也最常用的方法,比如在针对身份信息进行隐私保护的场景下;基于干扰的方法,可以理解是在不改变原数据的情况下添加噪声,比如在轨迹隐私保护方法中的假轨迹法、假身份法,添加假的轨迹以迷惑攻击者;基于变形的方法,是对原始数据做改造,比如将年龄数据处理为范围数据等。
个人总结几乎所有的方法都是以上三种思路。而大数据的隐私保护在不同的场景下可能需要多种方法组合,以便于在数据的有效性、分析结果有效性、可用性、安全性等各方面进行权衡。