赞
踩
本门课程为本科生数据投毒入门课程,笔记也多来自老师课件,不涉及太多高级知识。如对数据安全有兴趣,欢迎报考方班李默涵老师的研究生。
在大数据与人工智能技术井喷式爆发的当下,数据已成为国家战略资源。数据的重要性不言而喻,高质量数据更是价值不菲。不过,随着数据的价值不断为人们所认识的同时,针对数据的攻击也逐渐出现。
数据投毒就是其中一类很重要的针对数据的攻击。例如:
这些攻击的共性在于,都是通过产生并投放恶意数据,从而扰动数据分析模型来达到攻击目的。我们将这类攻击称为数据投毒(Data Poisoning)攻击
数据投毒攻击示意图
根据其是否具有良好的结构,可以分为三类
有了大数据和机器学习后,我们可以完成下面任务:
在每一个流程中均有可能受到威胁
攻击者通过在数据获取阶段有意识地投放不正确或有偏斜的数据来降低数据可用性
目的是影响分析模型、扰乱分析结果
数据的可用性是指数据驱动的应用和服务的可用性
高可用数据的特点:一致、完整、精确、及时、冗余少
异构数据融合、数据模式演进、数据格式转换会导致引入劣质数据
带着特殊目的的攻击会导致引入恶意数据
这里需要着重讲一下开放域数据投毒
假设数据的来源和语义都可以被一个已知的封闭集合所限制约束。例如
假设数据的来源或语义是开放的,无法用封闭集合进行约束。例如
攻击:同时考虑目标算法和防御机制的脆弱性、学习环境和对手,及时调整策略
防御:数据获取时防御、数据获取后防御
推荐系统、机器学习算法、众包应用、物联网等各种应用
完美知识、有限知识、零知识
有目标攻击、无目标攻击
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。