赞
踩
攻击者可能修改模型的预训练任务目标,使之偏离原始意图。例如,将原本设计为语言建模的任务修改为一个不同的任务,如预测下一个单词的词性或情感极性。
攻击者可能通过改变任务目标的定义或优化目标的方式来扭曲模型的学习方向。例如,在语言模型预训练中,攻击者可以故意设计一个与实际应用场景不相关的任务,从而导致模型学到不相关的信息。
攻击者可能向训练数据中注入噪声或错误信息,以影响模型的学习过程。这些错误信息可能会导致模型学习到不准确的知识或产生错误的推断结果。
(略)
1.1 攻击方式:攻击者可能会注入恶意数据或干扰数据来影响渐进式训练过程。这可能包括添加错误标签、引入噪声、修改数据分布等
1.2 潜在影响:恶意数据的注入可能导致模型学习到错误的特征或偏见,从而影响模型的泛化能力和性能。
2.1 攻击方法:攻击者可能尝试修改损失函数,或者引入误导性损失组件,以影响模型的优化过程和学习方向。2
2.2 潜在影响:损失函数的修改可能导致模型学习偏离原始目标,或者产生不稳定的训练过程,最终影响模型的性能和收敛速度。
3.1 攻击方法:攻击者可能在模型参数更新过程中进行干扰,例如修改优化器的参数、篡改梯度信息等。
3.2 潜在影响:模型更新的干扰可能导致模型参数收敛到局部最优解或者错误的解决方案,降低模型的性能或使其易受攻击。
4.1 攻击方法:攻击者可能试图修改训练过程中的目标任务,例如在训练的不同阶段切换任务,引入不一致的目标标准。
4.2 潜在影响:目标任务的改变可能导致模型学习到混乱的特征或行为,降低模型的性能或可靠性。
攻击者首先要了解模型在各种输入下的行为模式。这通常通过系统地变化输入并观察输出变化来完成。攻击者可能会使用特定的数据集,这些数据集旨在探测模型对不同类型的输入数据的相应。
通过分析模型对不同输入的响应,攻击者可以开始识别对模型输出影响最大的输入特征。这一步骤往往依赖于特征重要性分析工具,如SHAP或LIME3。
在了解了模型对特定特征的敏感性之后,攻击者可能会尝试逆向工程模型的决策过程或者直接提取模型。这通常设计构建一个新的模型,该模型在行为上模仿原始模型,但可能具有更高的可解释性。
最后,攻击者可能会利用对模型行为的理解来设计针对模型的攻击,例如制造特定的输入来误导模型做出错误的决策。4
由于模型扩展可能涉及到新增的接口和组件,攻击者可以寻找这些新增接口的安全漏洞进行攻击。例如,攻击者可能会尝试通过这些接口注入恶意代码或数据,导致模型行为异常或数据泄露。
在模型扩展以支持新功能的过程中,如果对新功能的安全性考虑不足,攻击者可能会找到办法滥用这些功能,例如利用模型的自动化处理能力执行未授权的任务或操作5。
攻击者可能会通过模型依赖的第三方库或服务进行攻击。如果这些依赖存在安全漏洞,或者在供应链中被恶意篡改,它们可以成为攻击大模型的途径。
在模型扩展过程中,为了适应新的数据和任务,通常需要重新训练或调整模型。攻击者可以利用这一过程中的数据收集和训练阶段,通过数据中毒或生成对抗性样本来影响模型的学习,使模型学习到错误的信息。
由于扩展的模型可能需要更多的计算资源,攻击者可能设计特定的输入,使模型消耗过量的资源。6
总的来说就是,先拿到用于热启动的模型参数,然后恶意修改,然后再放回去。这样训练就容易出问题。所以可以设计一个热启动的参数访问控制机制。 ↩︎
可以在训练程序运行过程中,使用脚本进行干预,例如tensorflow或者pytorch都有回调函数的概念,可以在epoch间隔中执行特定操作。所以只要获得了写脚本的权限,可以很容易攻击进去,增删改查训练期间的参数。 ↩︎
SHAP是基于博弈论shapley值的一个特征重要性值预测工具。shapley主要说的就是计算每个特征的加入会让收益增加多少,然后n个特征就有n!种可能性,先来后到的计算收益,这个收益就是重要性,受益值越高,重要性越高;LIME简单来说就是用一个小模型局部近似大模型在小范围的表现,然后搞清楚了小模型在局部哪些特征重要、哪些不重要,就相当于搞清楚了大模型在局部的特征重要性。近似解。 ↩︎
其实就是通过前三步先了解模型输出的“尿性”,然后根据模型输出的“尿性”来攻击。 ↩︎
通过模型接口进行越狱。 ↩︎
相当于DDos攻击 ↩︎
有点类似数据中毒攻击 ↩︎
可以尝试在python的import的包里加恶意代码。 ↩︎
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。