赞
踩
https://arxiv.org/pdf/2401.05459.pdf 只记录综述第6章隐私与安全的内容
确保Personal LLM Agents中用户数据隐私和服务安全的保护成为一个至关重要的问题。
Personal LLM Agent具有在没有用户意识的地方自发发起查询的潜力,这些地方可能包含关于用户的敏感信息。同时,代理也可能将用户信息暴露给其他代理或服务。因此,对用户隐私的保护变得更加关键。
增强机密性的方法有很多种,包括本地数据处理、同态加密、数据掩码、访问权限控制等。
在本地处理所有数据被认为是一种比将数据发送到云端更安全的与LLM交互的方法。然而,由于个人设备上的资源限制,在本地部署LLMs对高效处理用户请求提出了挑战。这会导致推理速度慢,甚至由于可用内存的限制而无法进行推理。
由于Personal LLM Agents中的数据主要由LLM处理,因此实现本地计算的关键是在用户自己的设备上运行LLM。现有的各种轻量级模型[ 308、250 ]和部署框架[ 309、274]可用于在边缘设备上部署模型。此外,还提出了各种模型压缩技术[ 310、220、216],以减小模型规模,进一步实现本地部署。
但使用局部部署的模型不可避免地面临着模型精度有限的挑战[ 42 ]。专家建议采用云边协同部署的方式,以实现更好的性能折中。同时,Personal LLM Agent还需要与云端进行通信,以提供在线服务。私有数据完全保存在本地设备上通常困难,甚至是不可能的。
为了在保护隐私的同时调用基于云的模型推理服务,一个理想的解决方案是同态加密( HE ) [ 311、312 ]。已经有一些研究[ 313 ]证明了将HE应用于深度神经网络的可行性,显示了将HE集成到模型中的潜力。
当HE应用于Personal LLM Agents时,有两个挑战:
LLMs中并非所有操作都可以使用HE执行的限制。在LLMs中的某些操作,如max,min和softmax,不能准确地使用HE执行
LLMs的计算复杂度较大,HE推理速度较慢。
针对这两个问题,有几种解决方案。
尽管在加速基于HE的DNN推理方面做出了许多努力,但同态加密的现状仍然远远不能满足代理的延迟需求[ 316 ]。另一种方法是使用可信执行环境( TEE ) [ 317 ]进行模型推理。然而,TEE可能会受到各种攻击[ 318 ],也可能导致有限的性能。
在发送到云端之前使用数据掩码对信息进行预处理。其基本思想是将原始输入转化为非隐私敏感的形式,同时保留对推断结果有至关重要影响的信息。
数据掩盖的一个直接方法是通过隐藏或替换敏感内容(如账号、地址、个人名等)来转换明文输入。这些类型的信息通常被称为个人可识别信息( PII )。另一方面,研究人员提出了基于嵌入的数据匿名化方法,其中客户端将原始用户请求编码为隐藏向量,并将这些向量发送到基于云的模型中进行后续推理。
面临的挑战是如何保证隐私、保证推断精度不会下降、保证推断速度不会下降太多。解决方法有以下几种:
虽然该方法在推理性能方面优于同态加密,但不能严格地保护数据隐私,因为编码向量本身仍然携带着泄露敏感信息的风险。此外,这类方法需要明确的隐私特征定义,以便编码器学习如何在对抗表示学习过程中移除隐私信息。
上述技术主要涉及模型输入数据的隐私性,同时模型输出也可能存在隐私泄露的风险。当商家旨在向用户推荐产品时,他们可能依赖于从某些个人代理商的输出中检索到的用户偏好信息。
这种从LLMs的输出中获取隐私信息的方法类似于传统操作系统中的个人数据访问接口,其中至关重要的是通过权限管理系统来确保隐私数据访问的可控性和透明性[ 324 ]。透明性要求告知用户关于隐私数据的访问信息,包括访问实体( who )、内容( what )、时间( when )、意图( why )、访问权限(how)。·
在处理数据机密性时,不应将LLMs视为可信计算基础( TCB )的一部分。可能需要基于规则的权限控制来约束LLMs可以做什么以及LLMs可以访问什么。权限机制允许用户配置是否允许不同的实体访问不同类型的信息。在传统系统中,研究人员提出了许多细粒度隐私内容细分和权限控制的方法,以及基于信息流传播的隐私数据溯源技术[ 325 ]。然而,为LLM代理产生的输出建立隐私数据可追踪性仍然是一个公开的问题。
确保用户数据的机密性对于Personal LLM Agents建立用户信任至关重要。然而,现有的隐私保护技术仍然不足以支持具有更高智能水平的代理。存在以下开放性问题:
1 .现有方法面临着平衡效率和有效性的共同挑战。例如,如何实现强大和高效的本地LLM,如何将同态加密( HE )或可信执行环境( TEE )扩展到大型模型,以及如何通过数据掩码/混淆技术实现严格的机密性?
2 .作为一种新的软件范式,Personal LLM Agents的系统隐私保护机制是什么,目前尚不清楚。我们是否还需要符号化的规则或权限来进行访问控制?它们如何能与LLMs的不可解释性无缝融合?
完整性是指Personal LLM Agents在面对各种类型的攻击时,仍能保证其正确输出预定内容的能力。传统的攻击方式,如修改模型参数、窃取和篡改本地数据等,都可以通过加密、权限、硬件隔离等措施进行防御。然而,在防御传统攻击方法的同时,还应注意LLM代理可能遇到的新类型攻击:对抗性攻击、后门攻击和提示注入攻击。
一类重要的攻击,称为"对抗性攻击",通过定制或篡改模型的输入数据导致模型推断错误,最初在图像分类模型中被发现[ 326 ]。这类攻击通过给图像添加不可觉察的噪声,会导致严重的分类错误。随后,研究人员将这种攻击方法扩展到文本数据、图数据等[ 327 ]。
这种攻击也持续存在于大型语言模型中[ 328 ],这些模型也可以接受来自第三方的图像[ 329 ],文本[ 330 ]和其他模态的数据[ 331 ]的输入。例如,在协助用户完成自动化任务时,攻击者可能会误导代理删除日历事件和泄露私密会话数据[ 332 ],因为LLMs往往需要输入应用程序内部信息的内容来生成下一步的交互决策。在这种情况下,如果第三方应用程序向LLM提供恶意定制的内容,它可能会驱动智能代理进行不安全的交互。
传统的针对深度学习模型中此类攻击的防御方法通常包括对抗防御、异常输入检测、输入预处理、输出安全验证等。此外,一些防御方法可能需要在LLM的背景下进行调整。例如,训练LLM可能会产生大量的成本,使得通过对抗训练来增强安全性变得不切实际。因此,探索如何通过参数高效的微调来达到良好的对抗防御效果是一个值得研究的问题。
传统的模型后门攻击往往是通过数据投毒来实现的[ 333 ],即在模型的训练数据中插入恶意修改的样本,使模型学习到刻意隐藏的决策逻辑。
对于LLMs而言,由于训练数据量巨大且需要严格的统一管理,数据投毒可能更具挑战性,但另一类后门攻击方法[ 334 ]仍然有效,通过在测试期间修改模型输入,将不安全的逻辑植入模型。
在LLM时代,出现了一种新的、特别重要的安全风险,即时注入[ 340、341、342、343]。在这种攻击形式下,模型本身通过对齐和提示的方式纳入了一定的安全保障措施。尽管如此,第三方模型用户可以通过在提示语中使用微妙或特殊的措辞来绕过这些预设的安全保障措施。例如,智能个人助理可以预先设定不执行某些敏感操作,例如修改用户的账号密码[ 344 ],但通过提示注入,它可能会诱导模型违反法规并执行这些敏感操作。
对于这种基于提示的攻击方法,目前还没有完善的防御机制。
对来自第三方应用程序(总结、翻译、重述)或提示封装的输入内容进行后处理,可以帮助模型清晰地区分它们与系统固有的提示。
确保决策过程的完整性对于Personal LLM Agents至关重要。对完整性的威胁是非常多样且不断发展的,而防御技术的发展则相对滞后。在这里,我们强调了两个重要的公开问题,适用于所有类型的攻击。
1 .代理如何知道自己的输入或决策过程是否被第三方篡改?这就要求智能体对什么是正常的输入和行为有感觉,并具有识别异常的能力。
2 .由于直接避免攻击可能具有挑战性,因此考虑用户验证机制,即在代理不确定的情况下,要求用户进行验证更具有实际意义。如何设计一个安全且用户友好的验证机制是一个具有挑战性的问题。
在Personal LLM Agents中,大量的关键动作由LLM决定,包括修改和删除用户信息、购买服务、发送消息等敏感操作。因此,保证代理决策过程的可靠性至关重要。
幻觉
LLMs可能会产生错误的答案,从而导致严重的后果。研究人员发现了LLM生成连贯流畅但最终错误的文本的情况。这种现象在自然语言处理任务中被称为幻觉,也对个人智能体提出了挑战。
未识别操作
与聚焦于LLMs产生的"错误答案"的幻觉问题不同,在许多情况下,这些模型的响应是"甚至没有错误"的。语言模型的本质是语言建模,语言模型的输出通常以语言的形式出现。与其他直接与人交互的LLM相比,Personal LLM Agents需要执行操作,因此,它们对输出的格式和可执行性有更高的要求[ 348 ]。
顺序可靠性
LLMs最初在序列数据和训练目标(上进行预训练。然而,现实世界中的问题可能并不能按顺序得到完全解决。实现顺序可靠性带来了一些挑战,包括上下文保持、连贯性维护等。为了更好地与用户和个人LLM Agent保持连贯和有意义的对话,需要激发LLM从全局角度思考的能力,而不仅仅依赖于先前生成的标记或上下文。
对齐
随着LLMs的规模和复杂性的增加,人们对其可能产生偏见、有害或不适当的内容产生了担忧。对齐方法试图减轻这些风险,并确保LLMs的行为与伦理和社会规范保持一致。
自我反思
已有研究表明,语言模型可以提供提供正确答案的概率[ 357 ]。受LLMs自主运行的启发,研究者提出利用模型的自我反思来缓解内容生成不正确的问题。
上述工作展示了LLMs从单纯的文本生成器向智能代理演化,从原始的内化推理向迭代更新的反思性推理过渡的趋势。
检索增强
LLMs在各种任务中表现出强大的性能,然而,存储在模型中的参数知识仍然可能是不完整的,并且难以有效地更新。或者,检索增强方法[ 199、200、363]提供了一种半参数的方式来提供互补的非参数信息,使得LLMs在生成内容时可以利用检索到的真实世界知识,如维基百科、文档或知识图谱[ 364 ]。该方法具有不需要修改模型的优点,便于信息的实时更新,并允许生成结果对原始数据的可追溯性,从而增强了生成信息的可解释性。
检索增强已经被证明对传统的预训练模型有效,例如BERT [ 365 ]。然而,对于已经具有较强推理能力的LLMs,由于不相关或噪声信息的存在,增加上下文也可能会产生负面影响[ 366 ]。
基于检验的方法不干扰LLM的生成过程。相反,它专注于如何根据已经产生的结果来增强或理解代理的可靠性。
验证
考虑到在部署此类系统用于实际使用时,无法完全避免LLMs生成不可靠内容的问题,仍有必要建立基于规则的安全验证机制。对于上述未被识别的操作,"约束生成"是指生成格式化的、有约束的输出的过程,可以用来解决这个问题。
解释
虽然前文提到智能个人助理应尽量减少用户中断,但纳入用户意见或人类协助可能是有价值的,特别是在做出重大决策时。在智能个人助理出错的情况下,具有可解释性的逻辑也可以在后续的调试过程中提供帮助。
中间特征分析
在最后一层表示之外,还有一些工作涉及分析模型推断过程中的中间状态来判断虚假信息的产生。
LLM生成的可靠性受到了相当多的关注,尤其是围绕幻觉问题。然而,避免不可靠的行为仍然是困难的,如果不是不可能的话。开放性问题包括:
1 .如何评价LLM和LLM代理的可靠性?现有的方法要么依赖于黑盒LLMs,如GPT - 4,要么依赖于昂贵的人工标注。需要权威的基准和方法来评估和提高可靠性。
2 .与机密性问题类似,在Personal LLM Agents的决策过程中融入严格的符号规则将是解决可靠性问题的一个切实可行的方案。然而,在遵守规则的同时保留LLM代理人的强大能力是具有挑战性的。
3 . DNNs缺乏透明性和可解释性是一个长期存在的问题,这对于个人LLM Agents的所有安全和隐私方面更加关键。如何解释和解释LLMs的内在机制是一个值得持续研究的方向。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。