搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
知新_RL
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
python实现onnx模型推理_onnx推理代码
2
基于SpringBoot+Vue+uniapp微信小程序的微信阅读小程序的详细设计和实现_springboot vue 小程序
3
3.6k star, 免费开源跨平台的数据库管理工具 dbgate_数据库管理工具 开源
4
从Github上下载文件的方法汇总_github如何下载文件
5
【计算机毕业设计】基于ssm的宠物医院管理系统的设计与实现
6
maven jar包瘦身
7
构建文本数据集(tokenize、vocab)_数据集:英文小说time machine
8
解码自然语言处理之 Transformers
9
基于DataX迁移MySQL到OceanBase集群_datax mysql 同步到oceanbean
10
ros打开笔记本电脑的摄像头_roslaunch usb_cam-test.launch
当前位置:
article
> 正文
论文笔记:Detecting Pretraining Data from Large Language Models
作者:知新_RL | 2024-04-08 06:45:13
赞
踩
论文笔记:Detecting Pretraining Data from Large Language Models
iclr 2024 reviewer评分 5688
1 intro
论文考虑的问题:
给定一段文本和对一个黑盒语言模型的访问权限,在不知道其预训练数据的情况下,能否判断该模型是否在这段文本上进行了预训练
这个问题是成员推断攻击(Membership Inference Attacks,MIA)的一个实例
最近存在一些工作将微调数据检测作为一个MIA问题进行了研究
但是,将这些方法应用到检测大模型相关数据中,存在两个独特的技术挑战
与通常运行多个epoch的微调不同,预训练使用的数据集要大得多,但每个实例只暴露一次,
——>这显著减弱了成功MIA所需的潜在记忆
以前的方法通常依赖于一个或多个参考模型(影子模型)
这些模型以与目标模型相同的方式进行训练(从相同的基础预训练数据分布中采样的影子数据上进行训练)
这对于大型语言模型来说不可行,因为训练分布通常不可用,训练成本也太高
——>论文提出了一个基准
WikiMIA
和一种预训练数据检测方法
Min-K% Prob
2
WikiMIA
使用在特定日期(2023年1月1日)之后添加到维基百科的事件来构建基准
将这些事件视为非成员数据,因为可以保证这些数据不会出现在预训练数据中
——>最终收集了394个最近事件作为我们的非成员数据,并随机选择了394个在2016年前的维基百科页面中的事件作为我们的成员数据
2.1 数据的三个理想属性
准确:
在语言模型预训练之后发生的事件保证不会出现在预训练数据中。
事件的时间性质确保非成员数据确实未曾见过,并没有在预训练数据中提到。
通用
不限于任何特定的模型,可以应用于使用维基百科数据进行预训练的各种模型(OPT、LLaMA、GPT-Neo)
动态:
由于这里的数据构建流程是完全自动化的,论文将通过从维基百科收集更多最近的非成员数据(即更近期的事件)来持续更新论文的基准
3
Min-K% Prob
3.1 微调MIA 方法的不足
微调的MIA方法通常是:
用在相似数据分布上训练的参考模型(影子模型)来校准目标模型使用某一个样本的概率。
但是,由于预训练数据的黑盒性质和其高计算成本,这些方法在预训练数据检测中是不实际的。
——>论文提出了一个无参考的MIA方法
Min-K% Prob
3.2 方法介绍
论文的方法基于一个简单的假设——一个未见过的样本往往包含几个具有低概率的异常词,而一个见过的样本不太可能包含这样低概率的词。
Min-K% Prob
计算离群词元的平均概率。
Min-K% Prob
可以在不了解预训练语料库或,不需要任何额外训练的情况下使用
如果平均概率高,那么很有可能文本在预训练数据中
4 实验
4.1 检测结果
4.2 文本和模型大小的影响
4.3 GPT3 预训练数据中的Top20书籍
4.4 不同learning rate的影响
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/知新_RL/article/detail/383640
推荐阅读
article
Spring-
boot
配置JPA与MyBatisPlus_
spring
data
jpa
和mybat...
spring
-
boot
配置
jpa
和
mybatis
Plus_
spring
data
jpa
和
mybatis
-
plus
数据库...
赞
踩
article
【LLM】大语言模型的前世今生_
a
timeline
of
existing
l
a
rge l
a
ngu...
一文梳理了几个主流LLM的发展及演化。_
a
timeline
of
existing
l
a
rge l
a
ngu
a
ge mo...
赞
踩
article
Vision
Transformer
(iGPT,
ViT
,
DERT
,IPT,TransReID,Tra...
Transformer
太过强大,目前有很多模型都将其引入自己的领域做调整,除了它最先发迹的NLP外,也初步的从NLP到达...
赞
踩
article
论文
笔记:
Teaching
Large
Language
Models to
Self
-
Debug
...
论文
提出了一种名为
Self
-
Debug
ging 的方法,通过执行生成的代码并基于代码和执行结果生成反馈信息,来引导模型...
赞
踩
article
Tensorflow2.0 tf.
data
.
Dataset
.
from
_
tensor
_slices 自...
Pytorch标准二级目录名为类别的图像存储格式数据,采用Pytorch自带APIdb = torchvision.da...
赞
踩
article
LLaMA
模型
指令微调 字节跳动多模态视频大
模型
Valley
论文详解_
valley
:
video
...
如下图,作者的数据生成piple包含四个步骤:1)生成任务指令,2)确定指令是否代表分类任务,3)使用输入优先或输出优先...
赞
踩
article
离线
知识库
服务(
Langchain
-
Chatchat
)本地搭建_
bge
-
large
-zh-v1.5...
AI Agent(人工智能体)是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统的人工智能,AI Agent ...
赞
踩
article
S
t
able-
diffusion
安装时Can‘
t
load
t
okenizer for ‘opena...
在安装S
t
able-
diffusion
WebuUI时,运行py
t
hon launch.py出现Can‘
t
load
t
...
赞
踩
article
log
分析前沿研究进展:面向可靠性工程的
日志
自动分析技术综述_a
data
clustering
a...
本文是翻译节选,如需要请找原论文作者:SHILIN HE, Microsoft Research(一作)
日志
是由软件源代...
赞
踩
article
7月热门
论文
丨
Llama
2开源横扫大
模型
世界,AI自己开发软件,Trans
for
mer扩展至10亿...
63位4个机构学者共同合作的 AI
for
Science综述,
论文
指出了人工智能在量子、原子和连续系统科学中所面临的一...
赞
踩
article
自然语言
处理中数据增强(
Data
Augmentation
)技术最全盘点_
model
-generat...
获胜者将其用于训练数据的增加以及测试期间,将英语句子的预测概率以及使用三种语言(法语,德语,西班牙语)的反向翻译的平均值...
赞
踩
article
大
语言
模型
LLM
Large
Language
Model
的涌现Emergence 反馈强化学习 ...
Large
Language
Model
(大型
语言
模型
)是指具有大规模参数数量和处理能力的
语言
模型
。这些
模型
通过深度学习...
赞
踩
article
【论文精读】
Emergent
Abilities
of
Large
Language
Models
...
在一切破旧褪色中,请你永远闪烁。_emergent abilities of large language models...
赞
踩
article
解决如下出错:DeprecationWarn
in
g: P
as
s
in
g 1d
arrays
as
da...
背景:在Spyder中写几行脚本,目的是应用sklearn自带的svm(支持向量机)算法,来对其自带的digits(手写...
赞
踩
article
合成
数据
(
Synthetic
data
)
微调
大语言
模型
实战指南:背景、方案、案例、
代码
、评估
...
...
来自:旺知识应该
微调
自己的
模型
还是使用公开大语言服务接口(LLM API)?创建自己的
模型
可以完全掌控,但需要
数据
收集、...
赞
踩
article
《
Targeted
Backdoor
Attacks
on
Deep
Learning
System...
论文贡献提出了一种新的深度学习系统攻击类型——后门攻击,这种后门攻击可以通过数据投毒来实现。证明在现实的威胁模型下,后门...
赞
踩
article
文献研读|针对大模型的后门攻击_
backdooring
instruction
-
tuned
larg...
本文介绍几篇针对大模型的后门攻击工作。_
backdooring
instruction
-
tuned
large
lang...
赞
踩
article
[晓理紫]每日
论文
分享(有中文摘要,源码或项目地址)--大
模型
、扩散
模型
、
视觉
语言
导航_sliceg...
大型
视觉
语言
模型
(LVLMs)通过整合来自不同模态的丰富信息,可以全面理解世界,在各种多模态下游任务上取得显著进步。然而...
赞
踩
article
AI
大型
语言
模型
企业级
应用开发
架构
实战:Large Language Models政府关系与法律合规...
1.背景介绍对于现代的智能助手、聊天机器人、语音助手等
AI
产品,无论是面向用户还是企业客户,都充满了“大数据”、“云计算...
赞
踩
article
AI
大
型
语言
模型
企业级应用开发架构实战:
Large
Language
Models
组织建设与人才竞争...
1.背景介绍当下智能
语言
处理(NLP)技术正在从仅仅使用规则解决方案升级到基于深度学习(DL)
模型
的端到端的解决方案。但...
赞
踩
相关标签
java
spring boot
mybatis
人工智能
AIGC
chatgpt
embedding
gpt
gpt-3
transformer
Transformer
IGPT
ViT
DERT
IPT
论文阅读
语言模型
python
深度学习
tensorflow
机器学习
计算机视觉
langchain
langchainchat
stable diffusion