赞
踩
文章提出了一种检测语料是否为LLM生成的无监督方法“DetectGPT”,该方法属于一种基于LLM的log-proba进行分析的白盒方法,无需提供额外标注数据、无需重新训练模型,就可以得出结论。
文章整体框架如下
DetectGPT基于PDG假设,通俗来说就是:给定一条模型生成的文本段,对该文本进行轻微的扰动(尽量不改变语义且保持文本的通顺度),模型对加了干扰的文本倾向于给出更高的分数,即模型生成的文本呈负曲率曲线(下图左);另一方面,给定一条人类自己写的文本段,对该文本作轻微的扰动之后,模型对干扰后的文本和原文本的打分无明显倾向,即干扰后的文本可能得到更高分或更低分(下图右)。
基于上述假设,文章给出了一种判定文本是否为LLM生成的方法。给定文本段
x
x
x,对它进行轻微的扰动
q
(
⋅
∣
x
)
q(\cdot|x)
q(⋅∣x)得到
x
~
i
,
i
=
1
,
…
,
k
\tilde{x}_i, i=1, \dots, k
x~i,i=1,…,k(可以人工修改也可以通过基于掩码的模型自动生成扰动),定义扰动差异(perturbation discrepancy,PD)如下:
d
(
x
,
p
θ
,
q
)
:
=
log
p
θ
(
x
)
−
E
x
~
∼
q
(
⋅
∣
x
)
log
p
θ
(
x
~
)
d(x, p_{\theta}, q) := \log p_{\theta} (x) - \mathbb{E}_{\tilde{x} \sim q(\cdot|x)} \log p_\theta (\tilde{x})
d(x,pθ,q):=logpθ(x)−Ex~∼q(⋅∣x)logpθ(x~).基于上述PDG假设,模型对机器生成的文本扰动更敏感,即机器生成的
x
x
x的PD更大,人类手写的
x
x
x的PD更小。从而我们可以通过设置PD的阈值来区分文本是否由机器产生。
具体实验如下:
文章提出了DetectGPT,无需重新训练模型,只需提供待检测模型的log-proba,即可预测文本是否为该模型产生。
DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature
[1] 论文笔记–Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。