搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
繁依Fanyi0
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
物联网革命:迈向智能、安全与可持续的未来
2
pytorch中加入注意力机制(CBAM),以ResNet为例。到底要不要用ImageNet预训练?如何加预训练参数?_怎么样看程序是否使用imagenet预训练参数
3
【层级多标签文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究_基于bert-cnn的多标签
4
在服务器(Ubuntu20.04)安装用户级别的cuda11.8(以及仿照前面教程安装cuda11.3后安装cudnn和pytorch1.9.0)_cuda11.8下载
5
数据源作用以及spring配置数据源_配置数据源的用处是什么
6
iOS之流布局UICollectionView全系列教程_uicollectionview教程
7
自然语言处理课程期末总结_自然语言处理期末报告
8
java使用httpclient发送带json请求体的post请求_java发送post请求发送json
9
互联网发展阶段的三阶段是什么?从门户到搜索,到移动互联网_中国的互联网发展史三个阶段
10
Python将 PDF 转换为 png 图片的教程
当前位置:
article
> 正文
论文笔记:Teaching Large Language Models to Self-Debug
作者:繁依Fanyi0 | 2024-04-05 09:25:57
赞
踩
论文笔记:Teaching Large Language Models to Self-Debug
ICLR
2024 REVIEWER打分 6666
1 论文介绍
论文提出了一种名为 Self-Debugging 的方法,通过执行生成的代码并基于代码和执行结果生成反馈信息,来引导模型进行调试
不同于需要额外训练/微调模型的方法,Self-Debugging 通过代码解释来指导模型识别实现错误
类似于人类程序员通过逐行向橡皮鸭解释代码行来提高调试效率的方法
2 论文方法
2.1 生成代码的prompt技术
2.1.1 Few-shot prompting
以文本到 SQL 生成为例,few-shot 提示在感兴趣的问题前面加上(question, SQL)对的列表
这样当模型被要求预测给定提示后的后续 token 时,它会按照提示的格式生成 SQL 查询语句
2.1.2 基于执行的代码选择
先前的研究表明,对于大型语言模型,在解码过程中生成多个预测结果可以显著提高性能
Self-consistency improves chain of thought reasoning in language models, ICLR 2023
论文执行多次代码生成
选择在执行时没有遇到错误的预测中具有最频繁执行结果的代码,并对其应用 后续的Self-Debugging
一些代码生成任务伴随着单元测试,以指定程序的执行行为。在问题描述中给出单元测试时,执行基于多数投票的选择之前,会先过滤掉未通过单元测试的程序。
2.2 Self-Debugging 框架——反馈形式
现有的研究表明,语言模型可以通过训练来理解人类对代码的反馈,并根据指令进行修正。
然而,目前尚不清楚语言模型是否能够在没有人类辅助的情况下自行进行调试。
在接下来的讨论中,将探讨
如何利用代码执行和 few-shot 提示来生成不同类型的自动获取和生成的反馈信息
2.2.1
简单反馈
最简单的自动反馈形式是一句话,仅指示代码的正确性,没有更详细的信息
比如:
“上面的
SQL
预测是正确的!”
“上面的 SQL 预测是错误的,请修正 SQL。”
2.2.2 单元测试(UT)
对于包含单元测试的代码生成任务,除了通过代码执行来检查代码的正确性外,还可以在反馈信息中呈现单元测试的执行结果,从而为调试提供更丰富的信息。
通过检查运行时错误消息和未通过的单元测试的执行结果,可以帮助人类程序员更有效地进行调试。
实验结果表明,
利用单元测试可以显著提高调试性能
。
2.2.3 代码解释
尽管大型语言模型在生成批评性反馈方面取得了一些进展,以避免生成有害的输出并在自然语言和推理任务中提高性能,但先前的研究尚未在代码生成任务中验证了反馈的有效性
The capacity for moral self-correction in large language models.,arxiv 2023
Reflexion: an autonomous agent with dynamic memory and self-reflection,arxiv 2023
——>论文提出
通过解释生成的代码来教模型进行自我调试
,而不是教它预测错误消息
调试过程类似于程序员通过向橡皮鸭逐行解释代码来进行调试。
研究验证了
即使在没有单元测试的情况下,大型语言模型也可以从这种调试方法中获益
。
2.2.4 模拟执行过程
当单元测试可用时,我们检查了另一种解释反馈格式,其中指导大型语言模型(LLM)逐行解释中间执行步骤
执行跟踪和逐行解释都来自模型生成,而不是代码执行
因此跟踪反馈不需要比纯代码解释反馈更多的信息(不需要访问中间执行状态)
2.2.5 几种反馈的对比
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/364785?site=
推荐阅读
article
Kaggle
自然语言
处理
入门之推特灾难文本分类_
natural
language processin...
前言第一次
处理
文本的时候还是做毕业论文时,那个时候什么也不懂,为了方便,用EXCEl进行了文本的预
处理
,然后用在线词云进...
赞
踩
article
NLP:《
ChatGPT
:
Optimizing
Language
Models
for
Dialo...
NLP:《
ChatGPT
:
Optimizing
Language
Models
for
Dialogue
一种优化的对话...
赞
踩
article
【AI视野·今日
NLP
自然语言
处理论文速览 第五十五期】Mon, 16 Oct 2023_inst...
AI视野·今日CS.
NLP
自然语言
处理论文速览Mon, 16 Oct 2023Totally 53 papersins...
赞
踩
article
whisper
-
large
-
v3
双卡
v100
64G
训练 问题总结_
whisper
large
...
whisper
-
large
-
v3
使用数据集做微调_
whisper
large
-
v3
whisper
large
-
v3
...
赞
踩
article
Is
ChatGPT
a
general
-
purpose
natural
language
proc...
文章提到
ChatGPT
是在GPT3.5的基础上训练而来,所以在Arithmetic Reasoning、commonse...
赞
踩
article
【
检索
增强
】
Retrieval
-
Augmented
Generation
for Large Lan...
LLM
检索
增强
的新范式【
检索
增强
】
Retrieval
-
Augmented
Generation
for Large La...
赞
踩
article
Coursera自然语言处理专项课程03:Natural
Language
Processing w...
Recurrent Neural Networks for
Language
ModelingCoursera自然语言处...
赞
踩
article
【文献翻译】
UR
-
FUNNY
: A
Multimodal
Language
Dataset
for ...
幽默是人们在社会交往中经常表现出来的一种独特的、富有创造性的交际行为。它是以多模态的方式产生的,通过使用单词(文本),手...
赞
踩
article
如何拥有
自己
的本地大语言
模型
_
bge
-
large
-
zh
-
v1.5
...
如何搭建一个
自己
的本地大
模型
,chatglm3-6b,spring-ai_
bge
-
large
-
zh
-
v1.5
bge
-la...
赞
踩
article
自然语言
处理
,
NLP
秘笈,从入门到进阶_《neural network methods
in
nat...
自然语言
处理
(
NLP
)作为人工智能研究的核心领域之一,长久以来都受到广泛关注。微软全球执行副总裁沈向洋博士曾表示“懂语言...
赞
踩
article
GPT
-2原理-
Language
Models
are
Unsupervised
Multitask
...
因为
GPT
-2是
GPT
-1的延续,所以接下来我介绍的内容都是假设你看过或者了解过
GPT
-1。在更大的模型上进行效果验证;...
赞
踩
article
nlp
中文
文本
纠错_GitHub - Jvwke/xm
nlp
: A
Lightweight
Chi...
xm
nlp
小明NLP —— 轻量级中文自然语言处理工具A
Lightweight
Chinese
Natural
Lan...
赞
踩
article
RAFT
:
Adapting
Language
Model to Domain Specific R...
1.如果想要对
RAG
任务来微调大模型,作者做的DSF以及DSF+
RAG
的失败实验,值得排除这种尝试。否则大家可能都想试试...
赞
踩
article
[论文阅读笔记48]
BLURB
_
domain
-
specific
language
model pre...
一,题目Domain-Specific Language Model Pretraining
for
Biomedica...
赞
踩
article
语言
模型
BERT
理解_
bert
-
base
-
uncased
和
bert
-
large
-
uncased
区别...
bert
浅析_
bert
-
base
-
uncased
和
bert
-
large
-
uncased
区别
bert
-
base
-uncas...
赞
踩
article
Chat
GLM
-6B ——
80%
替换
ChatGPT
的开源对话大模型介绍(
GLM
,
General
L...
我是一个人工智能助手,我被训练来回答各种问题。我可以通过自然语言处理技术来理解人类语言,并生成相应的回答。我可以用多种语...
赞
踩
article
如何使用
ZIP
方式安装
MySQL
:简单、快速、高效的安装方法_
windows
(
x86
,
64-bi...
使用
ZIP
方式安装
MySQL
是一种简单、快速且高效的方法。与传统的安装程序不同,
ZIP
方式提供了一个压缩包,您只需解压缩...
赞
踩
article
【论文笔记】
Program
synthesis
using
natural
language...
论文阅读:使用自然语言进行程序综合_program
synthesis
program
synthesis
...
赞
踩
article
【
Cha
in
-of-
Thought
专题】
Self
-
consistency
Improves Cha...
本文提出
Self
-
consistency
进一步提升
Cha
in
-of-
Thought
的效果_self-consistenc...
赞
踩
article
一致性
思维
链
(
SELF
-
CONSISTENCY
IMPROVES CHAIN OF THOUGHT ...
思维
链
已经在很多任务上取得了非常显著的效果,这篇论文中提出了一种 self-consistency 的算法,来代替 贪婪...
赞
踩
相关标签
自然语言处理
机器学习
kaggle
语言模型
人工智能
NLP
文本生成
LLM
大语言模型
GPT
whisper
语音识别
深度学习
学习
笔记
python
java
ai
gpt