赞
踩
任务场景可分为简单任务:实体抽取、qa等
复杂任务:代码生成、创意写作等
在定义任务后,就要定义模型实现该任务的成功标准:
模型表现和准确率;延迟;价格。
多样化的测试用例覆盖任务的典型应用和边缘情况。
设计最初的prompt,从简单描述任务场景、回答的风格等开始。最好是使用few-shot的方式,告诉模型的输入输出格式。
将测试用例使用初始的prompt输入到模型,观察和评估回复内容,并与成功标准作比较。使用一致的评分标准,可以是人工评估、与答案核心内容的比较或是用其他模型的回答判断等。
根据评估结果,朝着成功标准迭代优化prompt。包括但不限于增加描述明细、示例、模型行为的约束。但是要注意不要过分优化小部分的输入,否则会过拟合。
一旦设计的prompt成功通过了测试用例,就可以将其应用。注意监控模型表现,边缘情况等意外仍随时可能发生。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。