赞
踩
原文地址:Evaluating RAG Applications with RAGAs
包含指标和大型语言模型生成的数据框架,用于评估您的检索增强生成管道的性能。
2023 年 12 月 13 日
Stylized performance dashboard for Retrieval-Augmented Generation
到目前为止,我们知道为检索增强生成 (RAG) 的应用程序构建概念验证很容易,但要将其实际应用到生产环境中则非常困难。由于 RAG 流程中包含不同的组件,因此要使 RAG 系统的性能达到令人满意的状态尤其困难:
评估 RAG 流程时,您必须单独和一起评估两个组件,以了解 RAG 流程是否以及在哪些方面仍需要改进。此外,要了解 RAG 应用程序的性能是否有所改善,您必须对其进行定量评估。为此,您需要两个要素:评估指标和评估数据集。
目前,确定正确的评估指标并收集良好的验证数据是一个活跃的研究领域。由于这是一个快速发展的主题,我们目前正在见证各种 RAG 评估框架方法的出现,例如RAG Triad of Metrics、BLEU [1] 评估 RAG 系统。RAGA [1]。本文将重点介绍如何使用 RAGA 和 、ARES、ROUGE
RAGAs(Retrieval-Augmented Generation Assessment,检索增强生成评估)是一个框架(GitHub,文档),可提供必要的工具,帮助在组件层面评估 RAG 流程。
RAGAs 的有趣之处在于,最初是作为一种无需参照标准的评估框架而设计的 [1]。这意味着,RAGAs 不需要依赖评估数据集中人工标注的标准答案,而是利用底层的大语言模型进行评估。
为了对 RAG 流程进行评估,RAGAs 需要以下几种信息:
question
:RAG 流程的输入,即用户的查询问题。answer
:RAG 流程的输出,由RAG流程生成的答案。contexts
:为解答 question
而从外部知识源检索到的相关上下文。ground_truths
:question
的标准答案,这是唯一需要人工标注的信息。这个信息仅在评估 context_recall
这一指标时才必须(详见 Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。