使用 RAGAs 评估 RAG 应用

作者：一键难忘520 | 2024-07-29 17:34:54

踩

ragas

原文地址：Evaluating RAG Applications with RAGAs

包含指标和大型语言模型生成的数据框架，用于评估您的检索增强生成管道的性能。

2023 年 12 月 13 日

Stylized performance dashboard for Retrieval-Augmented Generation

到目前为止，我们知道为检索增强生成 (RAG) 的应用程序构建概念验证很容易，但要将其实际应用到生产环境中则非常困难。由于 RAG 流程中包含不同的组件，因此要使 RAG 系统的性能达到令人满意的状态尤其困难：

检索器组件： 为LLM从外部数据库中检索额外的上下文，以便回答查询。
生成器组件： 根据使用检索到的信息来增强提示（prompt）并生成答案。

评估 RAG 流程时，您必须单独和一起评估两个组件，以了解 RAG 流程是否以及在哪些方面仍需要改进。此外，要了解 RAG 应用程序的性能是否有所改善，您必须对其进行定量评估。为此，您需要两个要素：评估指标和评估数据集。

目前，确定正确的评估指标并收集良好的验证数据是一个活跃的研究领域。由于这是一个快速发展的主题，我们目前正在见证各种 RAG 评估框架方法的出现，例如RAG Triad of Metrics、BLEU [1] 评估 RAG 系统。RAGA [1]。本文将重点介绍如何使用 RAGA 和、ARES、ROUGE

什么是 RAGA

RAGAs（Retrieval-Augmented Generation Assessment，检索增强生成评估）是一个框架（GitHub，文档），可提供必要的工具，帮助在组件层面评估 RAG 流程。

评估数据

RAGAs 的有趣之处在于，最初是作为一种无需参照标准的评估框架而设计的 [1]。这意味着，RAGAs 不需要依赖评估数据集中人工标注的标准答案，而是利用底层的大语言模型进行评估。

为了对 RAG 流程进行评估，RAGAs 需要以下几种信息：

question：RAG 流程的输入，即用户的查询问题。
answer：RAG 流程的输出，由RAG流程生成的答案。
contexts：为解答 question 而从外部知识源检索到的相关上下文。
ground_truths：question 的标准答案，这是唯一需要人工标注的信息。这个信息仅在评估 context_recall 这一指标时才必须（详见

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop】