【开源训练数据集1】神经语言程式(NLP)项目的15 个开源训练数据集_nlp的初始训练数据集

作者：小小林熬夜学编程 | 2024-03-14 12:36:53

踩

nlp的初始训练数据集

一个聊天机器人需要大量的训练数据，以便在无需人工干预的情况下快速解决用户的询问。然而，聊天机器人开发的主要瓶颈是获取现实的、面向任务的对话数据来训练这些基于机器学习的系统。

我们整理了训练聊天机器人所需的对话数据集，包括问答数据、客户支持数据、对话数据和多语言数据。

问题-答案数据集：该语料库包括维基百科文章、从中手动生成的事实问题以及这些问题的手动生成的答案，用于学术研究。

WikiQA 语料库：一组公开可用的问题和句子对，为开放域问答研究而收集和注释。为了反映一般用户的真实信息需求，他们使用Bing查询日志作为问题来源。每个问题都链接到可能有答案的维基百科页面。

雅虎语言数据：此页面包含来自雅虎雅虎问答的手动策划的 QA 数据集。

TREC QA Collection：TREC 自 1999 年以来就有了问答轨道。在每个轨道中，任务都被定义为系统要检索包含开放域、封闭类问题答案的小文本片段。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/234474