当前位置:   article > 正文

国内的大模型数据集仓库_大模型仓库

大模型仓库

国内的大模型数据集仓库不仅为开发者提供了丰富的数据资源,还涵盖了多种任务类型以支持NLP、CV等领域的研究和应用。以下是一些著名的国内大模型数据集仓库:

1. CLUE (Chinese Language Understanding Evaluation)

描述:CLUE是中文语言理解评测基准,提供了多个数据集用于评估模型的性能,覆盖了包括文本分类、自然语言推理、问答系统等任务。

优点

  • 提供多种中文语言任务数据集。
  • 定期更新和维护,社区参与度高。

仓库地址CLUE GitHub

2. THUCTC (THU Chinese Text Classification)

描述:来自清华大学的中文文本分类数据集,包含将近740,000篇新闻文本,适用于文本分类任务。

优点

  • 数据量大且标注质量高。
  • 广泛应用于文本分类模型的训练和评估。

仓库地址THUCTC GitHub

3. DuReader

描述:由百度推出的大规模中文机器阅读理解数据集,涵盖了多个领域的问题和答案对。

优点

  • 覆盖了广泛的领域,数据丰富。
  • 适用于训练和评估中文阅读理解模型。

仓库地址DuReader GitHub

4. SKE2019 (Sogou Knowledge Extraction)

描述:搜狗推出的知识抽取数据集,用于信息抽取领域的研究。

优点

  • 高质量的数据集,适用于多种信息抽取任务。
  • 包含丰富的实体和关系标注。

仓库地址SKE2019 GitHub

5. LCSTS (Large-scale Chinese Short Text Summarization Dataset)

描述:中文短文本摘要数据集,由清华大学发布。

优点

  • 适用于摘要生成任务。
  • 数据集规模大,包含新闻文章及其摘要。

仓库地址LCSTS GitHub

6. CMeEE (Chinese Medical Named Entity Recognition)

描述:医疗领域的实体识别数据集,主要用于识别医学文本中的专业术语。

优点

  • 医疗领域专用,对医学NLP研究有重要价值。
  • 数据集标注细致,包含多种实体类型。

仓库地址CMeEE GitHub

7. Tianchi Open Data

描述:阿里巴巴的天池平台提供了丰富的数据集,涵盖了从文本分析到计算机视觉的各种任务。

优点

  • 数据集种类丰富,涵盖广泛任务。
  • 适用于比赛和研究使用。

仓库地址Tianchi Open Data

8. WYWEB (Wisdomyao Web)

描述:智慧瑶的中文网络数据集,适用于多种NLP任务,包括问答系统、命名实体识别等。

优点

  • 基于真实网络数据,涵盖广泛应用场景。
  • 标注标准严格,数据质量高。

仓库地址WYWEB GitHub

总结

这些数据集大多都受到广泛的科研和商业应用,适合多种NLP及CV任务。国内的研究机构和公司在这些数据集的构建和维护上投入了大量资源,用户可以根据具体的研究需求选择适合的数据集进行模型训练和评估。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/968072
推荐阅读
相关标签
  

闽ICP备14008679号