赞
踩
国内的大模型数据集仓库不仅为开发者提供了丰富的数据资源,还涵盖了多种任务类型以支持NLP、CV等领域的研究和应用。以下是一些著名的国内大模型数据集仓库:
描述:CLUE是中文语言理解评测基准,提供了多个数据集用于评估模型的性能,覆盖了包括文本分类、自然语言推理、问答系统等任务。
优点:
仓库地址:CLUE GitHub
描述:来自清华大学的中文文本分类数据集,包含将近740,000篇新闻文本,适用于文本分类任务。
优点:
仓库地址:THUCTC GitHub
描述:由百度推出的大规模中文机器阅读理解数据集,涵盖了多个领域的问题和答案对。
优点:
仓库地址:DuReader GitHub
描述:搜狗推出的知识抽取数据集,用于信息抽取领域的研究。
优点:
仓库地址:SKE2019 GitHub
描述:中文短文本摘要数据集,由清华大学发布。
优点:
仓库地址:LCSTS GitHub
描述:医疗领域的实体识别数据集,主要用于识别医学文本中的专业术语。
优点:
仓库地址:CMeEE GitHub
描述:阿里巴巴的天池平台提供了丰富的数据集,涵盖了从文本分析到计算机视觉的各种任务。
优点:
仓库地址:Tianchi Open Data
描述:智慧瑶的中文网络数据集,适用于多种NLP任务,包括问答系统、命名实体识别等。
优点:
仓库地址:WYWEB GitHub
这些数据集大多都受到广泛的科研和商业应用,适合多种NLP及CV任务。国内的研究机构和公司在这些数据集的构建和维护上投入了大量资源,用户可以根据具体的研究需求选择适合的数据集进行模型训练和评估。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。