赞
踩
Author: 净好
阅前必读:
看完一、二,你应该会清楚该比赛要完成两个任务:1.文本分类 2.关键词总结,足够了解NLP的任务其实也可以不看这两部分,建议直接跳到三。
看完三,你应该会清楚该比赛数据的各个方面以及后续操作应该采取的策略及细节把控
看完四,你应该会清楚三个Baseline对应着三种NLP领域不同发展时期的比赛解决方案:1.传统的文本特征提取+机器学习方法 2.预训练微调 3.微调大语言模型
看完五、六,你应该会清楚该比赛的提分细节,以及该比赛的难点究竟在哪
目录
Baseline1:词袋/TF-IDF表征文本 + 逻辑回归模型
Baseline2:Bert微调分类 + 余弦相似度选择关键词
比赛链接:https://challenge.xfyun.cn/topic/info?type=abstract-of-the-pape
选手们需要完成以下两个子任务:
机器通过对论文摘要等信息的理解,判断该论文是否属于医学领域的文献。
提取出该论文关键词。
任务1示例:
输入:
论文信息,格式如下:
Inflammatory Breast Cancer: What to Know About This Unique, Aggressive Breast Cancer.,
[Arjun Menta, Tamer M Fouad, Anthony Lucci, Huong Le-Petross, Michael C Stauder, Wendy A Woodward, Naoto T Ueno, Bora Lim],
Inflammatory breast cancer (IBC) is a rare form of breast cancer that accounts for only 2% to 4% of all breast cancer cases. Despite its low incidence, IBC contributes to 7% to 10% of breast cancer caused mortality. Despite ongoing international efforts to formulate better diagnosis, treatment, and research, the survival of patients with IBC has not been significantly improved, and there are no therapeutic agents that specifically target IBC to date. The authors present a comprehensive overview that aims to assess the present and new management strategies of IBC.,
Breast changes; Clinical trials; Inflammatory breast cancer; Trimodality care.
输出:
是
任务2示例:
输入:
Inflammatory Breast Cancer: What to Know About This Unique, Aggressive Breast Cancer.,
[Arjun Menta, Tamer M Fouad, Anthony Lucci, Huong Le-Petross, Michael C Stauder, Wendy A Woodward, Naoto T Ueno, Bora Lim],
Inflammatory breast cancer (IBC) is a rare form of breast cancer that accounts for only 2% to 4% of all breast cancer cases. Despite its low incidence, IBC contributes to 7% to 10% of breast cancer caused mortality. Despite ongoing international efforts to formulate better diagnosis, treatment, and research, the survival of patients with IBC has not been significantly improved, and there are no therapeutic agents that specifically target IBC to date. The authors present a comprehensive overview that aims to assess the present and new management strategies of IBC.
输出:
[Breast changes,Clinical trials, Inflammatory breast cancer,Trimodality care]
训练集与测试集数据为CSV格式文件,各字段分别是标题、作者、摘要、关键词。
任务一采用F1-score进行评价:
任务二采用文献关键词抽取准确率Acc进行评价:
其中N为文献总数。
最终分数 = 0.4*任务一分数+0.6*任务二分数
由于比赛官方提供的测试集包含了Keywords,所以A榜提交文件里面的Keywords可以直接copy测试集里面的Keywords。那么就相当于A榜只需要完成文本的二分类任务即可,也就是通过论文标题、摘要、作者这三个信息来判断该文献是否属于医学领域的文献,是则标签为1,不是则标签为2.
通过给自己提出问题的方式去回答,并根据以往经验去规划细节。
问题一:数据集中的样本数目是多少?
答:训练集有6000条样本,测试集有2358条样本。
以往经验:这个训练集大小对于分类任务来说已经足够大了,再加上判断医学文献的这个二分类任务较为简单,所以推测传统方法和预训练微调的方法都能取得很高的分数,追求鲁棒性的时候完全可以同时将这两种方法集成起来。
规划细节:动手的时候,打算先测试一下Baseline,再将机器学习的方法和深度学习的方法集成起来,看看效果是否足够好,如果效果很好的话,就可以放心拥抱机器学习了:)
问题二:数据集中是否存在缺值、缺内容的问题?
答:存在缺内容的问题,但还好测试集当只有uuid为538的文献缺失了摘要部分的内容。
以往经验:补上去就得了呗:p
规划细节直接上手
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。