赞
踩
本文是对ace2005-preprocessing代码的解读。
英文的数据包括以下文件夹:NW(Newswire)、BN(Broadcast News)、BC(Broadcast Conversation)、WL(Weblog)、UN(UsenetNewsgroups /Discussion Forum)、CTS(Conversational Telephone Speech),主要关注内容为下面两种文件。
40个文件作为test set, 30个文件作为development set,529个文件作为训练集。划分的文件保存在data_list.csv中。
对entity_mention和event_mention,检查单词级别的span和原text是否匹配
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。