Ace2005英文数据解析过程(事件抽取)_ace2005英文数据集

作者：AllinToyou | 2024-04-04 11:55:05

踩

ace2005英文数据集

本文是对ace2005-preprocessing代码的解读。

数据集介绍

英文的数据包括以下文件夹：NW(Newswire)、BN(Broadcast News)、BC(Broadcast Conversation)、WL(Weblog)、UN(UsenetNewsgroups /Discussion Forum)、CTS(Conversational Telephone Speech),主要关注内容为下面两种文件。

.sgm文件:原始文本文件,编码格式为UTF-8,每行的结尾使用UNIX-style。
.apf.xml:标注结果文件。

文件划分：

40个文件作为test set， 30个文件作为development set，529个文件作为训练集。划分的文件保存在data_list.csv中。

主要流程：

读取文件和划分数据集

在这里插入图片描述

解析过程：

解析xml文件
通过解析apf.xml得到entity_mentions和event_mentions。解析xml文件可以使用ElementTree。
对于entity_mention解析出下面内容：(存在entity、value和timex2标签，分别表示实体，值(Numeric、Contact-Info、Crime、Job-Title和Sentence五类)，时间)其中head代表该实体中最关键的单词。

对于event_mentions解析出下面内容：其中ldc_scope为该句的一整句话，anchor为触发词。
解析sgm文件
通过解析sgm文件得到文本数据和相应的位置信息。Sgm文件可以使用BeautifulSoup库进行解析。
解析的内容如下：
修正span区间(保证span区间的文本和原文本相等)

StanfordCoreNLP处理得到更多的内容

StanfordCoreNLP处理(tokenize,ssplit,pos,lemma,parse分别是分词、分句、词性标注、词元化(英语单词转换为原型)、语法分析)
对于entity_mention和event_mention,在句子中修正各个span,每个句子的span从0开始,同时span的级别由char改为token

检查span与text是否匹配

对entity_mention和event_mention，检查单词级别的span和原text是否匹配
在这里插入图片描述

注意: 对sgm文件原始文本的划分(分段)没有明确的规定。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/AllinToyou/article/detail/358455