当前位置:   article > 正文

Ace2005英文数据解析过程(事件抽取)_ace2005英文数据集

ace2005英文数据集

本文是对ace2005-preprocessing代码的解读。

数据集介绍

英文的数据包括以下文件夹:NW(Newswire)、BN(Broadcast News)、BC(Broadcast Conversation)、WL(Weblog)、UN(UsenetNewsgroups /Discussion Forum)、CTS(Conversational Telephone Speech),主要关注内容为下面两种文件。

  • .sgm文件:原始文本文件,编码格式为UTF-8,每行的结尾使用UNIX-style。
  • .apf.xml:标注结果文件。

文件划分:

40个文件作为test set, 30个文件作为development set,529个文件作为训练集。划分的文件保存在data_list.csv中。

主要流程:

读取文件和划分数据集

在这里插入图片描述

解析过程:

  1. 解析xml文件
    通过解析apf.xml得到entity_mentions和event_mentions。解析xml文件可以使用ElementTree。
    对于entity_mention解析出下面内容:(存在entity、value和timex2标签,分别表示实体,值(Numeric、Contact-Info、Crime、Job-Title和Sentence五类),时间)其中head代表该实体中最关键的单词。
    在这里插入图片描述
    在这里插入图片描述
    对于event_mentions解析出下面内容:其中ldc_scope为该句的一整句话,anchor为触发词。
    在这里插入图片描述
  2. 解析sgm文件
    通过解析sgm文件得到文本数据和相应的位置信息。Sgm文件可以使用BeautifulSoup库进行解析。
    解析的内容如下:
    在这里插入图片描述
  3. 修正span区间(保证span区间的文本和原文本相等)
    在这里插入图片描述

StanfordCoreNLP处理得到更多的内容

  1. StanfordCoreNLP处理(tokenize,ssplit,pos,lemma,parse分别是分词、分句、词性标注、词元化(英语单词转换为原型)、语法分析)
    在这里插入图片描述
  2. 对于entity_mention和event_mention,在句子中修正各个span,每个句子的span从0开始,同时span的级别由char改为token
    在这里插入图片描述

检查span与text是否匹配

对entity_mention和event_mention,检查单词级别的span和原text是否匹配
在这里插入图片描述

  • 注意: 对sgm文件原始文本的划分(分段)没有明确的规定。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/358455
推荐阅读
相关标签
  

闽ICP备14008679号