当前位置:   article > 正文

NLP 文本处理的小问题_nlp项目中docs文件里一般放什么东西

nlp项目中docs文件里一般放什么东西

一、将某些数据转化为 XML 格式,便于mysql处理数据

         参考文章:https://blog.csdn.net/infoflow/article/details/77902419

   问题:

          搜狗预料库的数据类型(编码格式为 GB18030):

  1. <doc>
  2. <url></url>
  3. <docno></docno>
  4. <contenttitle></contenttitle>
  5. <content></content>
  6. </doc>
  7. <doc>
  8. <url></url>
  9. <docno></docno>
  10. <contenttitle></contenttitle>
  11. <content></content>
  12. </doc>
  13. 这种文本文件不是标准的xml文件,没有根节点。因此要添加根节点使该文本文件符合xml文件的规范(① 可以用XML树操作对
  14. 象,② 可以用mysql加载XML数据),当数据量极大时不能用windoms打开记事本手动添加。
  15. 方法有多种:
  16. ① 直接linux命令 pass
  17. ② 编程语言 操作文件 并将其保存至多个文件 eg:python
  18. ③ 基于简单的Windows 操作命令:

操作如下:

  1. 1、在要修改的文件目录下 新建一个文本文件head.txt写入
  2. <docs> # 后面需要跟一个 回车
  3. 2、在要修改的文件目录下 新建一个文本文件end.txt写入
  4. </docs> # 前面接一个 回车
  5. 3、用copy命令合并文本 ------- 文本目录下执行
  6. copy /b head.txt + ./news_sohusite_xml_full.xml + end.txt canbeimport.xml
  7. 需要添加的头文件 需要修改的文件名 需要添加的尾文件 修改后的文件名
  8. 注意:由于搜狗与料库的编码特性,样做运行时会出现bug,问题是因为有的url中出现了无法解析的&,所以在
  9. <docs></docs>的同时,别忘了把出现的&替换成&amp;这样就能正常解析了。

 

 

            

 

 

 

 

 

 

 

 

 

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/725392
推荐阅读
相关标签
  

闽ICP备14008679号