赞
踩
参考文章:https://blog.csdn.net/infoflow/article/details/77902419
问题:
搜狗预料库的数据类型(编码格式为 GB18030):
- <doc>
- <url></url>
- <docno></docno>
- <contenttitle></contenttitle>
- <content></content>
- </doc>
- <doc>
- <url></url>
- <docno></docno>
- <contenttitle></contenttitle>
- <content></content>
- </doc>
- 这种文本文件不是标准的xml文件,没有根节点。因此要添加根节点使该文本文件符合xml文件的规范(① 可以用XML树操作对
- 象,② 可以用mysql加载XML数据),当数据量极大时不能用windoms打开记事本手动添加。
- 方法有多种:
- ① 直接linux命令 pass
- ② 编程语言 操作文件 并将其保存至多个文件 eg:python
- ③ 基于简单的Windows 操作命令:

操作如下:
- 1、在要修改的文件目录下 新建一个文本文件head.txt写入
- <docs> # 后面需要跟一个 回车
- 2、在要修改的文件目录下 新建一个文本文件end.txt写入
- </docs> # 前面接一个 回车
- 3、用copy命令合并文本 ------- 文本目录下执行
- copy /b head.txt + ./news_sohusite_xml_full.xml + end.txt canbeimport.xml
- 需要添加的头文件 需要修改的文件名 需要添加的尾文件 修改后的文件名
-
- 注意:由于搜狗与料库的编码特性,样做运行时会出现bug,问题是因为有的url中出现了无法解析的&,所以在
- 加<docs></docs>的同时,别忘了把出现的&替换成&;这样就能正常解析了。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。