当前位置:   article > 正文

中文文本预处理

文本预处理

一、文本数据准备

       使用已经有的语料库,按照Python读取文本内容的方法读取文本文件内容。此处为了一步步演示过程,所以先使用句子,最后再整合。

二、去除指定无用的符号

    我们爬取到的文本有时候会有很多空格或者是其他一些无用的符号,如果保留这些符号,在分词的时候这些符号也会被分出来,就会导致分词的结果不是很好。这个时候我们就可以用replace()这个方法去掉所有你不想要的符号

         1. 去除空格

  1. contents = ' 大家好, 欢迎一起来学习文本的空格 去除 !'
  2. print('处理前文本:'+contents)
  3. def process(our_data): #定义函数
  4. content = our_data.replace(' ','') # 去掉文本中的空格
  5. print('处理后文本:'+content)
  6. process(contents)

处理前文本:   大家好, 欢迎一起来学习文本的空格   去除   !
处理后文本:大家好,欢迎一起来学习文本的空格去除!

     2. 去除空格的同时把省略号转换为句号

  1. contents = ' 大家好, 这里还有 很多的知识...一起拉学习吧 !'
  2. print('处理前文本:'+contents)
  3. def process(data): #定义函数
  4. content1 = data.replace(' ','') # 去掉文本中的空格
  5. content2 = content1.replace('...',',') # 去掉文本中的空格
  6. print('处理后文本:'+content2)
  7. process(contents)

处理前文本:   大家好, 这里还有  很多的知识...一起拉学习吧 !
处理后文本:大家好,这里还有很多的知识,一起拉学习吧!

三、让文本只保留汉字

   我们在处理文本时通常只针对文字,而符号、数字等是没有意义的,如果一项项的分开去除,那样就会浪费时间,所以想只留下汉子时,我们可以采用下列方法:

  1. def is_chinese(uchar):
  2. if uchar >= u'\u4e00' and uchar <= u'\u9fa5': # 判断一个uchar是否是汉字
  3. return True
  4. else:
  5. return False
  6. def allcontents(contents):
  7. content = ''
  8. for i in contents:
  9. if is_chinese(i):
  10. content = content+i
  11. print('\n处理后的句子为:\n'+content)
  12. centents = '1,2,3...我们开始吧, 加油!'
  13. print('原句子为:\n'+centents)
  14. allcontents(centents)

原句子为:1,2,3...我们开始吧, 加油!

处理后的句子为:我们开始吧加油



四、文本中的表情符号去除

     有的时候文本需要保留原来的样子,数字、汉字、英文、常规句子符号,而去除掉其他的东西,那么可以使用下面的方法:

  1. import re
  2. sentence='现在听着音乐,duo rui mi,很开心*_*'
  3. print('原句子为:\n'+sentence)
  4. def clear_character(sentence):
  5. pattern = re.compile("[^\u4e00-\u9fa5^,^.^!^a-z^A-Z^0-9]") #只保留中英文、数字和符号,去掉其他东西
  6. #若只保留中英文和数字,则替换为[^\u4e00-\u9fa5^a-z^A-Z^0-9]
  7. line=re.sub(pattern,'',sentence) #把文本中匹配到的字符替换成空字符
  8. new_sentence=''.join(line.split()) #去除空白
  9. print('\n处理后的句子为:\n'+new_sentence)
  10. clear_character(sentence)

注意: 保留的符号需要注意是在中英文的哪个环境下,如果都要保留,就得继续添加在 re.compile() 里面。

运行结果:

原句子为:现在听着音乐,duo rui mi,很开心*_*

处理后的句子为:现在听着音乐,duoruimi,很开心



五、繁体中文与简体中文转换

 当我们尽心文本处理时,如果文本中既有繁体也有简体,那处理起来有些不方便,为此,需要根据实际所需,进行繁体中文与简体中文的转换,在使用下列方法之前,需要通过语句:pip install openccpy 安装一下OpenccPy。OpenccPy是一款 python 中文繁简体转换工具。
  

  1. from opencc import OpenCC
  2. sentence = '你现在读的这里是简体,這裡是繁體,能看懂嗎?'
  3. print('原句子为:\n'+sentence)
  4. def Simplified(sentence):
  5. new_sentence = Converter('zh-hans').convert(sentence) # 繁体转为简体
  6. print('\n处理后的句子为:\n'+new_sentence)
  7. def Traditional(sentence):
  8. new_sentence = Converter('zh-hant').convert(sentence) # 简体转为繁体
  9. print('\n处理后的句子为:\n'+new_sentence)
  10. Simplified(sentence)

原句子为:你现在读的这里是简体,這裡是繁體,能看懂嗎?

处理后的句子为:你现在读的这里是简体,这里是繁体,能看懂吗?

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/356715?site=
推荐阅读
相关标签
  

闽ICP备14008679号