赞
踩
import tabula
from tabula import read_pdf
from tabulate import tabulate
import pandas as pd
import io
一般情况下,PDF中的表格指的是非图片格式的PDF,否则无法识别
tabula.convert_into('pdf路径.pdf', '输出表名称.csv',
output_format="csv", pages = 'all')
pages 也可以选择某一页:
pages = 6 #第6页
pages = "all" #全部页面
import pypinyin
'''把汉语改写为拼音'''
df1=pd.read_csv(r'文件路径')
df1.head()
输出为:
循环改变 df1‘’站名‘’ 这一列的汉子为拼音:
pinyin_name = []
first_pinyin = []
for i in df1['站名']:
r1=pypinyin.pinyin(i,style=Style.TONE3) # style控制是否添加拼音的音调
r2_=[i[0] for i in r1]
r3=r2_[0].capitalize() + ' ' + ''.join(r2_[1:]).capitalize()
r4=''.join([i[0].upper() for i in r2_])
print(r3, i, sep=' ')
pinyin_name.append(r3)
first_pinyin.append(r4)
df1['py_site'] = pinyin_name #拼音站名
df1['py_first2'] = first_pinyin #站名拼音的首字母
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。