当前位置:   article > 正文

python抓取pdf中的表格转换为csv表格&汉语站名批量变英文(拼音)名_python实现从pdf中提取表格导出csv

python实现从pdf中提取表格导出csv

1, PDF转csv

import tabula

from tabula import read_pdf
from tabulate import tabulate
import pandas as pd
import io
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

一般情况下,PDF中的表格指的是非图片格式的PDF,否则无法识别

tabula.convert_into('pdf路径.pdf', '输出表名称.csv', 
                    output_format="csv", pages = 'all')
  • 1
  • 2

pages 也可以选择某一页:

pages = 6 #第6页
pages = "all" #全部页面
  • 1
  • 2

2,表格dataframe中的汉字自动转拼音

import pypinyin
  • 1
'''把汉语改写为拼音'''
df1=pd.read_csv(r'文件路径')
df1.head()
  • 1
  • 2
  • 3

输出为:在这里插入图片描述

循环改变 df1‘’站名‘’ 这一列的汉子为拼音:

pinyin_name = []
first_pinyin = []
for i in df1['站名']:
    r1=pypinyin.pinyin(i,style=Style.TONE3)  # style控制是否添加拼音的音调
    r2_=[i[0] for i in r1]
    r3=r2_[0].capitalize() + ' ' + ''.join(r2_[1:]).capitalize()
    r4=''.join([i[0].upper() for i in r2_])
    print(r3, i, sep=' ')
    pinyin_name.append(r3)
    first_pinyin.append(r4)
df1['py_site'] = pinyin_name #拼音站名
df1['py_first2'] = first_pinyin #站名拼音的首字母

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/article/detail/51320
推荐阅读
相关标签
  

闽ICP备14008679号