python读取pdf文件

作者：思考机器5 | 2024-01-31 19:09:50

踩

python读取pdf

使用python读取pdf文件的内容

读取第1页的内容：


import PyPDF2
pdfFileObj = open('a.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print(pdfReader.numPages)
 
pageObj = pdfReader.getPage(0)
print(pageObj.extractText())

输出该pdf文件共有多少页，并输出该pdf的第1页的内容。

读取第1-100页的内容：


import PyPDF2
pdfFileObj = open('a.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print(pdfReader.numPages)
 
for i in range(100):
    pageObj = pdfReader.getPage(i)
    print(pageObj.extractText())

输出该pdf文件共有多少页，并输出该pdf的第1-100页的内容。

注意：将a.pdf与python文件放在同一目录下。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/article/detail/51537