Python 实现 PDF 提取所有图片_python提取pdf中图形信息

作者：思考机器7 | 2024-01-31 19:22:24

踩

python提取pdf中图形信息

前言

昨天在群里看到有人问一段代码，竟没有人回复。
可能是发错了群聊，索性直接动手实现了一下。
群友给定代码，有大版本更新了，不适用于当前。

# -*- coding: utf-8 -*-
"""
    @Author: kong
    @File  : pdf-img.py
    @Date  : 2023-05-25 05:54:30
    @GitHub: https://github.com/kongxiaoaaa
    @notes : PDF 自动提取 并 动态创建图集
"""
import time
import os
from pathlib import Path

from fitz import fitz


def doc_to_img(doc, img_count, pdf_name, save_dir):
    """文档提取图片

    Args:
        `doc`: 文档对象
        `img_count`: 图片数量
        `pdf_name`: 文档名称
        `save_dir`: 文档存储路径

    Return:

    """
    # 遍历doc，获取每一页
    for page in doc:
        try:
            img_count += 1
            lstImage = list(page.get_images())
            # 取第一个元组
            xref0 = lstImage[0]
            # 元组转化为列表
            xref1 = list(xref0)
            # 最终取得xref
            xref = xref1[0]
            # 获取文件扩展名，图片内容 等信息
            img = doc.extract_image(xref)
            # 合成最终图像完整路径名
            imageFilename = os.path.join(
                save_dir,
                pdf_name + "_" +
                ("%s-%s." % (img_count, xref) + img["ext"])
            )

            # 存储图片
            with open(imageFilename, mode="wb") as file_obj:
                file_obj.write(img["image"])

        except Exception as err:
            _ = err
            continue
    return img_count


def run(path: Path, save_dir: Path):
    ''' 从pdf中提取图片

    Args:
        `path`: pdf的路径
        `save_dir`: 图片保存的路径

    Return:

    '''
    # 开始时间
    start_time = time.time()
    # 分离出文件名和路径
    pdfsplit = os.path.split(path)
    # 获取文件名
    pdfname = pdfsplit[-1]
    pdfsplit1 = os.path.splitext(pdfname)
    # 获取不带扩展名的文件名
    pdf_name = pdfsplit1[0]

    # 文档对象
    with fitz.Document(path) as doc:
        # 图片计数
        img_count = 0
        # 获取pdf文件对象总数
        lenXREF = doc.xref_length()
        # 打印PDF的信息
        print(f"\n文件名:{path}, 页数: {len(doc)}, 对象: {lenXREF - 1}")
        img_count = doc_to_img(doc, img_count, pdf_name, save_dir)

    # 结束时间
    end_time = time.time()
    print(f"运行时间:{end_time - start_time}s")
    print(f"提取了{img_count}张图片\n-------------------")


def read_pdf_dir() -> list:
    """读取pdf所在目录

    Args:

    Return:
        返回所有 PDF 目录
    """
    pdf_dir: Path = Path(__file__).parent / "res-pdf"
    pdf_list = [_ for _ in pdf_dir.glob("*.pdf")]
    return pdf_list


def create_pdf_imgs_dir(pdf_loads: list):
    """为每一个PDF创建一个图集

    Args:
        `pdf_loads`: pdf 文件路径

    Return:
        生成器返回当前PDF的路径
    """
    for pdf_local in pdf_loads:
        pdf_dir = Path(str(pdf_local).strip(".pdf"))
        if not pdf_dir.exists():
            pdf_dir.mkdir()
        yield pdf_local, pdf_dir


if __name__ == "__main__":
    """
        1. 请创建一个名为 res-pdf 的文件夹
        2. 将需要提取的 pdf 放在其中
        3. 运行程序
    """
    dirs = read_pdf_dir()
    # 遍历创建图片集
    for load_info in create_pdf_imgs_dir(dirs):
        run(load_info[0], load_info[1])

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133

执行如下：
在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/article/detail/51639

Python 实现 PDF 提取所有图片_python提取pdf中图形信息

前言

目录

一、安装

二、完整代码