编程 Python

python 三种方法提取pdf中的图片

Posted in Python onFebruary 07, 2021

有时我们需要将一份或者多份PDF文件中的图片提取出来，如果采取在线的网站实现的话又担心图片泄漏，手动操作又觉得麻烦，其实用Python也可以轻松搞定！
今天就跟大家系统分享几种Python提取 PDF 图片的方法。其实没有非常完美的方法，每种方法提取效率都不是百分之百，因此可以考虑用多种方法进行互补，主要将涉及：

基于 fitz 库和正则搜索提取图片
基于 pdf2image 库的两种方法提取图片

基于 fitz 库和正则搜索

fitz 是 pymupdf 的子模块，需要先用命令行安装 pymupdf：

pip install pymupdf

但注意导入时使用 import fitz 导入模块!

下面的代码就利用 fitz 库提取图片需要通过正则匹配图片元素，将模板元素转化为像素后再以图片形式写出

import fitz
import re
import os

file_path = r'C:\xxx\xxx.pdf' # PDF 文件路径
dir_path = r'C:\xxx' # 存放图片的文件夹

def pdf2image1(path, pic_path):
  checkIM = r"/Subtype(?= */Image)"
  pdf = fitz.open(path)
  lenXREF = pdf._getXrefLength()
  count = 1
  for i in range(1, lenXREF):
    text = pdf._getXrefString(i)
    isImage = re.search(checkIM, text)
    if not isImage:
      continue
    pix = fitz.Pixmap(pdf, i)
    new_name = f"img_{count}.png"
    pix.writePNG(os.path.join(pic_path, new_name))
    count += 1
    pix = None

pdf2image1(file_path, dir_path)

运行提取示例文件后结果如下：

python 三种方法提取pdf中的图片

可以看到，有一些很小的色块也被提取成图片，那么怎么过滤掉它们呢？

有一个简单的方法是通过大小过滤，pix 像素在 fitz 库中存在一个重要的方法 pix.size 可以反映像素多少，简单的色素块该值较低，可以通过设置一个阈值过滤。以阈值 10000 为例过滤：

import fitz
import re
import os

file_path = r'C:\xxx\xxx.pdf' # PDF 文件路径
dir_path = r'C:\xxx' # 存放图片的文件夹

def pdf2image1(path, pic_path):
  checkIM = r"/Subtype(?= */Image)"
  pdf = fitz.open(path)
  lenXREF = pdf._getXrefLength()
  count = 1
  for i in range(1, lenXREF):
    text = pdf._getXrefString(i)
    isImage = re.search(checkIM, text)
    if not isImage:
      continue
    pix = fitz.Pixmap(pdf, i)
    if pix.size < 10000: # 在这里添加一处判断一个循环
      continue # 不符合阈值则跳过至下
    new_name = f"img_{count}.png"
    pix.writePNG(os.path.join(pic_path, new_name))
    count += 1
    pix = None

pdf2image1(file_path, dir_path)

python 三种方法提取pdf中的图片

可以看到，全部图片都被正常提取！

基于 pdf2image 库的两种方法

一看名字就知道这个库的用处了，官方文档为https://www.cnpython.com/pypi/pdf2image

可以简单通过 pip install pdf2image 安装，但poppler才是真正起做用的转换器，因此需要额外安装和配置：

windows用户必须安装poppler for Windows，然后将bin/文件夹添加到PATH
Mac用户必须安装poppler for Mac

具体发挥作用的代码官方文档也给出了详细的说明：

python 三种方法提取pdf中的图片

那么我们就分别尝试这两种方法：

from pdf2image import convert_from_path,convert_from_bytes
import tempfile
from pdf2image.exceptions import PDFInfoNotInstalledError, PDFPageCountError, PDFSyntaxError
import os

file_path = r'C:\xxx\xxx.pdf' # PDF 文件路径
dir_path = r'C:\xxx' # 存放图片的文件夹

def pdf2image2(file_path, dir_path):
  images = convert_from_path(file_path, dpi=200)
  for image in images:
    if not os.path.exists(dir_path):
      os.makedirs(dir_path)
    image.save(file_path + f'\img_{images.index(image)}.png', 'PNG')

pdf2image2(file_path, dir_path)

可以成功提取图片。再试试第二种方法：

from pdf2image import convert_from_path,convert_from_bytes
import tempfile
from pdf2image.exceptions import PDFInfoNotInstalledError, PDFPageCountError, PDFSyntaxError
import os

file_path = r'C:\xxx\xxx.pdf' # PDF 文件路径
dir_path = r'C:\xxx' # 存放图片的文件夹

def pdf2image3(file_path, dir_path):
  images = convert_from_bytes(open(file_path, 'rb').read())
  for image in images:
    if not os.path.exists(dir_path):
      os.makedirs(dir_path)
    image.save(file_path + f'\img_{images.index(image)}.png', 'PNG')

pdf2image3(file_path, dir_path)

python 三种方法提取pdf中的图片

可以看到结果和之前一致，PDF中全部图片都被提取出来！

再补充一下。核心方法covert_from_bytes包含大量参数，可以自行修改。几个常用参数总结如下：

参数	意义
pdf_path	PDF 文档路径
dpi	图像质量（如果是学术期刊杂志常见 300dpi）
output_folder	将生成的图像写入文件夹（而不是直接写入内存）
first_page	起始转换页数
last_page	转换至哪一页
fmt	图像格式，可以指定为 png，默认为 ppm
thread_count	允许参与转换的线程数
userpw	PDF 的密码
output_file	输出文件名
poppler_path	指定 poppler 的安装路径，一开始配置好就无需指定

值得一提的是thread_count 参数，可以启动多线程会大大加快转换速度，尤其是 PDF 页面较多时。有兴趣的读者可以做尝试。

以上就是python 三种方法提取pdf中的图片的详细内容，更多关于python 提取pdf中的图片的资料请关注三水点靠木其它相关文章！

python 三种方法提取pdf中的图片

- Author -

刘早起

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python文件和目录操作函数小结

Jul 11 Python

Python获取央视节目单的实现代码

Jul 25 Python

python编程实现希尔排序

Apr 13 Python

在pycharm 中添加运行参数的操作方法

Jan 19 Python

django的auth认证，authenticate和装饰器功能详解

Jul 25 Python

基于Python实现大文件分割和命名脚本过程解析

Sep 29 Python

在django中form的label和verbose name的区别说明

May 20 Python

详解Python中的Lock和Rlock

Jan 26 Python

python可视化分析的实现(matplotlib、seaborn、ggplot2)

Feb 03 Python

Python编解码问题及文本文件处理方法详解

Jun 20 Python

python 进阶学习之python装饰器小结

Sep 04 Python

C3 线性化算法与 MRO之Python中的多继承

Oct 05 Python

Python 转移文件至云对象存储的方法

Feb 07 #Python

Python调用SMTP服务自动发送Email的实现步骤

Feb 07 #Python

Python3.9.1中使用split()的处理方法(推荐)

Feb 07 #Python

使用Python制作一个数据预处理小工具(多种操作一键完成)

Feb 07 #Python

Pandas数据分析的一些常用小技巧

Feb 07 #Python

使用python tkinter开发一个爬取B站直播弹幕工具的实现代码

Feb 07 #Python

python实现经典排序算法的示例代码

Feb 07 #Python

You might like

php批量删除超链接的实现方法

2015/10/19 PHP

PHP命名空间和自动加载类

2016/04/03 PHP

php通过header发送自定义数据方法

2018/01/18 PHP

php解决crontab定时任务不能写入文件问题的方法分析

2019/09/16 PHP

PHP pthreads v3在centos7平台下的安装与配置操作方法

2020/02/21 PHP

jquery 延迟执行实例介绍

2013/08/20 Javascript

jquery 绑定回车动作扑捉回车键触发的事件

2014/03/26 Javascript

整理Javascript基础语法学习笔记

2015/11/29 Javascript

Bootstrap复选框和单选按钮美化插件(推荐)

2016/11/23 Javascript

Javascript中关于Array.filter()的妙用详解

2016/12/04 Javascript

jQuery 判断元素整理汇总

2017/02/28 Javascript

用vue和node写的简易购物车实现

2017/04/25 Javascript

解决vue中使用Axios调用接口时出现的ie数据处理问题

2018/08/13 Javascript

微信小程序自定义波浪组件使用方法详解

2019/09/21 Javascript

BootstrapValidator实现表单验证功能

2019/11/08 Javascript

基于javascript canvas实现五子棋游戏

2020/07/08 Javascript

[55:54]FNATIC vs EG 2019国际邀请赛小组赛 BO2 第一场 8.15

2019/08/16 DOTA

新手该如何学python怎么学好python？

2008/10/07 Python

Python解析网页源代码中的115网盘链接实例

2014/09/30 Python

python获取本机mac地址和ip地址的方法

2015/04/29 Python

Python简单计算文件夹大小的方法

2015/07/14 Python

深入理解Python3中的http.client模块

2017/03/29 Python

python merge、concat合并数据集的实例讲解

2018/04/12 Python

用Python抢火车票的简单小程序实现解析

2019/08/14 Python

Python xmltodict模块安装及代码实例

2020/10/05 Python

python字符串拼接+和join的区别详解

2020/12/03 Python

HTML5高仿微信聊天、微信聊天表情|对话框|编辑器功能

2018/04/23 HTML / CSS

美国流行背包品牌：JanSport（杰斯伯）

2018/03/02 全球购物

StubHub新西兰：购买和出售你的门票

2019/04/22 全球购物

Brydge英国：适用于Apple iPad和Microsoft Surface Pro的蓝牙键盘

2019/05/16 全球购物

玩具公司的创业计划书

2013/12/31 职场文书

电钳专业个人求职信

2014/01/04 职场文书

员工考核管理制度

2014/02/02 职场文书

社区优秀志愿者先进事迹

2014/05/09 职场文书

中职三好学生事迹材料

2014/08/24 职场文书

办公室管理规章制度

2015/08/04 职场文书