Python实现文字pdf转换图片pdf效果


Posted in Python onApril 03, 2022

前言

为什么会做这个?

因为我们把word转化为pdf,wps默认转化为文字pdf,而图片pdf要会员。

网上确实也有网站可以实现免费的,但是未必安全。

思路

我看了网上的很多代码,都是先把文字pdf先转化为图片,然后再组装成pdf文档。我的思路也是这样的。

但是我和他们很大的不一样就是,我不需要先把图片保存起来再提取,而我只需要把图片的信息先存起来,再输出pdf。

代码展示

先安装依赖

pip install PyMuPDF

输入文件列表

import os
import fitz


def single_wordpdf_to_imgpdf(pdf_path: str):
    pdf = fitz.open(pdf_path)   # 打开pdf目录
    pdf_img = fitz.open()       # 打开空文件,用来存图片pdf
    for page_inf in pdf:
        definition = 3    # 清晰度,感觉输出的pdf不够清晰,可以调大,调大,文件大小也会变大
        matrix = fitz.Matrix(definition, definition)
        img = page_inf.get_pixmap(matrix=matrix).tobytes()
        img = fitz.open("png", img)
        pdf_bytes = img.convert_to_pdf()
        pdf_img.insert_pdf(fitz.open("pdf", pdf_bytes))
    pdf_img.save("图片pdf_" + os.path.basename(pdf_path))


def group_wordpdf_to_imgpdf(path_array: list[str]):
    for pdf_path in path_array:
        print(pdf_path, "转换中...")
        single_wordpdf_to_imgpdf(pdf_path)
    print("完成")


if __name__ == '__main__':
    path = ["xxx.pdf"]
    group_wordpdf_to_imgpdf(path)

输入文件夹

import os
import fitz
import time


def single_wordpdf_to_imgpdf(pdf_path: str):
    pdf = fitz.open(pdf_path)   # 打开pdf目录
    pdf_img = fitz.open()       # 打开空文件,用来存图片pdf
    for page_inf in pdf:
        definition = 3    # 清晰度,感觉输出的pdf不够清晰,可以调大,调大,文件大小也会变大
        matrix = fitz.Matrix(definition, definition)
        img = page_inf.get_pixmap(matrix=matrix).tobytes()
        img = fitz.open("png", img)
        pdf_bytes = img.convert_to_pdf()
        pdf_img.insert_pdf(fitz.open("pdf", pdf_bytes))
    if not os.path.exists("output"):
        os.makedirs("output") # 处理好的pdf存入了output目录下 #
    pdf_img.save("output/图片pdf_" + os.path.basename(pdf_path))


def group_wordpdf_to_imgpdf(path_array: list[str]):
    for pdf_path in path_array:
        print(pdf_path, "转换中...")
        single_wordpdf_to_imgpdf(pdf_path)
    print("完成")


def folder_pdf_files(folder: str) -> list[str]:  # 一个文件夹里面有多少pdf文件
    file_list = []
    for a, b, c in os.walk(folder):
        if b == []:
            for filename in c:
                if filename[-3:].lower() == 'pdf':
                    file_path = os.path.join(a, filename)
                    file_list.append(file_path)
    print(folder, ": 有", len(file_list), "个pdf文件")
    return file_list


if __name__ == '__main__':
    time_start = time.time()
    path_list = folder_pdf_files("目录")
    group_wordpdf_to_imgpdf(path_list)
    time_end = time.time()
    print("程序运行时间:", round(time_end - time_start, 2), "秒")

到此这篇关于Python实现文字pdf转换图片pdf效果的文章就介绍到这了,更多相关Python 文字pdf转图片pdf内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
零基础写python爬虫之神器正则表达式
Nov 06 Python
在Python中使用CasperJS获取JS渲染生成的HTML内容的教程
Apr 09 Python
修改Python的pyxmpp2中的主循环使其提高性能
Apr 24 Python
Python cookbook(数据结构与算法)从任意长度的可迭代对象中分解元素操作示例
Feb 13 Python
python 匹配url中是否存在IP地址的方法
Jun 04 Python
Pyqt5 实现跳转界面并关闭当前界面的方法
Jun 19 Python
Python:Numpy 求平均向量的实例
Jun 29 Python
numpy np.newaxis 的实用分享
Nov 30 Python
解决jupyter notebook import error但是命令提示符import正常的问题
Apr 15 Python
浅谈python opencv对图像颜色通道进行加减操作溢出
Jun 03 Python
python批量处理多DNS多域名的nslookup解析实现
Jun 28 Python
Python实现钉钉/企业微信自动打卡的示例代码
Feb 02 Python
python 实现图片特效处理
教你使用Python获取QQ音乐某个歌手的歌单
Python os和os.path模块详情
如何通过一篇文章了解Python中的生成器
Python pyecharts绘制条形图详解
Python OpenCV超详细讲解读取图像视频和网络摄像头
基于Python实现股票收益率分析
You might like
php调用nginx的mod_zip模块打包ZIP文件
2014/06/11 PHP
mysql desc(DESCRIBE)命令实例讲解
2016/09/24 PHP
javascript禁用键盘功能键让右击及其他键无效
2013/10/09 Javascript
IE6已终止操作问题的2种情况及解决
2014/04/23 Javascript
JavaScript实现鼠标滑过图片变换效果的方法
2015/04/16 Javascript
纯js模拟div层弹性运动的方法
2015/07/27 Javascript
纯js代码实现简单计算器
2015/12/02 Javascript
基于bootstrap按钮式下拉菜单组件的搜索建议插件
2017/03/25 Javascript
JS实现仿UC浏览器前进后退效果的实例代码
2017/07/17 Javascript
js保留两位小数方法总结
2018/01/31 Javascript
JQuery实现ajax请求的示例和注意事项
2018/12/10 jQuery
Vue动态创建注册component的实例代码
2019/06/14 Javascript
vue之组件内监控$store中定义变量的变化详解
2019/11/08 Javascript
Python实现微信公众平台自定义菜单实例
2015/03/20 Python
浅谈Python 集合(set)类型的操作——并交差
2016/06/30 Python
Python selenium 三种等待方式详解(必会)
2016/09/15 Python
Python使用plotly绘制数据图表的方法
2017/07/18 Python
基于python list对象中嵌套元组使用sort时的排序方法
2018/04/18 Python
在Python中实现替换字符串中的子串的示例
2018/10/31 Python
Python minidom模块用法示例【DOM写入和解析XML】
2019/03/25 Python
详解PANDAS 数据合并与重塑(join/merge篇)
2019/07/09 Python
python移位运算的实现
2019/07/15 Python
浅谈matplotlib.pyplot与axes的关系
2020/03/06 Python
美国知名的时尚购物网站:Anthropologie
2016/12/22 全球购物
印度最大的网上花店:Ferns N Petals(鲜花、礼品和蛋糕)
2017/10/16 全球购物
美国的Eastbay旗下的运动款子品牌:Final-Score
2018/01/01 全球购物
NBA欧洲商店(英国):NBA Europe Store UK
2018/07/27 全球购物
关于礼仪的演讲稿
2014/01/04 职场文书
演讲稿开场白
2014/01/13 职场文书
雷锋式好少年事迹材料
2014/08/17 职场文书
大学生个人总结范文
2015/02/15 职场文书
电子商务专业求职信范文
2015/03/19 职场文书
迁徙的鸟观后感
2015/06/09 职场文书
志愿服务心得体会
2016/01/15 职场文书
python实现黄金分割法的示例代码
2021/04/28 Python
SpringBoot集成Druid连接池连接MySQL8.0.11
2021/07/02 Java/Android