python 将html转换为pdf的几种方法


Posted in Python onDecember 29, 2020

将 HTML 网页转换为 PDF 是很多人常见的一个需求,在浏览器上,我们可以通过浏览器的“打印”功能直接将网页打印输出为 PDF。

但是如果有多个网页就不好办了。

二进制软件

网络上存在很多将 HTML 转换为 PDF 的软件和工具。比较著名的有 Carelib、wkhtmltopdf。

whtmltopdf

wkhtmltopdf 真是一个优秀的 HTML 转换 PDF 工具。其借助 Qt 的 WebKit 渲染引擎,将 HTML 文档渲染导出为 PDF 文档或图像。

python 将html转换为pdf的几种方法

功能十分完善,但是由于使用的渲染引擎是 Qt 的 WebKit,其没法对 ES6 的 JavaScript 代码提供支持,导致一些采用 ES6 编写的 HTML 页面渲染不出实际的效果来,导致州的先生最终放弃了它。

Carelib

Carelib 是一个电子书管理软件,其中提供了各类文档的转换工具,所以可以借助其电子书转换工具来实现 HTMl 到 PDF 的转换。

这些都是用于桌面环境的二进制软件,如果要在 Python 中使用,要么使用 Popen() 方法调用这些二进制软件的命令,要么使用一些第三方的封装模块,比如:pdfkit、pypandoc 等,这些第三方模块通过集成调用上述二进制软件,封装了一些方便 Python 调用的接口。

纯 Python 库实现

上面介绍的那些 Python 第三方模块虽然可以很好的进行 HTML 到 PDF 的转换工作,但是都需要额外在计算机上安装其他的二进制软件,很多小伙伴并不喜欢这种调用方式。

不依赖于二进制软件的实现,有如下的方案:

xhtml2pdf

这是一个基于 ReportLab、html5lib、PyPDF2 等 Python 模块构建的 HTML 到 PDF 转换模块。能够很好的支持 HTML5 、CSS2.1 和部分 CSS3 语法。

因为是基于 Report Lab 模块进行的开发,其对中文的支持在某些环境下会有问题。而且由于开发人员的变更,模块的功能出现了一些断层。但是仍然是一个非常棒的 HTML 转 PDF 模块。

weasyprint

这是一个用于 HTML 和 CSS 的可视化渲染引擎,可以将 HTML 文档导出为打印标准的 PDF 文件。

xhtml2pdf 模块也曾推荐使用这个模块来进行 HTML 转换 PDF 的工作。

这个模块功能很强大、效果很出色,但是,模块的依赖项太多了:

python 将html转换为pdf的几种方法

州的先生至今没有在 Windows 电脑上安装成功过!

浏览器方案

在上述两种方案中,二进制程序的可控制性稍有不足,而纯 Python 实现的渲染解析则在功能上和依赖上不是有友好。

处理上述两种方案,我们还能采用第三种方式进行 HTMl 到 PDF 的转换。那就是借助 Web 自动化测试的浏览器内核和 Qt for Python 的 Web 引擎 来实现。

Web 自动化的浏览器内核

使用 Python 的小伙伴经常会使用 Selenium、pyppeteer 这两个 Web 自动化测试的模块来进行数据采集和 Web 自动化测试工作。

这两个模块都是用来驱动一个真实的浏览器来进行网页的操作。正是基于此,我们可以调用浏览器中打印相关的 API 接口,来实现 HTML 转 PDF 的功能。

例如,在 pyppeteer 中可以按照下面示例的方式,打开一个 HTML 文档,然后将其转换为 PDF 文档:

python 将html转换为pdf的几种方法

Qt 的 Web 引擎

在 Qt5 中,Qt 使用新的 Chromium 内核代替了老旧的 WebKit 作为 Web 的渲染引擎。使得在 Qt 中进行可以现代化的浏览器开发。

借助于 Qt 的 Python 实现(PyQt5 系列 和 PySide2 系列),我们可以直接调用 Qt 中的 Web 引擎相关的接口。

其中 QtWebEngineWidgets 子模块中的 QWebEngineView() 类提供了 printToPdf 方法供我们将网页打印为 PDF 文档,所以基于此,我们也可以使用 PyQt5 或 PySide2 进行 HTML 转换 PDF,示例如下所示:

python 将html转换为pdf的几种方法

最后

在上面,州的先生介绍了 3 种在 Python 中转换 HTML 文档为 PDF 文档的方案,每种方案都有各自的优势和不足,正确地评估自己的需求然后选择合适的方案,也能弥补其不足。

以上就是python 将html转换为pdf的几种方法的详细内容,更多关于python 将html转换为pdf的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python中的pass语句使用方法讲解
May 14 Python
简单讲解Python中的闭包
Aug 11 Python
Python中的模块导入和读取键盘输入的方法
Oct 16 Python
Python基于sftp及rsa密匙实现远程拷贝文件的方法
Sep 21 Python
Python 绘图库 Matplotlib 入门教程
Apr 19 Python
Python在Matplotlib图中显示中文字体的操作方法
Jul 29 Python
python3.6使用SMTP协议发送邮件
May 20 Python
python 写函数在一定条件下需要调用自身时的写法说明
Jun 01 Python
Python numpy矩阵处理运算工具用法汇总
Jul 13 Python
Python爬虫之爬取某文库文档数据
Apr 21 Python
Python爬虫中urllib3与urllib的区别是什么
Jul 21 Python
python可视化分析绘制带趋势线的散点图和边缘直方图
Jun 25 Python
python实现ping命令小程序
Dec 28 #Python
如何用python 操作zookeeper
Dec 28 #Python
Pycharm在指定目录下生成文件和删除文件的实现
Dec 28 #Python
Python用Jira库来操作Jira
Dec 28 #Python
python性能测试工具locust的使用
Dec 28 #Python
Python+kivy BoxLayout布局示例代码详解
Dec 28 #Python
python字典与json转换的方法总结
Dec 28 #Python
You might like
ip签名探针
2006/10/09 PHP
FireFox浏览器使用Javascript上传大文件
2013/10/30 PHP
php实现微信企业付款到个人零钱功能
2018/10/09 PHP
javascript 打开页面window.location和window.open的区别
2010/03/17 Javascript
JS 加入收藏夹的代码(主流浏览器通用)
2013/05/13 Javascript
php的文件上传入门教程(实例讲解)
2014/04/10 Javascript
javascript将异步校验表单改写为同步表单
2015/01/27 Javascript
jQuery实现精美的多级下拉菜单特效
2015/03/14 Javascript
跟我学习javascript的var预解析与函数声明提升
2015/11/16 Javascript
JavaScript基于原型链的继承
2016/06/22 Javascript
Angularjs中ng-repeat-start与ng-repeat-end的用法实例介绍
2016/12/31 Javascript
详解从angular-cli:1.0.0-beta.28.3升级到@angular/cli:1.0.0
2017/05/22 Javascript
基于AngularJS实现的工资计算器实例
2017/06/16 Javascript
AngularJS使用ng-repeat遍历二维数组元素的方法详解
2017/11/11 Javascript
js导出Excel表格超出26位英文字符的解决方法ES6
2017/11/15 Javascript
jQuery实现checkbox的简单操作
2017/11/18 jQuery
微信小程序图片选择区域裁剪实现方法
2017/12/02 Javascript
angularjs实现对表单输入改变的监控(ng-change和watch两种方式)
2018/08/29 Javascript
ES6基础之 Promise 对象用法实例详解
2019/08/22 Javascript
Python利用operator模块实现对象的多级排序详解
2017/05/09 Python
Python面向对象之继承代码详解
2018/01/29 Python
Scrapy-Redis结合POST请求获取数据的方法示例
2019/05/07 Python
python判断所输入的任意一个正整数是否为素数的两种方法
2019/06/27 Python
Python使用monkey.patch_all()解决协程阻塞问题
2020/04/15 Python
利用CSS3实现动态的二级三级菜单效果实例源码
2017/01/04 HTML / CSS
HTML5 创建canvas元素示例代码
2014/06/04 HTML / CSS
HTML5实现可缩放时钟代码
2017/08/28 HTML / CSS
秘书专业自荐信范文
2013/12/26 职场文书
大学生职业生涯规划书前言
2014/01/09 职场文书
接受捐赠答谢词
2014/01/27 职场文书
大学毕业感言一句话
2014/02/06 职场文书
人力资源总监工作说明
2014/03/03 职场文书
应聘教师自荐信
2015/03/26 职场文书
Nginx反爬虫策略,防止UA抓取网站
2021/03/31 Servers
python脚本框架webpy的url映射详解
2021/11/20 Python
navicat 连接Ubuntu虚拟机的mysql的操作方法
2022/04/02 MySQL