python 将html转换为pdf的几种方法


Posted in Python onDecember 29, 2020

将 HTML 网页转换为 PDF 是很多人常见的一个需求,在浏览器上,我们可以通过浏览器的“打印”功能直接将网页打印输出为 PDF。

但是如果有多个网页就不好办了。

二进制软件

网络上存在很多将 HTML 转换为 PDF 的软件和工具。比较著名的有 Carelib、wkhtmltopdf。

whtmltopdf

wkhtmltopdf 真是一个优秀的 HTML 转换 PDF 工具。其借助 Qt 的 WebKit 渲染引擎,将 HTML 文档渲染导出为 PDF 文档或图像。

python 将html转换为pdf的几种方法

功能十分完善,但是由于使用的渲染引擎是 Qt 的 WebKit,其没法对 ES6 的 JavaScript 代码提供支持,导致一些采用 ES6 编写的 HTML 页面渲染不出实际的效果来,导致州的先生最终放弃了它。

Carelib

Carelib 是一个电子书管理软件,其中提供了各类文档的转换工具,所以可以借助其电子书转换工具来实现 HTMl 到 PDF 的转换。

这些都是用于桌面环境的二进制软件,如果要在 Python 中使用,要么使用 Popen() 方法调用这些二进制软件的命令,要么使用一些第三方的封装模块,比如:pdfkit、pypandoc 等,这些第三方模块通过集成调用上述二进制软件,封装了一些方便 Python 调用的接口。

纯 Python 库实现

上面介绍的那些 Python 第三方模块虽然可以很好的进行 HTML 到 PDF 的转换工作,但是都需要额外在计算机上安装其他的二进制软件,很多小伙伴并不喜欢这种调用方式。

不依赖于二进制软件的实现,有如下的方案:

xhtml2pdf

这是一个基于 ReportLab、html5lib、PyPDF2 等 Python 模块构建的 HTML 到 PDF 转换模块。能够很好的支持 HTML5 、CSS2.1 和部分 CSS3 语法。

因为是基于 Report Lab 模块进行的开发,其对中文的支持在某些环境下会有问题。而且由于开发人员的变更,模块的功能出现了一些断层。但是仍然是一个非常棒的 HTML 转 PDF 模块。

weasyprint

这是一个用于 HTML 和 CSS 的可视化渲染引擎,可以将 HTML 文档导出为打印标准的 PDF 文件。

xhtml2pdf 模块也曾推荐使用这个模块来进行 HTML 转换 PDF 的工作。

这个模块功能很强大、效果很出色,但是,模块的依赖项太多了:

python 将html转换为pdf的几种方法

州的先生至今没有在 Windows 电脑上安装成功过!

浏览器方案

在上述两种方案中,二进制程序的可控制性稍有不足,而纯 Python 实现的渲染解析则在功能上和依赖上不是有友好。

处理上述两种方案,我们还能采用第三种方式进行 HTMl 到 PDF 的转换。那就是借助 Web 自动化测试的浏览器内核和 Qt for Python 的 Web 引擎 来实现。

Web 自动化的浏览器内核

使用 Python 的小伙伴经常会使用 Selenium、pyppeteer 这两个 Web 自动化测试的模块来进行数据采集和 Web 自动化测试工作。

这两个模块都是用来驱动一个真实的浏览器来进行网页的操作。正是基于此,我们可以调用浏览器中打印相关的 API 接口,来实现 HTML 转 PDF 的功能。

例如,在 pyppeteer 中可以按照下面示例的方式,打开一个 HTML 文档,然后将其转换为 PDF 文档:

python 将html转换为pdf的几种方法

Qt 的 Web 引擎

在 Qt5 中,Qt 使用新的 Chromium 内核代替了老旧的 WebKit 作为 Web 的渲染引擎。使得在 Qt 中进行可以现代化的浏览器开发。

借助于 Qt 的 Python 实现(PyQt5 系列 和 PySide2 系列),我们可以直接调用 Qt 中的 Web 引擎相关的接口。

其中 QtWebEngineWidgets 子模块中的 QWebEngineView() 类提供了 printToPdf 方法供我们将网页打印为 PDF 文档,所以基于此,我们也可以使用 PyQt5 或 PySide2 进行 HTML 转换 PDF,示例如下所示:

python 将html转换为pdf的几种方法

最后

在上面,州的先生介绍了 3 种在 Python 中转换 HTML 文档为 PDF 文档的方案,每种方案都有各自的优势和不足,正确地评估自己的需求然后选择合适的方案,也能弥补其不足。

以上就是python 将html转换为pdf的几种方法的详细内容,更多关于python 将html转换为pdf的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
在Debian下配置Python+Django+Nginx+uWSGI+MySQL的教程
Apr 25 Python
分析并输出Python代码依赖的库的实现代码
Aug 09 Python
Django 跨域请求处理的示例代码
May 02 Python
Python实现全排列的打印
Aug 18 Python
kali中python版本的切换方法
Jul 11 Python
python获取Linux发行版名称
Aug 30 Python
Python Celery多队列配置代码实例
Nov 22 Python
Python实现遗传算法(二进制编码)求函数最优值方式
Feb 11 Python
python输出第n个默尼森数的实现示例
Mar 08 Python
python中查看.db文件中表格的名字及表格中的字段操作
Jul 07 Python
Django用户认证系统如何实现自定义
Nov 12 Python
Python中X[:,0]和X[:,1]的用法
May 10 Python
python实现ping命令小程序
Dec 28 #Python
如何用python 操作zookeeper
Dec 28 #Python
Pycharm在指定目录下生成文件和删除文件的实现
Dec 28 #Python
Python用Jira库来操作Jira
Dec 28 #Python
python性能测试工具locust的使用
Dec 28 #Python
Python+kivy BoxLayout布局示例代码详解
Dec 28 #Python
python字典与json转换的方法总结
Dec 28 #Python
You might like
php访问查询mysql数据的三种方法
2006/10/09 PHP
腾讯QQ php程序员面试题目整理
2010/06/08 PHP
php 数组的指针操作实现代码
2011/02/08 PHP
PHP数学运算与数据处理实例分析
2016/04/01 PHP
Yii2基于Ajax自动获取表单数据的方法
2016/08/10 PHP
一个收集图片的bookmarlet(js 刷新页面中的图片)
2010/05/27 Javascript
ExtJs GridPanel简单的增删改实现代码
2010/08/26 Javascript
javascript中获取下个月一号,是星期几
2012/06/01 Javascript
js实现快速分享功能(你的文章分享工具)
2013/06/25 Javascript
利用Keydown事件阻止用户输入实现代码
2014/03/11 Javascript
javascript实现在某个元素上阻止鼠标右键事件的方法和实例
2014/08/12 Javascript
nodejs npm package.json中文文档
2014/09/04 NodeJs
JavaScript获取Url里的参数
2014/12/18 Javascript
JavaScript Array对象详解
2016/03/01 Javascript
使用jQuery制作基础的Web图片轮播效果
2016/04/22 Javascript
javascript获取select标签选中的值
2016/06/04 Javascript
浅析Javascript的自动分号插入(ASI)机制
2016/09/29 Javascript
React-Native中禁用Navigator手势返回的示例代码
2017/09/09 Javascript
详解angular脏检查原理及伪代码实现
2018/06/08 Javascript
javascript中的offsetWidth、clientWidth、innerWidth及相关属性方法
2020/05/14 Javascript
Python中encode()方法的使用简介
2015/05/18 Python
详细介绍Python的鸭子类型
2016/09/12 Python
利用PyInstaller将python程序.py转为.exe的方法详解
2017/05/03 Python
python遍历一个目录,输出所有的文件名的实例
2018/04/23 Python
解决jupyter notebook 前面书写后面内容消失的问题
2020/04/13 Python
pyMySQL SQL语句传参问题,单个参数或多个参数说明
2020/06/06 Python
HTML5之SVG 2D入门2—图形绘制(基本形状)介绍及使用
2013/01/30 HTML / CSS
巴西女装购物网站:Eclectic
2018/04/24 全球购物
生产内勤岗位职责
2013/12/07 职场文书
怎样填写就业意向
2014/04/02 职场文书
不服从上级领导安排的检讨书
2014/09/14 职场文书
市级三好学生评语
2014/12/29 职场文书
大学军训决心书
2015/02/05 职场文书
农业项目投资意向书
2015/05/09 职场文书
Mysql如何实现不存在则插入,存在则更新
2022/03/25 MySQL
Win11 Beta 预览版 22621.575 和 22622.575更新补丁KB5016694发布(附更新内容大全)
2022/08/14 数码科技