python 将html转换为pdf的几种方法


Posted in Python onDecember 29, 2020

将 HTML 网页转换为 PDF 是很多人常见的一个需求,在浏览器上,我们可以通过浏览器的“打印”功能直接将网页打印输出为 PDF。

但是如果有多个网页就不好办了。

二进制软件

网络上存在很多将 HTML 转换为 PDF 的软件和工具。比较著名的有 Carelib、wkhtmltopdf。

whtmltopdf

wkhtmltopdf 真是一个优秀的 HTML 转换 PDF 工具。其借助 Qt 的 WebKit 渲染引擎,将 HTML 文档渲染导出为 PDF 文档或图像。

python 将html转换为pdf的几种方法

功能十分完善,但是由于使用的渲染引擎是 Qt 的 WebKit,其没法对 ES6 的 JavaScript 代码提供支持,导致一些采用 ES6 编写的 HTML 页面渲染不出实际的效果来,导致州的先生最终放弃了它。

Carelib

Carelib 是一个电子书管理软件,其中提供了各类文档的转换工具,所以可以借助其电子书转换工具来实现 HTMl 到 PDF 的转换。

这些都是用于桌面环境的二进制软件,如果要在 Python 中使用,要么使用 Popen() 方法调用这些二进制软件的命令,要么使用一些第三方的封装模块,比如:pdfkit、pypandoc 等,这些第三方模块通过集成调用上述二进制软件,封装了一些方便 Python 调用的接口。

纯 Python 库实现

上面介绍的那些 Python 第三方模块虽然可以很好的进行 HTML 到 PDF 的转换工作,但是都需要额外在计算机上安装其他的二进制软件,很多小伙伴并不喜欢这种调用方式。

不依赖于二进制软件的实现,有如下的方案:

xhtml2pdf

这是一个基于 ReportLab、html5lib、PyPDF2 等 Python 模块构建的 HTML 到 PDF 转换模块。能够很好的支持 HTML5 、CSS2.1 和部分 CSS3 语法。

因为是基于 Report Lab 模块进行的开发,其对中文的支持在某些环境下会有问题。而且由于开发人员的变更,模块的功能出现了一些断层。但是仍然是一个非常棒的 HTML 转 PDF 模块。

weasyprint

这是一个用于 HTML 和 CSS 的可视化渲染引擎,可以将 HTML 文档导出为打印标准的 PDF 文件。

xhtml2pdf 模块也曾推荐使用这个模块来进行 HTML 转换 PDF 的工作。

这个模块功能很强大、效果很出色,但是,模块的依赖项太多了:

python 将html转换为pdf的几种方法

州的先生至今没有在 Windows 电脑上安装成功过!

浏览器方案

在上述两种方案中,二进制程序的可控制性稍有不足,而纯 Python 实现的渲染解析则在功能上和依赖上不是有友好。

处理上述两种方案,我们还能采用第三种方式进行 HTMl 到 PDF 的转换。那就是借助 Web 自动化测试的浏览器内核和 Qt for Python 的 Web 引擎 来实现。

Web 自动化的浏览器内核

使用 Python 的小伙伴经常会使用 Selenium、pyppeteer 这两个 Web 自动化测试的模块来进行数据采集和 Web 自动化测试工作。

这两个模块都是用来驱动一个真实的浏览器来进行网页的操作。正是基于此,我们可以调用浏览器中打印相关的 API 接口,来实现 HTML 转 PDF 的功能。

例如,在 pyppeteer 中可以按照下面示例的方式,打开一个 HTML 文档,然后将其转换为 PDF 文档:

python 将html转换为pdf的几种方法

Qt 的 Web 引擎

在 Qt5 中,Qt 使用新的 Chromium 内核代替了老旧的 WebKit 作为 Web 的渲染引擎。使得在 Qt 中进行可以现代化的浏览器开发。

借助于 Qt 的 Python 实现(PyQt5 系列 和 PySide2 系列),我们可以直接调用 Qt 中的 Web 引擎相关的接口。

其中 QtWebEngineWidgets 子模块中的 QWebEngineView() 类提供了 printToPdf 方法供我们将网页打印为 PDF 文档,所以基于此,我们也可以使用 PyQt5 或 PySide2 进行 HTML 转换 PDF,示例如下所示:

python 将html转换为pdf的几种方法

最后

在上面,州的先生介绍了 3 种在 Python 中转换 HTML 文档为 PDF 文档的方案,每种方案都有各自的优势和不足,正确地评估自己的需求然后选择合适的方案,也能弥补其不足。

以上就是python 将html转换为pdf的几种方法的详细内容,更多关于python 将html转换为pdf的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python实现微信公众平台自定义菜单实例
Mar 20 Python
深入讨论Python函数的参数的默认值所引发的问题的原因
Mar 30 Python
python关闭windows进程的方法
Apr 18 Python
使用Python读写文本文件及编写简单的文本编辑器
Mar 11 Python
python使用rpc框架gRPC的方法
Aug 24 Python
PyCharm+Qt Designer+PyUIC安装配置教程详解
Jun 13 Python
Python3+Appium安装使用教程
Jul 05 Python
python使用Matplotlib改变坐标轴的默认位置
Oct 18 Python
python从zip中删除指定后缀文件(推荐)
Dec 05 Python
Python 去除字符串中指定字符串
Mar 05 Python
Python+PyQt5+MySQL实现天气管理系统
Jun 16 Python
Python中OpenCV实现查找轮廓的实例
Jun 08 Python
python实现ping命令小程序
Dec 28 #Python
如何用python 操作zookeeper
Dec 28 #Python
Pycharm在指定目录下生成文件和删除文件的实现
Dec 28 #Python
Python用Jira库来操作Jira
Dec 28 #Python
python性能测试工具locust的使用
Dec 28 #Python
Python+kivy BoxLayout布局示例代码详解
Dec 28 #Python
python字典与json转换的方法总结
Dec 28 #Python
You might like
如何选购合适的收音机
2021/03/01 无线电
php文件服务实现虚拟挂载其他目录示例
2014/04/17 PHP
Laravel 5框架学习之子视图和表单复用
2015/04/09 PHP
php中header跳转使用include包含解决参数丢失问题
2015/05/08 PHP
laravel中的一些简单实用功能
2018/11/03 PHP
Laravel框架实现多数据库连接操作详解
2019/07/12 PHP
使用Modello编写JavaScript类
2006/12/22 Javascript
用js实现层随着内容大小动态渐变改变 推荐
2009/12/19 Javascript
javascript 构建一个xmlhttp对象池合理创建和使用xmlhttp对象
2010/01/15 Javascript
JQuery Study Notes 学习笔记(一)
2010/08/04 Javascript
html+css+js实现xp window界面及有关功能
2013/03/26 Javascript
理解Javascript闭包
2013/11/01 Javascript
JS小游戏之仙剑翻牌源码详解
2014/09/25 Javascript
jquery插件splitScren实现页面分屏切换模板特效
2015/06/16 Javascript
举例讲解Node.js中的Writable对象
2015/07/29 Javascript
Vue.js组件tree实现省市多级联动
2016/12/02 Javascript
jQuery 选择符详细介绍及整理
2016/12/02 Javascript
jQuery插件FusionCharts绘制ScrollColumn2D图效果示例【附demo源码下载】
2017/03/22 jQuery
Nodejs中怎么实现函数的串行执行
2019/03/02 NodeJs
vue组件三大核心概念图文详解
2019/05/30 Javascript
JavaScript交换两个变量方法实例
2019/11/25 Javascript
Vue实现点击当前元素以外的地方隐藏当前元素(实现思路)
2019/12/04 Javascript
Vue使用Proxy代理后仍无法生效的解决
2020/11/13 Javascript
python实现将英文单词表示的数字转换成阿拉伯数字的方法
2015/07/02 Python
举例讲解Python中的迭代器、生成器与列表解析用法
2016/03/20 Python
python实现ID3决策树算法
2017/12/20 Python
Python图像处理实现两幅图像合成一幅图像的方法【测试可用】
2019/01/04 Python
python 获取计算机的网卡信息
2021/02/18 Python
html5 初试 indexedDB(推荐)
2016/07/21 HTML / CSS
澳大利亚网上玩具商店:Mr Toys Toyworld
2018/03/25 全球购物
EJB的基本架构
2016/09/22 面试题
AssertionError 跟一下那个类是 “is – a”的关系
2012/02/21 面试题
幼儿园新学期寄语
2014/01/18 职场文书
《中国的气候》教学反思
2014/02/23 职场文书
观看《信仰》心得体会
2016/01/15 职场文书
PostgreSQL并行计算算法及参数强制并行度设置方法
2022/04/06 PostgreSQL