编程 Python

Python实现将HTML转成PDF的方法分析

Posted in Python onMay 04, 2019

本文实例讲述了Python实现将HTML转成PDF的方法。分享给大家供大家参考，具体如下：

主要使用的是wkhtmltopdf的Python封装——pdfkit

安装

1. Install python-pdfkit:

$ pip install pdfkit

2. Install wkhtmltopdf:

Debian/Ubuntu:

$ sudo apt-get install wkhtmltopdf

Redhat/CentOS

sudo yum intsall wkhtmltopdf

MacOS

brew install Caskroom/cask/wkhtmltopdf

使用

一个简单的例子:

import pdfkit
pdfkit.from_url('http://google.com', 'out.pdf')
pdfkit.from_file('test.html', 'out.pdf')
pdfkit.from_string('Hello!', 'out.pdf')

你也可以传递一个url或者文件名列表:

pdfkit.from_url(['google.com', 'yandex.ru', 'engadget.com'], 'out.pdf')
pdfkit.from_file(['file1.html', 'file2.html'], 'out.pdf')

也可以传递一个打开的文件:

with open('file.html') as f:
  pdfkit.from_file(f, 'out.pdf')

如果你想对生成的PDF作进一步处理，你可以将其读取到一个变量中:

# 设置输出文件为False，将结果赋给一个变量
pdf = pdfkit.from_url('http://google.com', False)

你可以制定所有的 wkhtmltopdf 选项 <http://wkhtmltopdf.org/usage/wkhtmltopdf.txt>. 你可以移除选项名字前面的 '--' .如果选项没有值, 使用None, Falseor * 作为字典值:

options = {
    'page-size': 'Letter',
    'margin-top': '0.75in',
    'margin-right': '0.75in',
    'margin-bottom': '0.75in',
    'margin-left': '0.75in',
    'encoding': "UTF-8",
    'no-outline': None
  }
  pdfkit.from_url('http://google.com', 'out.pdf', options=options)

默认情况下, PDFKit 将会显示所有的 wkhtmltopdf 输出. 如果你不想看到这些信息，你需要传递一个 quiet 选项:

options = {
    'quiet': ''
    }
  pdfkit.from_url('google.com', 'out.pdf', options=options)

由于wkhtmltopdf的命令语法 , TOC 和 Cover 选项必须分开指定:

toc = {
    'xsl-style-sheet': 'toc.xsl'
  }
  cover = 'cover.html'
  pdfkit.from_file('file.html', options=options, toc=toc, cover=cover)

当你转换文件、或字符串的时候，你可以通过css选项指定扩展的 CSS 文件。

# 单个 CSS 文件
  css = 'example.css'
  pdfkit.from_file('file.html', options=options, css=css)
  # Multiple CSS files
  css = ['example.css', 'example2.css']
  pdfkit.from_file('file.html', options=options, css=css)

你也可以通过你的HTML中的meta tags传递任意选项：

body = """
    <html>
     <head>
      <meta name="pdfkit-page-size" content="Legal"/>
      <meta name="pdfkit-orientation" content="Landscape"/>
     </head>
     Hello World!
     </html>
    """
  pdfkit.from_string(body, 'out.pdf') #with --page-size=Legal and --orientation=Landscape

配置

每个API调用都有一个可选的参数。这应该是pdfkit.configuration()API 调用的一个实例. 采用configuration 选项作为初始化参数。可用的选项有:

wkhtmltopdf ——wkhtmltopdf二进制文件所在的位置。默认情况下pdfkit 会尝试使用which (在类UNIX系统中) 或 where (在Windows系统中)来判断.
meta_tag_prefix -- pdfkit的前缀指定 meta tags（元标签） - 默认情况是pdfkit-

示例：针对wkhtmltopdf不在系统路径中（不在$PATH里面）:

config = pdfkit.configuration(wkhtmltopdf='/opt/bin/wkhtmltopdf'))
pdfkit.from_string(html_string, output_file, configuration=config)

问题

IOError: 'No wkhtmltopdf executable found':

确保 wkhtmltopdf 在你的系统路径中（$PATH），会通过 configuration进行了配置 (详情看上文描述)。在Windows系统中使用where wkhtmltopdf命令或在 linux系统中使用 which wkhtmltopdf 会返回 wkhtmltopdf二进制可执行文件所在的确切位置.

IOError: 'Command Failed'

如果出现这个错误意味着 PDFKit不能处理一个输入。你可以尝试直接在错误信息后面直接运行一个命令来查看是什么导致了这个错误（某些版本的 wkhtmltopdf会因为段错误导致处理失败）

正常生成，但是出现中文乱码

确保两项：

1）、你的系统中有中文字体

2）、在html中加入<meta charset="UTF-8">

下面是我随便写的一个HTML表格：

<html>
<head><meta charset="UTF-8"></head>
<body>
<table width="400" border="1">
 <tr>
 <th align="left">Item....</th>
 <th align="right">1</th>
 </tr>
 <tr>
 <td align="left">衣服</td>
 <td align="right">$241.10</td>
 </tr>
 <tr>
 <td align="left">化妆品</td>
 <td align="right">$30.00</td>
 </tr>
 <tr>
 <td align="left">食物</td>
 <td align="right">$730.40</td>
 </tr>
 <tr>
 <th align="left">tOTAL</th>
 <th align="right">$1001.50</th>
 </tr>
</table>
</body>
</html>

下面是生成的PDF截图

Python实现将HTML转成PDF的方法分析

另：https://pdfcrowd.com/#convert_by_input

更多Python相关内容感兴趣的读者可查看本站专题：《Python文件与目录操作技巧汇总》、《Python编码操作技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

Python实现将HTML转成PDF的方法分析

- Author -

Tacey Wong

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

利用python获得时间的实例说明

Mar 25 Python

使用Python下载Bing图片（代码）

Nov 07 Python

手动实现把python项目发布为exe可执行程序过程分享

Oct 23 Python

Python的装饰器模式与面向切面编程详解

Jun 21 Python

将Django项目部署到CentOs服务器中

Oct 18 Python

python+pyqt5实现KFC点餐收银系统

Jan 24 Python

python实践项目之监控当前联网状态详情

May 23 Python

python paramiko远程服务器终端操作过程解析

Dec 14 Python

Python3.7安装pyaudio教程解析

Jul 24 Python

Python爬取12306车次信息代码详解

Aug 12 Python

python tkinter实现连连看游戏

Nov 16 Python

VSCode中autopep8无法运行问题解决方案(提示Error: Command failed，usage)

Mar 02 Python

Python第三方库face_recognition在windows上的安装过程

May 03 #Python

Python人脸识别第三方库face_recognition接口说明文档

May 03 #Python

Python使用到第三方库PyMuPDF图片与pdf相互转换

May 03 #Python

利用python将图片版PDF转文字版PDF

May 03 #Python

Python3.0中普通方法、类方法和静态方法的比较

May 03 #Python

Python Flask框架模板操作实例分析

May 03 #Python

Python Flask框架扩展操作示例

May 03 #Python

You might like

浅谈php中mysql与mysqli的区别分析

2013/06/10 PHP

PHP不用递归遍历目录下所有文件的代码

2014/07/04 PHP

PHP针对JSON操作实例分析

2015/01/12 PHP

PHP单态模式简单用法示例

2016/11/16 PHP

在 Laravel 项目中使用 webpack-encore的方法

2019/07/21 PHP

Expandable "Detail" Table Rows

2007/08/29 Javascript

图片无缝滚动代码(向左/向下/向上)

2013/04/10 Javascript

JavaScript中的立即执行函数表达式介绍

2015/03/15 Javascript

jQuery里filter()函数与find()函数用法分析

2015/06/24 Javascript

JavaScript拖拽、碰撞、重力及弹性运动实例分析

2016/01/08 Javascript

JavaScript的ExtJS框架中表格的编写教程

2016/05/21 Javascript

Vue.js通用应用框架-Nuxt.js的上手教程

2017/12/25 Javascript

JavaScript常用数组操作方法,包含ES6方法

2020/05/10 Javascript

jQuery实现点击图标div循环放大缩小功能

2018/09/30 jQuery

说说Vuex的getters属性的具体用法

2019/04/15 Javascript

基于Vue 撸一个指令实现拖拽功能

2019/10/09 Javascript

[22:20]初生之犊-TI4第5名LGD战队纪录片

2014/08/13 DOTA

[01:08:30]DOTA2-DPC中国联赛正赛 Ehome vs Elephant BO3 第一场 2月28日

2021/03/11 DOTA

教你安装python Django（图文）

2013/11/04 Python

Python中的getopt函数使用详解

2015/07/28 Python

Java多线程编程中ThreadLocal类的用法及深入

2016/06/21 Python

python学习开发mock接口

2019/04/28 Python

Python多进程入门、分布式进程数据共享实例详解

2019/06/03 Python

关于Python内存分配时的小秘密分享

2019/09/05 Python

Python中itertools的用法详解

2020/02/07 Python

浅谈PyTorch中in-place operation的含义

2020/06/27 Python

UI自动化定位常用实现方法代码示例

2020/10/27 Python

美国地毯购买网站：Rugs USA

2019/02/23 全球购物

英国历史最悠久的DJ设备供应商：DJ Finance、DJ Warehouse、The DJ Shop

2019/09/04 全球购物

美国家庭鞋店：Shoe Sensation

2019/09/27 全球购物

J2EE相关知识面试题

2013/08/26 面试题

家长学校培训材料

2014/08/20 职场文书

灵山大佛导游词

2015/02/04 职场文书

违纪开除通知书

2015/04/25 职场文书

2015年学校总务工作总结

2015/07/20 职场文书

Python+Pillow+Pytesseract实现验证码识别

2022/05/11 Python