python如何导出微信公众号文章方法详解


Posted in Python onAugust 31, 2020

python如何导出微信公众号文章方法详解

1.安装wkhtmltopdf

下载地址:https://wkhtmltopdf.org/downloads.html

我测试用的是windows的,下载安装后结果如下

python如何导出微信公众号文章方法详解

2 编写python 代码导出微信公众号文章

不能直接使用wkhtmltopdf 导出微信公众号文章,导出的文章会缺失图片,所以需要使用 wechatsogou 将微信公众号文章页面抓取,之后将html文本转化为pdf

pip install wechatsogou --upgrade

pip install pdfkit

踩坑!!!,看了很多人的代码,都是一个模板,大家都是抄来抄去,结果还是运行不了,可能是因为依赖包更新的原因,也可能是因为我本地没有配置wkhtmltopdf 的环境变量

import os
import pdfkit
import datetime
import wechatsogou
# 初始化API
ws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3)
def url2pdf(url, title, targetPath):
 '''
 使用pdfkit生成pdf文件
 :param url: 文章url
 :param title: 文章标题
 :param targetPath: 存储pdf文件的路径
 '''
 try:
 content_info = ws_api.get_article_content(url)
 except:
 return False
 # 处理后的html
 html = f'''
{title}
 {content_info['content_html']}
 
 '''
 try:
 path_wk="E:/softwareAPP/wkhtmltopdf/bin/wkhtmltopdf.exe";
 config=pdfkit.configuration(wkhtmltopdf=path_wk)
 pdfkit.from_string(input=html, output_path=targetPath,configuration=config)
 except:
 # 部分文章标题含特殊字符,不能作为文件名
 filename = datetime.datetime.now().strftime('%Y%m%d%H%M%S') + '.pdf'
 pdfkit.from_string(html, targetPath + os.path.sep + filename)
 
if __name__ == '__main__':
 # 此处为要爬取公众号的名称
 url2pdf("https://mp.weixin.qq.com/s/wwT5n2JwEEAkrrmOhedziw", "HBase的系统架构全视角解读","G:/test/hbase文档.pdf" )
 # gzh_name = ''
 # # 如果不存在目标文件夹就进行创建
 # if not os.path.exists(targetPath):
 # os.makedirs(targetPath)
 # # 将该公众号最近10篇文章信息以字典形式返回
 # data = ws_api.get_gzh_article_by_history(gzh_name)
 # article_list = data['article']
 # for article in article_list:
 # url = article['content_url']
 # title = article['title']
 # url2pdf(url, title, targetPath)

到此这篇关于python如何导出微信公众号文章方法详解的文章就介绍到这了,更多相关python导出微信公众号文章内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python二叉树的实现实例
Nov 21 Python
github配置使用指南
Nov 18 Python
Python获取网页上图片下载地址的方法
Mar 11 Python
Python简单读写Xls格式文档的方法示例
Aug 17 Python
python爬虫 批量下载zabbix文档代码实例
Aug 21 Python
自适应线性神经网络Adaline的python实现详解
Sep 30 Python
python集合常见运算案例解析
Oct 17 Python
基于Python实现扑克牌面试题
Dec 11 Python
Python图像处理库PIL的ImageGrab模块介绍详解
Feb 26 Python
jupyter notebook oepncv 显示一张图像的实现
Apr 24 Python
浅谈Python中threading join和setDaemon用法及区别说明
May 02 Python
Python中常见的数制转换有哪些
May 27 Python
Python生成并下载文件后端代码实例
Aug 31 #Python
python exit出错原因整理
Aug 31 #Python
Python如何将模块打包并发布
Aug 30 #Python
如何以Winsows Service方式运行JupyterLab
Aug 30 #Python
selenium切换标签页解决get超时问题的完整代码
Aug 30 #Python
五分钟带你搞懂python 迭代器与生成器
Aug 30 #Python
python开根号实例讲解
Aug 30 #Python
You might like
PHP_Flame(Version:Progress)的原代码
2006/10/09 PHP
php微信公众开发之获取周边酒店信息的方法
2014/12/22 PHP
PHP实现原生态图片上传封装类方法
2016/11/08 PHP
jquery异步调用页面后台方法‏(asp.net)
2011/03/01 Javascript
JavaScript高级程序设计(第3版)学习笔记3 js简单数据类型
2012/10/11 Javascript
js的匿名函数使用介绍
2013/12/11 Javascript
nodejs读取memcache示例分享
2014/01/02 NodeJs
JS如何判断是否为ie浏览器的方法(包括IE10、IE11在内)
2015/12/13 Javascript
详解JS中的快速排序与冒泡
2017/01/10 Javascript
vue2 前后端分离项目ajax跨域session问题解决方法
2017/04/27 Javascript
xmlplus组件设计系列之下拉刷新(PullRefresh)(6)
2017/05/03 Javascript
vue对storejs获取的数据进行处理时遇到的几种问题小结
2018/03/20 Javascript
vue2.0项目实现路由跳转的方法详解
2018/06/21 Javascript
vue.js2.0 实现better-scroll的滚动效果实例详解
2018/08/13 Javascript
移动端H5页面返回并刷新页面(BFcache)的方法
2018/11/06 Javascript
Vue.use()在new Vue() 之前使用的原因浅析
2019/08/26 Javascript
layui 对table中的数据进行转义的实例
2019/09/12 Javascript
基于vue和bootstrap实现简单留言板功能
2020/05/30 Javascript
在Python的gevent框架下执行异步的Solr查询的教程
2015/04/16 Python
举例讲解Python设计模式编程的代理模式与抽象工厂模式
2016/01/16 Python
Python 两个列表的差集、并集和交集实现代码
2016/09/21 Python
Python的CGIHTTPServer交互实现详解
2018/02/08 Python
python PyTorch预训练示例
2018/02/11 Python
详解python中的Turtle函数库
2018/11/19 Python
Python列表对象实现原理详解
2019/07/01 Python
Python实现删除某列中含有空值的行的示例代码
2020/07/20 Python
基于python实现坦克大战游戏
2020/10/27 Python
印度最大的酒店品牌网络:OYO Rooms
2016/07/24 全球购物
瑜伽灵感珠宝:Satya Jewelry
2018/01/06 全球购物
师范应届生求职信
2013/11/15 职场文书
政治表现评语
2014/05/04 职场文书
2015年元旦主持词结束语
2014/12/14 职场文书
行政人事主管岗位职责
2015/04/11 职场文书
三国演义读书笔记
2015/06/25 职场文书
开业庆典致辞
2015/08/01 职场文书
java设计模式--建造者模式详解
2021/07/21 Java/Android