python如何导出微信公众号文章方法详解


Posted in Python onAugust 31, 2020

python如何导出微信公众号文章方法详解

1.安装wkhtmltopdf

下载地址:https://wkhtmltopdf.org/downloads.html

我测试用的是windows的,下载安装后结果如下

python如何导出微信公众号文章方法详解

2 编写python 代码导出微信公众号文章

不能直接使用wkhtmltopdf 导出微信公众号文章,导出的文章会缺失图片,所以需要使用 wechatsogou 将微信公众号文章页面抓取,之后将html文本转化为pdf

pip install wechatsogou --upgrade

pip install pdfkit

踩坑!!!,看了很多人的代码,都是一个模板,大家都是抄来抄去,结果还是运行不了,可能是因为依赖包更新的原因,也可能是因为我本地没有配置wkhtmltopdf 的环境变量

import os
import pdfkit
import datetime
import wechatsogou
# 初始化API
ws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3)
def url2pdf(url, title, targetPath):
 '''
 使用pdfkit生成pdf文件
 :param url: 文章url
 :param title: 文章标题
 :param targetPath: 存储pdf文件的路径
 '''
 try:
 content_info = ws_api.get_article_content(url)
 except:
 return False
 # 处理后的html
 html = f'''
{title}
 {content_info['content_html']}
 
 '''
 try:
 path_wk="E:/softwareAPP/wkhtmltopdf/bin/wkhtmltopdf.exe";
 config=pdfkit.configuration(wkhtmltopdf=path_wk)
 pdfkit.from_string(input=html, output_path=targetPath,configuration=config)
 except:
 # 部分文章标题含特殊字符,不能作为文件名
 filename = datetime.datetime.now().strftime('%Y%m%d%H%M%S') + '.pdf'
 pdfkit.from_string(html, targetPath + os.path.sep + filename)
 
if __name__ == '__main__':
 # 此处为要爬取公众号的名称
 url2pdf("https://mp.weixin.qq.com/s/wwT5n2JwEEAkrrmOhedziw", "HBase的系统架构全视角解读","G:/test/hbase文档.pdf" )
 # gzh_name = ''
 # # 如果不存在目标文件夹就进行创建
 # if not os.path.exists(targetPath):
 # os.makedirs(targetPath)
 # # 将该公众号最近10篇文章信息以字典形式返回
 # data = ws_api.get_gzh_article_by_history(gzh_name)
 # article_list = data['article']
 # for article in article_list:
 # url = article['content_url']
 # title = article['title']
 # url2pdf(url, title, targetPath)

到此这篇关于python如何导出微信公众号文章方法详解的文章就介绍到这了,更多相关python导出微信公众号文章内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
pymssql ntext字段调用问题解决方法
Dec 17 Python
python使用marshal模块序列化实例
Sep 25 Python
深入解析Python编程中JSON模块的使用
Oct 15 Python
详解Python里使用正则表达式的ASCII模式
Nov 02 Python
python保存数据到本地文件的方法
Jun 23 Python
pandas值替换方法
Jul 10 Python
python中的tcp示例详解
Dec 09 Python
python dict 相同key 合并value的实例
Jan 21 Python
Python循环实现n的全排列功能
Sep 16 Python
Python request操作步骤及代码实例
Apr 13 Python
keras分类之二分类实例(Cat and dog)
Jul 09 Python
python使用PySimpleGUI设置进度条及控件使用
Jun 10 Python
Python生成并下载文件后端代码实例
Aug 31 #Python
python exit出错原因整理
Aug 31 #Python
Python如何将模块打包并发布
Aug 30 #Python
如何以Winsows Service方式运行JupyterLab
Aug 30 #Python
selenium切换标签页解决get超时问题的完整代码
Aug 30 #Python
五分钟带你搞懂python 迭代器与生成器
Aug 30 #Python
python开根号实例讲解
Aug 30 #Python
You might like
PHP 压缩文件夹的类代码
2009/11/05 PHP
Ubuntu下安装PHP的mongodb扩展操作命令
2015/07/04 PHP
html下载本地
2006/06/19 Javascript
JavaScript中函数声明优先于变量声明的实例分析
2012/03/01 Javascript
js setTimeout opener的用法示例详解
2013/10/23 Javascript
JS获取URL中的参数数据
2013/12/05 Javascript
js判断横竖屏及禁止浏览器滑动条示例
2014/04/29 Javascript
Javascript 绘制 sin 曲线过程附图
2014/08/21 Javascript
jQuery遍历之next()、nextAll()方法使用实例
2014/11/08 Javascript
学习javascript面向对象 理解javascript原型和原型链
2016/01/04 Javascript
AngularJS基础 ng-switch 指令简单示例
2016/08/03 Javascript
js获取页面引用的css样式表中的属性值方法(推荐)
2016/08/19 Javascript
为jQuery-easyui的tab组件添加右键菜单功能的简单实例
2016/10/10 Javascript
jQuery实现的分页功能示例
2017/01/22 Javascript
JS基于正则截取替换特定字符之间字符串操作示例
2017/02/03 Javascript
AngularJS自定义指令之复制指令实现方法
2017/05/18 Javascript
bootstrap switch开关组件使用方法详解
2017/08/22 Javascript
Vue + better-scroll 实现移动端字母索引导航功能
2018/05/07 Javascript
详解javascript appendChild()的完整功能
2018/08/18 Javascript
Vue数据驱动表单渲染,轻松搞定form表单
2019/07/19 Javascript
详解Vue 项目中的几个实用组件(ts)
2019/10/29 Javascript
高效jQuery选择器的5个技巧实例分析
2019/11/26 jQuery
python实现在每个独立进程中运行一个函数的方法
2015/04/23 Python
python去掉行尾的换行符方法
2017/01/04 Python
使用keras实现densenet和Xception的模型融合
2020/05/23 Python
python rsa-oaep加密的示例代码
2020/09/23 Python
美国专营婴幼儿用品的购物网站:buybuy BABY
2017/01/01 全球购物
eDreams澳大利亚:预订机票、酒店和度假产品
2017/04/19 全球购物
Bibloo荷兰:女士、男士和儿童的服装、鞋子和配饰
2019/02/25 全球购物
英国绿色商店:Natural Collection
2019/05/03 全球购物
怎么样写好简历中的自我评价
2013/10/25 职场文书
如何打造一封优秀的留学推荐信
2014/01/25 职场文书
自行车广告词大全
2014/03/21 职场文书
党的群众路线教育实践活动对照检查材料(教师)
2014/09/24 职场文书
2016年“节能宣传周”活动总结
2016/04/05 职场文书
Python爬虫基础初探selenium
2021/05/31 Python