python如何导出微信公众号文章方法详解


Posted in Python onAugust 31, 2020

python如何导出微信公众号文章方法详解

1.安装wkhtmltopdf

下载地址:https://wkhtmltopdf.org/downloads.html

我测试用的是windows的,下载安装后结果如下

python如何导出微信公众号文章方法详解

2 编写python 代码导出微信公众号文章

不能直接使用wkhtmltopdf 导出微信公众号文章,导出的文章会缺失图片,所以需要使用 wechatsogou 将微信公众号文章页面抓取,之后将html文本转化为pdf

pip install wechatsogou --upgrade

pip install pdfkit

踩坑!!!,看了很多人的代码,都是一个模板,大家都是抄来抄去,结果还是运行不了,可能是因为依赖包更新的原因,也可能是因为我本地没有配置wkhtmltopdf 的环境变量

import os
import pdfkit
import datetime
import wechatsogou
# 初始化API
ws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3)
def url2pdf(url, title, targetPath):
 '''
 使用pdfkit生成pdf文件
 :param url: 文章url
 :param title: 文章标题
 :param targetPath: 存储pdf文件的路径
 '''
 try:
 content_info = ws_api.get_article_content(url)
 except:
 return False
 # 处理后的html
 html = f'''
{title}
 {content_info['content_html']}
 
 '''
 try:
 path_wk="E:/softwareAPP/wkhtmltopdf/bin/wkhtmltopdf.exe";
 config=pdfkit.configuration(wkhtmltopdf=path_wk)
 pdfkit.from_string(input=html, output_path=targetPath,configuration=config)
 except:
 # 部分文章标题含特殊字符,不能作为文件名
 filename = datetime.datetime.now().strftime('%Y%m%d%H%M%S') + '.pdf'
 pdfkit.from_string(html, targetPath + os.path.sep + filename)
 
if __name__ == '__main__':
 # 此处为要爬取公众号的名称
 url2pdf("https://mp.weixin.qq.com/s/wwT5n2JwEEAkrrmOhedziw", "HBase的系统架构全视角解读","G:/test/hbase文档.pdf" )
 # gzh_name = ''
 # # 如果不存在目标文件夹就进行创建
 # if not os.path.exists(targetPath):
 # os.makedirs(targetPath)
 # # 将该公众号最近10篇文章信息以字典形式返回
 # data = ws_api.get_gzh_article_by_history(gzh_name)
 # article_list = data['article']
 # for article in article_list:
 # url = article['content_url']
 # title = article['title']
 # url2pdf(url, title, targetPath)

到此这篇关于python如何导出微信公众号文章方法详解的文章就介绍到这了,更多相关python导出微信公众号文章内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
浅析python 内置字符串处理函数的使用方法
Jun 11 Python
python计算文本文件行数的方法
Jul 06 Python
Python实现ssh批量登录并执行命令
Oct 25 Python
Python获取昨天、今天、明天开始、结束时间戳的方法
Jun 01 Python
为什么str(float)在Python 3中比Python 2返回更多的数字
Oct 16 Python
解决Python下json.loads()中文字符出错的问题
Dec 19 Python
python 实现提取log文件中的关键句子,并进行统计分析
Dec 24 Python
python实现堆排序的实例讲解
Feb 21 Python
Python爬虫爬取电影票房数据及图表展示操作示例
Mar 27 Python
基于python检查矩阵计算结果
May 21 Python
Python实现手势识别
Oct 21 Python
python 爬取京东指定商品评论并进行情感分析
May 27 Python
Python生成并下载文件后端代码实例
Aug 31 #Python
python exit出错原因整理
Aug 31 #Python
Python如何将模块打包并发布
Aug 30 #Python
如何以Winsows Service方式运行JupyterLab
Aug 30 #Python
selenium切换标签页解决get超时问题的完整代码
Aug 30 #Python
五分钟带你搞懂python 迭代器与生成器
Aug 30 #Python
python开根号实例讲解
Aug 30 #Python
You might like
收听短波不可能有声音清晰的品质吗
2021/03/01 无线电
php堆排序(heapsort)练习
2013/11/13 PHP
PHP is_subclass_of函数的一个BUG和解决方法
2014/06/01 PHP
PHP遍历数组的方法汇总
2015/04/30 PHP
php版微信js-sdk支付接口类用法示例
2016/10/12 PHP
IOS 开发之NSDictionary转换成JSON字符串
2017/08/14 PHP
JS计算网页停留时间代码
2014/04/28 Javascript
jQuery 局部div刷新和全局刷新方法总结
2016/10/05 Javascript
微信小程序实战之上拉(分页加载)效果(2)
2017/04/17 Javascript
JavaScript中的惰性载入函数及优势
2020/02/18 Javascript
深入了解JS之作用域和闭包
2020/06/16 Javascript
vue自定义指令限制输入框输入值的步骤与完整代码
2020/08/30 Javascript
Python中基本的日期时间处理的学习教程
2015/10/16 Python
Jupyter安装nbextensions,启动提示没有nbextensions库
2020/04/23 Python
python pandas 如何替换某列的一个值
2018/06/09 Python
python+ffmpeg批量去视频开头的方法
2019/01/09 Python
Python爬虫之UserAgent的使用实例
2019/02/21 Python
解决pycharm启动后总是不停的updating indices...indexing的问题
2019/11/27 Python
python绘制封闭多边形教程
2020/02/18 Python
Python-jenkins模块获取jobs的执行状态操作
2020/05/12 Python
HTML5 visibilityState属性详细介绍和使用实例
2014/05/03 HTML / CSS
iphoneX 适配客户端H5页面的方法教程
2017/12/08 HTML / CSS
深入理解HTML5定时器requestAnimationFrame的使用
2018/12/12 HTML / CSS
意大利在线药房:Farmacia Loreto Gallo
2019/08/09 全球购物
艺术系应届生的自我评价
2013/10/19 职场文书
实习单位推荐信范文
2013/11/27 职场文书
技能比赛获奖感言
2014/02/14 职场文书
大课间活动实施方案
2014/03/06 职场文书
我的中国梦演讲稿初中篇
2014/08/19 职场文书
2014年四风问题自我剖析材料
2014/09/15 职场文书
党员对照检查材料
2014/09/22 职场文书
世界卫生日宣传活动总结
2015/02/09 职场文书
公文格式,规则明细(新手收藏)
2019/07/23 职场文书
Python爬虫基础之爬虫的分类知识总结
2021/05/13 Python
Java实现斗地主之洗牌发牌
2021/06/14 Java/Android
MySQL 计算连续登录天数
2022/05/11 MySQL