编程 Python

如何通过50行Python代码获取公众号全部文章

Posted in Python onJuly 12, 2019

前言

我们平时阅读公众号的文章会遇到一个问题——阅读历史文章体验不好。

我们知道爬取公众号的方式常见的有两种：通过搜狗搜索去获取，缺点是只能获取最新的十条推送文章。通过微信公众号的素材管理，获取公众号文章。缺点是需要申请自己的公众号。

今天介绍一种通过抓包PC端微信的方式去获取公众号文章的方法。相比其他的方法非常方便。

如何通过50行Python代码获取公众号全部文章

如上图，通过抓包工具获取微信的网络信息请求，我们发现每次下拉刷新文章的时候都会请求 mp.weixin.qq.com/mp/xxx （公众号不让添加主页链接，xxx表示profile_ext）这个接口。

经过多次测试分析，用到了以下几个参数

__biz : 用户和公众号之间的唯一id
uin ：用户的私密id
key ：请求的秘钥，一段时候只会就会失效
offset ：偏移量
count ：每次请求的条数

数据如下

{
 "ret": 0,
 "errmsg": "ok", # 请求状态
 "msg_count": 10, # 信息条数
 "can_msg_continue": 1, # 是否还可以继续获取，1代表可以。0代表不可以，也就是最后一页
 "general_msg_list": "{"list":[]}", # 公众号文本信息
 "next_offset": 20, 
 "video_count": 1,
 "use_video_tab": 1,
 "real_type": 0,
 "home_page_list": []
}

部分代码如下

params = {
 '__biz': biz,
 'uin': uin,
 'key': key,
 'offset': offset,
 'count': count,
 'action': 'getmsg',
 'f': 'json'
 }
 headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'
 }
 response = requests.get(url=url, params=params, headers=headers)
 resp_json = response.json()
 if resp_json.get('errmsg') == 'ok':
 resp_json = response.json()
 # 是否还有分页数据， 用于判断return的值
 can_msg_continue = resp_json['can_msg_continue']
 # 当前分页文章数
 msg_count = resp_json['msg_count']
 general_msg_list = json.loads(resp_json['general_msg_list'])
 list = general_msg_list.get('list')
 print(list, "**************")

最后打印的list就是公众号的文章信息详情。包括标题(titile)、摘要(digest)、文章地址(content_url)、阅读原文地址(source_url)、封面图(cover)、作者(author)等等...

输出结果如下：

[{
 "comm_msg_info": {
 "id": 1000000038,
 "type": 49,
 "datetime": 1560474000,
 "fakeid": "3881067844",
 "status": 2,
 "content": ""
 },
 "app_msg_ext_info": {
 "title": "入门爬虫，这一篇就够了！！！",
 "digest": "入门爬虫，这一篇就够了！！！",
 "content": "",
 "fileid": 0,
 "content_url": "http:XXXXXX",
 "source_url": "",
 "cover": "I5kME6BVXeLibZDUhsiaEYiaX7zOoibxa9sb4stIwrfuqID5ttmiaoVAFyxKF6IjOCyl22vg8n2NPv98ibow\/0?wx_fmt=jpeg",
 "subtype": 9,
 "is_multi": 0,
 "multi_app_msg_item_list": [],
 "author": "Python3X",
 "copyright_stat": 11,
 "duration": 0,
 "del_flag": 1,
 "item_show_type": 0,
 "audio_fileid": 0,
 "play_url": "",
 "malicious_title_reason_id": 0,
 "malicious_content_type": 0
 }
},{...},{...},{...},{...},{...},{...},{...},{...},{...}]

获取数据之后，可以保存到数据库中，也可以将文章保存在PDF中。

1、保存在Mongo中

# Mongo配置
conn = MongoClient('127.0.0.1', 27017)
db = conn.wx #连接wx数据库，没有则自动创建
mongo_wx = db.article #使用article集合，没有则自动创建
for i in list:
 app_msg_ext_info = i['app_msg_ext_info']
 # 标题
 title = app_msg_ext_info['title']
 # 文章地址
 content_url = app_msg_ext_info['content_url']
 # 封面图
 cover = app_msg_ext_info['cover']
 # 发布时间
 datetime = i['comm_msg_info']['datetime']
 datetime = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(datetime))
 mongo_wx.insert({
 'title': title,
 'content_url': content_url,
 'cover': cover,
 'datetime': datetime
 })

结果如下

如何通过50行Python代码获取公众号全部文章

2、导入到PDF文件中

Python3中常用的操作PDF的库有python-pdf和pdfkit。我用了pdfkit这个模块导出pdf文件。

pdfkit是工具包Wkhtmltopdf的封装类，因此需要安装Wkhtmltopdf才能使用。

可以访问 https://wkhtmltopdf.org/downloads.html 下载和操作系统匹配的工具包。

如何通过50行Python代码获取公众号全部文章

实现代码也比较简单，只需要传入导入文件的url即可。

安装pdfkit库

pip3 install pdfkit -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
 import pdfkit
pdfkit.from_url('公众号文章地址', 'out.pdf')

运行之后成功导出pdf文件。

如何通过50行Python代码获取公众号全部文章

完整代码

import requests
import json
import time
from pymongo import MongoClient
url = 'http://mp.weixin.qq.com/mp/xxx'（公众号不让添加主页链接，xxx表示profile_ext)
# Mongo配置
conn = MongoClient('127.0.0.1', 27017)
db = conn.wx #连接wx数据库，没有则自动创建
mongo_wx = db.article #使用article集合，没有则自动创建
def get_wx_article(biz, uin, key, index=0, count=10):
 offset = (index + 1) * count
 params = {
 '__biz': biz,
 'uin': uin,
 'key': key,
 'offset': offset,
 'count': count,
 'action': 'getmsg',
 'f': 'json'
 }
 headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'
 }
 response = requests.get(url=url, params=params, headers=headers)
 resp_json = response.json()
 if resp_json.get('errmsg') == 'ok':
 resp_json = response.json()
 # 是否还有分页数据， 用于判断return的值
 can_msg_continue = resp_json['can_msg_continue']
 # 当前分页文章数
 msg_count = resp_json['msg_count']
 general_msg_list = json.loads(resp_json['general_msg_list'])
 list = general_msg_list.get('list')
 print(list, "**************")
 for i in list:
 app_msg_ext_info = i['app_msg_ext_info']
 # 标题
 title = app_msg_ext_info['title']
 # 文章地址
 content_url = app_msg_ext_info['content_url']
 # 封面图
 cover = app_msg_ext_info['cover']
 # 发布时间
 datetime = i['comm_msg_info']['datetime']
 datetime = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(datetime))
 mongo_wx.insert({
 'title': title,
 'content_url': content_url,
 'cover': cover,
 'datetime': datetime
 })
 if can_msg_continue == 1:
 return True
 return False
 else:
 print('获取文章异常...')
 return False
if __name__ == '__main__':
 biz = 'Mzg4MTA2Nzg0NA=='
 uin = 'NDIyMTI5NDM1'
 key = '20a680e825f03f1e7f38f326772e54e7dc0fd02ffba17e92730ba3f0a0329c5ed310b0bd55b3c0b1f122e5896c6261df2eaea4036ab5a5d32dbdbcb0a638f5f3605cf1821decf486bb6eb4d92d36c620'
 index = 0
 while 1:
 print(f'开始抓取公众号第{index + 1} 页文章.')
 flag = get_wx_article(biz, uin, key, index=index)
 # 防止和谐，暂停8秒
 time.sleep(8)
 index += 1
 if not flag:
 print('公众号文章已全部抓取完毕，退出程序.')
 break
 print(f'..........准备抓取公众号第{index + 1} 页文章.')

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

如何通过50行Python代码获取公众号全部文章

- Author -

千锋Python唐唐君

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

用Python写的图片蜘蛛人代码

Aug 27 Python

Python二维码生成库qrcode安装和使用示例

Dec 16 Python

python中判断文件编码的chardet(实例讲解)

Dec 21 Python

详解如何利用Cython为Python代码加速

Jan 27 Python

使用Python实现企业微信的自动打卡功能

Apr 30 Python

基于python进行抽样分布描述及实践详解

Sep 02 Python

Python高阶函数、常用内置函数用法实例分析

Dec 26 Python

python字典和json.dumps()的遇到的坑分析

Mar 11 Python

使用tensorflow框架在Colab上跑通猫狗识别代码

Apr 26 Python

读取nii或nii.gz文件中的信息即输出图像操作

Jul 01 Python

scrapy redis配置文件setting参数详解

Nov 18 Python

python中round函数保留两位小数的方法

Dec 04 Python

python flask 如何修改默认端口号的方法步骤

Jul 12 #Python

python pandas获取csv指定行列的操作方法

Jul 12 #Python

Python3 执行Linux Bash命令的方法

Jul 12 #Python

Flask-WTF表单的使用方法

Jul 12 #Python

解决Python中pandas读取*.csv文件出现编码问题

Jul 12 #Python

python的debug实用工具 pdb详解

Jul 12 #Python

Flask配置Cors跨域的实现

Jul 12 #Python

You might like

php4的彩蛋

2006/10/09 PHP

PHP自动生成后台导航网址的最佳方法

2013/08/27 PHP

php删除指定目录的方法

2015/04/03 PHP

PHP生成静态HTML页面最简单方法示例

2015/04/09 PHP

CentOS下PHP7的编译安装及MySQL的支持和一些常见问题的解决办法

2015/12/17 PHP

php实现的redis缓存类定义与使用方法示例

2017/08/09 PHP

基于Jquery的实现回车键Enter切换焦点

2010/09/14 Javascript

jQuery代码优化之基本事件

2011/11/01 Javascript

解析Javascript中大括号“{}”的多义性

2013/12/02 Javascript

一个可以增加和删除行的table并可编辑表格中内容

2014/06/16 Javascript

JS实现一个按钮的方法

2015/02/05 Javascript

JavaScript获取浏览器信息的方法

2015/11/20 Javascript

jQuery学习笔记之入门

2016/12/14 Javascript

Bootstrap CSS组件之大屏幕展播

2016/12/17 Javascript

整理关于Bootstrap过渡动画的慕课笔记

2017/03/29 Javascript

js + css实现标签内容切换功能(实例讲解)

2017/10/09 Javascript

利用原生js实现html5小游戏之打砖块（附源码）

2018/01/03 Javascript

微信小程序实现滚动消息通知

2018/02/02 Javascript

微信小程序开发之路由切换页面重定向问题

2018/09/18 Javascript

[01:48]2018DOTA2亚洲邀请赛主赛事第二日五佳镜头 VG完美团战逆转TNC

2018/04/05 DOTA

Python爬虫框架Scrapy实战之批量抓取招聘信息

2015/08/07 Python

Python随机生成均匀分布在单位圆内的点代码示例

2017/11/13 Python

python数据抓取分析的示例代码（python + mongodb）

2017/12/25 Python

如何利用Python开发一个简单的猜数字游戏

2019/09/22 Python

Python插入Elasticsearch操作方法解析

2020/01/19 Python

python新手学习可变和不可变对象

2020/06/11 Python

详解HTML5将footer置于页面最底部的方法(CSS+JS)

2018/10/11 HTML / CSS

小学体育教学反思

2014/01/31 职场文书

优秀老师事迹材料

2014/02/05 职场文书

机关工会开展学习雷锋活动总结

2014/03/01 职场文书

治超工作实施方案

2014/05/04 职场文书

教师考核评语大全

2014/12/31 职场文书

班主任寄语2015

2015/02/26 职场文书

linux下导入、导出mysql数据库命令的实现方法

2021/05/26 MySQL

正确使用MySQL update语句

2021/05/26 MySQL

SQL实现LeetCode(177.第N高薪水)

2021/08/04 MySQL