编程 Python

Python 微信公众号文章爬取的示例代码

Posted in Python onNovember 30, 2020

一.思路

我们通过网页版的微信公众平台的图文消息中的超链接获取到我们需要的接口

从接口中我们可以得到对应的微信公众号和对应的所有微信公众号文章。

二.接口分析

获取微信公众号的接口：
https://mp.weixin.qq.com/cgi-bin/searchbiz?
参数：
action=search_biz
begin=0
count=5
query=公众号名称
token=每个账号对应的token值
lang=zh_CN
f=json
ajax=1
请求方式：
GET
所以这个接口中我们只需要得到token即可，而query则是你需要搜索的公众号，token则可以通过登录后的网页链接获取得到。

Python 微信公众号文章爬取的示例代码

获取对应公众号的文章的接口：
https://mp.weixin.qq.com/cgi-bin/appmsg?
参数：
action=list_ex
begin=0
count=5
fakeid=MjM5NDAwMTA2MA==
type=9
query=
token=557131216
lang=zh_CN
f=json
ajax=1
请求方式：
GET
在这个接口中我们需要获取的值有上一步的token以及fakeid，而这个fakeid则在第一个接口中可以获取得到。从而我们就可以拿到微信公众号文章的数据了。

Python 微信公众号文章爬取的示例代码

三.实现

第一步：

首先我们需要通过selenium模拟登录，然后获取到cookie和对应的token

def weChat_login(user, password):
  post = {}
  browser = webdriver.Chrome()
  browser.get('https://mp.weixin.qq.com/')
  sleep(3)
  browser.delete_all_cookies()
  sleep(2)
  # 点击切换到账号密码输入
  browser.find_element_by_xpath("//a[@class='login__type__container__select-type']").click()
  sleep(2)
  # 模拟用户点击
  input_user = browser.find_element_by_xpath("//input[@name='account']")
  input_user.send_keys(user)
  input_password = browser.find_element_by_xpath("//input[@name='password']")
  input_password.send_keys(password)
  sleep(2)
  # 点击登录
  browser.find_element_by_xpath("//a[@class='btn_login']").click()
  sleep(2)
  # 微信登录验证
  print('请扫描二维码')
  sleep(20)
  # 刷新当前网页
  browser.get('https://mp.weixin.qq.com/')
  sleep(5)
  # 获取当前网页链接
  url = browser.current_url
  # 获取当前cookie
  cookies = browser.get_cookies()
  for item in cookies:
    post[item['name']] = item['value']
  # 转换为字符串
  cookie_str = json.dumps(post)
  # 存储到本地
  with open('cookie.txt', 'w+', encoding='utf-8') as f:
    f.write(cookie_str)
  print('cookie保存到本地成功')
  # 对当前网页链接进行切片，获取到token
  paramList = url.strip().split('?')[1].split('&')
  # 定义一个字典存储数据
  paramdict = {}
  for item in paramList:
    paramdict[item.split('=')[0]] = item.split('=')[1]
  # 返回token
  return paramdict['token']

定义了一个登录方法，里面的参数为登录的账号和密码，然后定义了一个字典用来存储cookie的值。通过模拟用户输入对应的账号密码并且点击登录，然后会出现一个扫码验证，用登录的微信去扫码即可。
刷新当前网页后，获取当前cookie以及token然后返回。

第二步：

1.请求获取对应公众号接口，取到我们需要的fakeid

url = 'https://mp.weixin.qq.com'
  headers = {
    'HOST': 'mp.weixin.qq.com',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36 Edg/86.0.622.63'
  }
  with open('cookie.txt', 'r', encoding='utf-8') as f:
    cookie = f.read()
  cookies = json.loads(cookie)
  resp = requests.get(url=url, headers=headers, cookies=cookies)
  search_url = 'https://mp.weixin.qq.com/cgi-bin/searchbiz?'
  params = {
    'action': 'search_biz',
    'begin': '0',
    'count': '5',
    'query': '搜索的公众号名称',
    'token': token,
    'lang': 'zh_CN',
    'f': 'json',
    'ajax': '1'
  }
  search_resp = requests.get(url=search_url, cookies=cookies, headers=headers, params=params)

将我们获取到的token和cookie传进来，然后通过requests.get请求，获得返回的微信公众号的json数据

lists = search_resp.json().get('list')[0]

通过上面的代码即可获取到对应的公众号数据

fakeid = lists.get('fakeid')

通过上面的代码就可以得到对应的fakeid

2.请求获取微信公众号文章接口，取到我们需要的文章数据

appmsg_url = 'https://mp.weixin.qq.com/cgi-bin/appmsg?'
  params_data = {
    'action': 'list_ex',
    'begin': '0',
    'count': '5',
    'fakeid': fakeid,
    'type': '9',
    'query': '',
    'token': token,
    'lang': 'zh_CN',
    'f': 'json',
    'ajax': '1'
  }
  appmsg_resp = requests.get(url=appmsg_url, cookies=cookies, headers=headers, params=params_data)

我们传入fakeid和token然后还是调用requests.get请求接口，获得返回的json数据。
我们就实现了对微信公众号文章的爬取。

四.总结

通过对微信公众号文章的爬取，需要掌握selenium和requests的用法，以及如何获取到请求接口。但是需要注意的是当我们循环获取文章时，一定要设置延迟时间，不然账号很容易被封禁，从而得不到返回的数据。

到此这篇关于Python 微信公众号文章爬取的示例代码的文章就介绍到这了,更多相关Python 微信公众号文章爬取内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Python 微信公众号文章爬取的示例代码

- Author -

稚小白

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python下使用Psyco模块优化运行速度

Apr 05 Python

基于python 字符编码的理解

Sep 02 Python

利用python操作SQLite数据库及文件操作详解

Sep 22 Python

Python跨文件全局变量的实现方法示例

Dec 10 Python

python使用Pycharm创建一个Django项目

Mar 05 Python

特征脸(Eigenface)理论基础之PCA主成分分析法

Mar 13 Python

Python selenium抓取微博内容的示例代码

May 17 Python

在python里协程使用同步锁Lock的实例

Feb 19 Python

Django 外键的使用方法详解

Jul 19 Python

Pycharm小白级简单使用教程

Jan 08 Python

容易被忽略的Python内置类型

Sep 03 Python

Python爬虫抓取论坛关键字过程解析

Oct 19 Python

python爬虫工具例举说明

Nov 30 #Python

编译 pycaffe时报错：fatal error: numpy/arrayobject.h没有那个文件或目录

Nov 29 #Python

运行python提示no module named sklearn的解决方法

Nov 29 #Python

基于python的opencv图像处理实现对斑马线的检测示例

Nov 29 #Python

python3实现名片管理系统（控制台版）

Nov 29 #Python

python3实现简单飞机大战

Nov 29 #Python

Python基于Socket实现简易多人聊天室的示例代码

Nov 29 #Python

You might like

超人钢铁侠联手合作？美漫作家呼吁DC漫威合作联动以抵抗疫情

2020/04/09 欧美动漫

深入浅析PHP7.0新特征（五大新特征）

2015/10/29 PHP

php基于session锁防止阻塞请求的方法分析

2017/08/07 PHP

让GoogleCode的SVN下的HTML文件在FireFox下正常显示.

2009/05/25 Javascript

jQuery+CSS 实现的超Sexy下拉菜单

2010/01/17 Javascript

关于Jqzoom的使用心得 jquery放大镜效果插件

2010/04/12 Javascript

使用jQuery.Validate进行客户端验证（初级篇）不使用微软验证控件的理由

2010/06/28 Javascript

js iframe跨域访问(同主域/非同主域)分别深入介绍

2013/01/24 Javascript

简约JS日历控件实例代码

2013/07/12 Javascript

javascript跨域的4种方法和原理详解

2014/04/08 Javascript

JavaScript计算两个日期时间段内日期的方法

2015/03/16 Javascript

JavaScript之AOP编程实例

2015/07/17 Javascript

js从数组中删除指定值(不是指定位置)的元素实现代码

2016/09/13 Javascript

Bootstrap对话框使用实例讲解

2016/09/24 Javascript

js倒计时显示实例

2016/12/11 Javascript

使用JavaScript实现链表的数据结构的代码

2017/08/02 Javascript

在HTML文档中嵌入JavaScript的四种方法

2018/05/07 Javascript

[01:38]女王驾到——至宝魔廷新尊技能&特效展示

2020/06/16 DOTA

理解Python中函数的参数

2015/04/27 Python

python简单猜数游戏实例

2015/07/09 Python

Python计时相关操作详解【time,datetime】

2017/05/26 Python

Python3.4 tkinter,PIL图片转换

2018/06/21 Python

nginx+uwsgi+django环境搭建的方法步骤

2019/11/25 Python

Pytorch根据layers的name冻结训练方式

2020/01/06 Python

Jupyter Notebook打开任意文件夹操作

2020/04/14 Python

pycharm实现print输出保存到txt文件

2020/06/01 Python

Python 删除List元素的三种方法remove、pop、del

2020/11/16 Python

python制作一个简单的gui 数据库查询界面

2020/11/19 Python

举例讲解Python装饰器

2020/12/24 Python

用HTML5制作烟火效果的教程

2015/05/12 HTML / CSS

德国药房apodiscounter中文官网：德国排名前三的网上药店

2019/06/03 全球购物

学生爱国演讲稿

2014/01/14 职场文书

2014年实习班主任工作总结

2014/11/08 职场文书

巾帼文明岗汇报材料

2014/12/24 职场文书

2015年社会治安综合治理工作总结

2015/04/10 职场文书

商业计划书之服装

2019/09/09 职场文书