编程 Python

python使用webdriver爬取微信公众号

Posted in Python onAugust 31, 2018

本文实例为大家分享了python使用webdriver爬取微信公众号的具体代码，供大家参考，具体内容如下

# -*- coding: utf-8 -*-

from selenium import webdriver
import time
import json
import requests
import re
import random

#微信公众号账号
user=""
#公众号密码
password=""
#设置要爬取的公众号列表
gzlist=['香河微服务']

#登录微信公众号，获取登录之后的cookies信息，并保存到本地文本中
def weChat_login():
  #定义一个空的字典，存放cookies内容
  post={}

  #用webdriver启动谷歌浏览器
  print("启动浏览器，打开微信公众号登录界面")
  driver = webdriver.Chrome(executable_path='E:\\program\\chromedriver.exe')
  #打开微信公众号登录页面
  driver.get('https://mp.weixin.qq.com/')
  #等待5秒钟
  time.sleep(5)
  print("正在输入微信公众号登录账号和密码......")
  #清空账号框中的内容
  driver.find_element_by_xpath("//*[@id=\"header\"]/div[2]/div/div/form/div[1]/div[1]/div/span/input").clear()
  #自动填入登录用户名
  driver.find_element_by_xpath("//*[@id=\"header\"]/div[2]/div/div/form/div[1]/div[1]/div/span/input").send_keys(user)
  #清空密码框中的内容
  driver.find_element_by_xpath("//*[@id=\"header\"]/div[2]/div/div/form/div[1]/div[2]/div/span/input").clear()
  #自动填入登录密码
  driver.find_element_by_xpath("//*[@id=\"header\"]/div[2]/div/div/form/div[1]/div[2]/div/span/input").send_keys(password)

  # 在自动输完密码之后需要手动点一下记住我
  print("请在登录界面点击:记住账号")
  time.sleep(10)
  #自动点击登录按钮进行登录
  driver.find_element_by_xpath("//*[@id=\"header\"]/div[2]/div/div/form/div[4]/a").click()
  # 拿手机扫二维码！
  print("请拿手机扫码二维码登录公众号")
  time.sleep(20)
  print("登录成功")
  #重新载入公众号登录页，登录之后会显示公众号后台首页，从这个返回内容中获取cookies信息
  driver.get('https://mp.weixin.qq.com/')
  #获取cookies
  cookie_items = driver.get_cookies()

  #获取到的cookies是列表形式，将cookies转成json形式并存入本地名为cookie的文本中
  for cookie_item in cookie_items:
    post[cookie_item['name']] = cookie_item['value']
  cookie_str = json.dumps(post)
  with open('cookie.txt', 'w+') as f:
    f.write(cookie_str)
  print("cookies信息已保存到本地")

#爬取微信公众号文章，并存在本地文本中
def get_content(query):
  #query为要爬取的公众号名称
  #公众号主页
  url = 'https://mp.weixin.qq.com'
  #设置headers
  header = {
    "HOST": "mp.weixin.qq.com",
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0"
  }

  #读取上一步获取到的cookies
  with open('cookie.txt', 'r') as f:
    cookie = f.read().decode("UTF-8")
  cookies = json.loads(cookie)

  #登录之后的微信公众号首页url变化为：https://mp.weixin.qq.com/cgi-bin/home?t=home/index&lang=zh_CN&token=1849751598，从这里获取token信息
  response = requests.get(url=url, cookies=cookies)
  token = re.findall(r'token=(\d+)', str(response.url))[0]

  #搜索微信公众号的接口地址
  search_url = 'https://mp.weixin.qq.com/cgi-bin/searchbiz?'
  #搜索微信公众号接口需要传入的参数，有三个变量：微信公众号token、随机数random、搜索的微信公众号名字
  query_id = {
    'action': 'search_biz',
    'token' : token,
    'lang': 'zh_CN',
    'f': 'json',
    'ajax': '1',
    'random': random.random(),
    'query': query,
    'begin': '0',
    'count': '5'
  }
  #打开搜索微信公众号接口地址，需要传入相关参数信息如：cookies、params、headers
  search_response = requests.get(search_url, cookies=cookies, headers=header, params=query_id)
  #取搜索结果中的第一个公众号
  lists = search_response.json().get('list')[0]
  #获取这个公众号的fakeid，后面爬取公众号文章需要此字段
  fakeid = lists.get('fakeid')

  #微信公众号文章接口地址
  appmsg_url = 'https://mp.weixin.qq.com/cgi-bin/appmsg?'
  #搜索文章需要传入几个参数：登录的公众号token、要爬取文章的公众号fakeid、随机数random
  query_id_data = {
    'token': token,
    'lang': 'zh_CN',
    'f': 'json',
    'ajax': '1',
    'random': random.random(),
    'action': 'list_ex',
    'begin': '0',#不同页，此参数变化，变化规则为每页加5
    'count': '5',
    'query': '',
    'fakeid': fakeid,
    'type': '9'
  }
  #打开搜索的微信公众号文章列表页
  appmsg_response = requests.get(appmsg_url, cookies=cookies, headers=header, params=query_id_data)
  #获取文章总数
  max_num = appmsg_response.json().get('app_msg_cnt')
  #每页至少有5条，获取文章总的页数，爬取时需要分页爬
  num = int(int(max_num) / 5)
  #起始页begin参数，往后每页加5
  begin = 0
  while num + 1 > 0 :
    query_id_data = {
      'token': token,
      'lang': 'zh_CN',
      'f': 'json',
      'ajax': '1',
      'random': random.random(),
      'action': 'list_ex',
      'begin': '{}'.format(str(begin)),
      'count': '5',
      'query': '',
      'fakeid': fakeid,
      'type': '9'
    }
    print('正在翻页：--------------',begin)

    #获取每一页文章的标题和链接地址，并写入本地文本中
    query_fakeid_response = requests.get(appmsg_url, cookies=cookies, headers=header, params=query_id_data)
    fakeid_list = query_fakeid_response.json().get('app_msg_list')
    for item in fakeid_list:
      content_link=item.get('link')
      content_title=item.get('title')
      fileName=query+'.txt'
      # with open('e://xhwfw.txt','a') as fh:
        # fh.write(content_title+":\n"+content_link+"\n")
      print content_title+":\n"+content_link+"\n"
    num -= 1
    begin = int(begin)
    begin+=5
    time.sleep(2)

if __name__=='__main__':
  try:
    #登录微信公众号，获取登录之后的cookies信息，并保存到本地文本中
    weChat_login()
    #登录之后，通过微信公众号后台提供的微信公众号文章接口爬取文章
    for query in gzlist:
      #爬取微信公众号文章，并存在本地文本中
      print("开始爬取公众号："+query)
      get_content(query)
      print("爬取完成")
  except Exception as e:
    print(str(e))

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

- Author -

消灭八阿哥

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python基于回溯法子集树模板解决找零问题示例

Sep 11 Python

python定时利用QQ邮件发送天气预报的实例

Nov 17 Python

Python实现曲线拟合操作示例【基于numpy,scipy,matplotlib库】

Jul 12 Python

使用python 写一个静态服务(实战)

Jun 28 Python

python selenium循环登陆网站的实现

Nov 04 Python

Python3常见函数range()用法详解

Dec 30 Python

python:删除离群值操作(每一行为一类数据)

Jun 08 Python

PyCharm2020.1.1与Python3.7.7的安装教程图文详解

Aug 07 Python

区分python中的进程与线程

Aug 13 Python

如何使用scrapy中的ItemLoader提取数据

Sep 30 Python

python 下载文件的几种方法汇总

Jan 06 Python

Python中异常处理用法

Nov 27 Python

python爬取微信公众号文章

Aug 31 #Python

Python单向链表和双向链表原理与用法实例详解

Aug 31 #Python

Python使用Flask-SQLAlchemy连接数据库操作示例

Aug 31 #Python

浅谈Python traceback的优雅处理

Aug 31 #Python

python梯度下降法的简单示例

Aug 31 #Python

wxPython的安装与使用教程

Aug 31 #Python

python traceback捕获并打印异常的方法

Aug 31 #Python

You might like

如何对PHP程序中的常见漏洞进行攻击（上）

2006/10/09 PHP

PHP+.htaccess实现全站静态HTML文件GZIP压缩传输(一)

2007/02/15 PHP

PHP在字符断点处截断文字的实现代码

2011/04/21 PHP

php中将字符串转为HTML的实体引用的一个类

2013/02/03 PHP

php截取字符串函数substr,iconv_substr,mb_substr示例以及优劣分析

2014/06/10 PHP

php获取网页上所有链接的方法

2015/04/03 PHP

简单了解PHP编程中数组的指针的使用

2015/11/30 PHP

javascript操作html控件实例(javascript添加html)

2013/12/02 Javascript

javascript中为某个元素指定事件的三种方式

2014/08/07 Javascript

Nodejs全栈框架StrongLoop推荐

2014/11/09 NodeJs

JavaScript实现N皇后问题算法谜题解答

2014/12/29 Javascript

微信小程序数字滚动插件使用详解

2018/02/02 Javascript

vue 修改 data 数据问题并实时显示的方法

2018/08/27 Javascript

Vuejs 实现简易 todoList 功能与组件实例代码

2018/09/10 Javascript

Vuex中的Mutations的具体使用方法

2020/06/01 Javascript

JavaScript canvas实现雨滴特效

2021/01/10 Javascript

[01:00:06]加油DOTA_EP01_网络版

2014/08/09 DOTA

[02:05]DOTA2完美大师赛趣味视频之看我表演

2017/11/18 DOTA

python2.6.6如何升级到python2.7.14

2018/04/08 Python

对python中大文件的导入与导出方法详解

2018/12/28 Python

Python中numpy模块常见用法demo实例小结

2019/03/16 Python

Pycharm+Python+PyQt5使用详解

2019/09/25 Python

python numpy数组中的复制知识解析

2020/02/03 Python

python实现密码验证合格程序的思路详解

2020/06/01 Python

Python 程序报错崩溃后如何倒回到崩溃的位置(推荐)

2020/06/23 Python

无需压缩软件，用python帮你操作压缩包

2020/08/17 Python

Django model class Meta原理解析

2020/11/14 Python

Algenist奥杰尼官网：微藻抗衰老护肤品牌

2017/07/15 全球购物

英国顶级家庭折扣店：The Works

2017/09/06 全球购物

房地产融资计划书

2014/01/10 职场文书

求职简历的自我评价

2014/01/31 职场文书

优秀党员获奖感言

2014/02/18 职场文书

信息合作协议书

2014/10/09 职场文书

卫生院义诊活动总结

2015/05/07 职场文书

html+css实现赛博朋克风格按钮

2021/05/26 HTML / CSS

python 镜像环境搭建总结

2022/09/23 Python