编程 Python

python采集微信公众号文章

Posted in Python onDecember 20, 2018

本文实例为大家分享了python采集微信公众号文章的具体代码，供大家参考，具体内容如下

在python一个子目录里存2个文件，分别是：采集公众号文章.py和config.py。代码如下：

1.采集公众号文章.py

from urllib.parse import urlencode
import pymongo
import requests
from lxml.etree import XMLSyntaxError
from requests.exceptions import ConnectionError
from pyquery import PyQuery as pq
from config import *
 
#配置MongoDB
client = pymongo.MongoClient(MONGO_URI)
db = client[MONGO_DB]
 
base_url = 'http://weixin.sogou.com/weixin?'
#添加头文件
headers = {
  'Cookie': 'usid=S-pkM6vW_ac4ktr1; SUV=00A75E9078EFD9F75A6573ECAD0EC883; wuid=AAGCxerSHQAAAAqRGn4SoAgAAAA=; IPLOC=CN4414; SUID=767BEAB73220910A000000005AA9E2AA; pgv_pvi=159197184; pgv_si=s8252565504; ABTEST=0|1521083055|v1; weixinIndexVisited=1; sct=1; JSESSIONID=aaalXqKRP6JjS8ac4Hwhw; ppinf=5|1521083238|1522292838|dHJ1c3Q6MToxfGNsaWVudGlkOjQ6MjAxN3x1bmlxbmFtZTo2OiUzQSUyOXxjcnQ6MTA6MTUyMTA4MzIzOHxyZWZuaWNrOjY6JTNBJTI5fHVzZXJpZDo0NDpvOXQybHVOaExNcS1vLW1zbjMxMmNMSkp4OGpZQHdlaXhpbi5zb2h1LmNvbXw; pprdig=tbVf7qLZdDMjpCn4jTf3dg8C8NeRX-YgDi8KUcezn0rteWuhkgU4xMNaxZbakVQuswboIGl_rD-34abU6VY9Jkv7me3BypigyDnIv2lJUchGCo7Gk58m9Qhrm3Aa7NHLHjFVYoaQkQgBSYKpatxMNPe3Tm57ZDlzdPg_8mBmBNQ; sgid=23-30671195-AVqp42ZctqiaCybbDvvfWno4; PHPSESSID=4jjk2a9rv6kq7m50f42r92u3r3; SUIR=D2DF4E12A5A1C3CE1A8AD7F2A5FE18FE; ppmdig=1521087492000000855f9824f94abe82b25d2839135ad3a8; SNUID=FEF36D3F8882EFEC4FCF61E68801DA49; seccodeRight=success; successCount=1|Thu, 15 Mar 2018 04:23:23 GMT',
  'Host': 'weixin.sogou.com',
  'Referer': 'http://weixin.sogou.com/antispider/?from=%2fweixin%3Fquery%3d%E9%A3%8E%E6%99%AF%26type%3d2%26page%3d95%26ie%3dutf8',
  'Upgrade-Insecure-Requests': '1',
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36'
}
#初始化代理为本地IP
proxy = None
 
#定义获取代理函数
def get_proxy():
  try:
    response = requests.get(PROXY_POOL_URL)
    if response.status_code == 200:
      return response.text
    return None
  except ConnectionError:
    return None
 
#添加代理获取网页内容
def get_html(url, count=1):
  print('Crawling', url)
  print('Trying Count', count)
  global proxy
  if count >= MAX_COUNT:
    print('Tried Too Many Counts')
    return None
  try:
    if proxy:
      proxies = {
        'http': 'http://' + proxy
      }
      response = requests.get(url, allow_redirects=False, headers=headers, proxies=proxies)
    else:
      response = requests.get(url, allow_redirects=False, headers=headers)
    if response.status_code == 200:
      return response.text
    if response.status_code == 302:
      # Need Proxy
      print('302')
      proxy = get_proxy()
      if proxy:
        print('Using Proxy', proxy)
        return get_html(url)
      else:
        print('Get Proxy Failed')
        return None
  except ConnectionError as e:
    print('Error Occurred', e.args)
    proxy = get_proxy()
    count += 1
    return get_html(url, count)
 
 
#获取索引页内容
def get_index(keyword, page):
  data = {
    'query': keyword,
    'type': 2,
    'page': page
  }
  queries = urlencode(data)
  url = base_url + queries
  html = get_html(url)
  return html
 
#解析索引页，提取详情页网址
def parse_index(html):
  doc = pq(html)
  items = doc('.news-box .news-list li .txt-box h3 a').items()
  for item in items:
    yield item.attr('href')
 
#获取详情页
def get_detail(url):
  try:
    response = requests.get(url)
    if response.status_code == 200:
      return response.text
    return None
  except ConnectionError:
    return None
 
#解析索引页，返回微信文章标题、内容、日期、公众号名称等
def parse_detail(html):
  try:
    doc = pq(html)
    title = doc('.rich_media_title').text()
    content = doc('.rich_media_content').text()
    date = doc('#post-date').text()
    nickname = doc('#js_profile_qrcode > div > strong').text()
    wechat = doc('#js_profile_qrcode > div > p:nth-child(3) > span').text()
    return {
      'title': title,
      'content': content,
      'date': date,
      'nickname': nickname,
      'wechat': wechat
    }
  except XMLSyntaxError:
    return None
 
#存储到MongoDB，去重操作
def save_to_mongo(data):
  if db['articles'].update({'title': data['title']}, {'$set': data}, True):
    print('Saved to Mongo', data['title'])
  else:
    print('Saved to Mongo Failed', data['title'])
 
#主函数
def main():
  for page in range(1, 101):
    html = get_index(KEYWORD, page)
    if html:
      article_urls = parse_index(html)
      for article_url in article_urls:
        article_html = get_detail(article_url)
        if article_html:
          article_data = parse_detail(article_html)
          print(article_data)
 
 
if __name__ == '__main__':
  main()

2.config.py代码：

#爬取公众号文章
PROXY_POOL_URL = 'http://127.0.0.1:5000/get'
KEYWORD ='计算机等级二级'   # 输入关键词
MONGO_URI = 'localhost' 
MONGO_DB = 'data'
MAX_COUNT = 5

其中，config.py中KEYWORD为查找关键词，可以根据需要更改。经实测，运行"采集公众号文章.py"成功！若因受限不成功，可多运行几次。

python采集微信公众号文章

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python采集微信公众号文章

- Author -

布衣弓长

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python 除法小技巧

Sep 06 Python

Python写入CSV文件的方法

Jul 08 Python

Python3利用print输出带颜色的彩色字体示例代码

Apr 08 Python

Python 中包/模块的 `import` 操作代码

Apr 22 Python

selenium+python环境配置教程详解

May 28 Python

解决安装python3.7.4报错Can''t connect to HTTPS URL because the SSL module is not available

Jul 31 Python

Python 经典算法100及解析(小结)

Sep 13 Python

下载与当前Chrome对应的chromedriver.exe(用于python+selenium)

Jan 14 Python

详解Python直接赋值,深拷贝和浅拷贝

Jul 09 Python

浅谈怎么给Python添加类型标注

Jun 08 Python

Python中npy和mat文件的保存与读取

Apr 24 Python

PYTHON 使用 Pandas 删除某列指定值所在的行

Apr 28 Python

Linux下Pycharm、Anaconda环境配置及使用踩坑

Dec 19 #Python

python爬虫之urllib,伪装,超时设置,异常处理的方法

Dec 19 #Python

python3实现网络爬虫之BeautifulSoup使用详解

Dec 19 #Python

python爬虫超时的处理的实例

Dec 19 #Python

pycharm中使用anaconda部署python环境的方法步骤

Dec 19 #Python

Django框架模板注入操作示例【变量传递到模板】

Dec 19 #Python

python json.loads兼容单引号数据的方法

Dec 19 #Python

You might like

无线电广播的开始

2002/01/30 无线电

PHP 面向对象 final类与final方法

2010/05/05 PHP

PHP获取MAC地址的具体实例

2013/12/13 PHP

PHP实现XML与数据格式进行转换类实例

2015/07/29 PHP

非常重要的php正则表达式详解

2016/01/04 PHP

Laravel 5.3 学习笔记之配置

2016/08/28 PHP

JavaScript方法和技巧大全

2006/12/27 Javascript

javascript中的prototype属性使用说明(函数功能扩展)

2010/08/16 Javascript

javascript面向对象之二命名空间

2011/02/08 Javascript

jQuery 翻牌或百叶窗效果(内容三秒自动切换)

2012/06/14 Javascript

javascript中普通函数的使用介绍

2013/12/19 Javascript

自己封装的javascript事件队列函数版

2014/06/12 Javascript

Javascript模拟加速运动与减速运动代码分享

2014/12/11 Javascript

JavaScript操作Oracle数据库示例

2015/03/06 Javascript

JavaScript弹出新窗口后向父窗口输出内容的方法

2015/04/06 Javascript

javascript搜索框效果实现方法

2015/05/14 Javascript

js窗口关闭提示信息（兼容IE和firefox）

2015/10/23 Javascript

使用vue.js制作分页组件

2016/06/27 Javascript

JSON与JS对象的区别与对比

2017/03/01 Javascript

react-native封装插件swiper的使用方法

2018/03/20 Javascript

JS函数内部属性之arguments和this实例解析

2018/10/07 Javascript

React性能优化系列之减少props改变的实现方法

2019/01/17 Javascript

详解element-ui中el-select的默认选择项问题

2019/08/02 Javascript

javascript头像上传代码实例

2019/09/28 Javascript

解决vue cli使用typescript后打包巨慢的问题

2019/09/30 Javascript

[00:32]10月24、25日辉夜杯外卡赛附加赛开赛！

2015/10/23 DOTA

pandas apply 函数实现多进程的示例讲解

2018/04/20 Python

python库lxml在linux和WIN系统下的安装

2018/06/24 Python

详解Python正则表达式re模块

2019/03/19 Python

Python实现操纵控制windows注册表的方法分析

2019/05/24 Python

python 3.74 运行import numpy as np 报错lib\site-packages\numpy\__init__.py

2019/10/06 Python

Python While循环语句实例演示及原理解析

2020/01/03 Python

opencv 查找连通区域最大面积实例

2020/06/04 Python

HTML5 绘制图像(上)之:关于canvas元素引领下一代web页面的问题

2013/04/24 HTML / CSS

大学生作弊检讨书

2014/02/19 职场文书

中学生国旗下讲话稿

2014/04/26 职场文书