python 爬取微信文章


Posted in Python onJanuary 30, 2016

本人想搞个采集微信文章的网站,无奈实在从微信本生无法找到入口链接,网上翻看了大量的资料,发现大家的做法总体来说大同小异,都是以搜狗为入口。下文是笔者整理的一份python爬取微信文章的代码,有兴趣的欢迎阅读

#coding:utf-8
author = 'haoning'
**#!/usr/bin/env python
import time
import datetime
import requests**
import json
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
import re
import xml.etree.ElementTree as ET
import os
#OPENID = 'oIWsFtyel13ZMva1qltQ3pfejlwU'
OPENID = 'oIWsFtw_-W2DaHwRz1oGWzL-wF9M&ext'
XML_LIST = []
# get current time in milliseconds
current_milli_time = lambda: int(round(time.time() * 1000))
def get_json(pageIndex):

global OPENID
the_headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36',
'Referer': 'http://weixin.sogou.com/gzh?openid={0}'.format(OPENID),
'Host': 'weixin.sogou.com'
}

url = 'http://weixin.sogou.com/gzhjs?cb=sogou.weixin.gzhcb&openid={0}&page={1}&t={2}'.format(OPENID, pageIndex, current_milli_time()) #url
print(url)

response = requests.get(url, headers = the_headers)
# TO-DO; check if match the reg
response_text = response.text
print response_text
json_start = response_text.index('sogou.weixin.gzhcb(') + 19
json_end = response_text.index(')') - 2
json_str = response_text[json_start : json_end] #get json
#print(json_str)
# convert json_str to json object
json_obj = json.loads(json_str) #get json obj
# print json_obj['totalPages']
return json_obj
def add_xml(jsonObj):

global XML_LIST
xmls = jsonObj['items'] #get item
#print type(xmls)
XML_LIST.extend(xmls) #用新列表扩展原来的列表
**[#www.oksousou.com][2]**
# ------------ Main ----------------
print 'play it :) '
# get total pages
default_json_obj = get_json(1)
total_pages = 0
total_items = 0
if(default_json_obj):

# add the default xmls
add_xml(default_json_obj)
# get the rest items
total_pages = default_json_obj['totalPages']
total_items = default_json_obj['totalItems']
print total_pages
# iterate all pages
if(total_pages >= 2):
  for pageIndex in range(2, total_pages + 1):
    add_xml(get_json(pageIndex)) #extend
    print 'load page ' + str(pageIndex)
    print len(XML_LIST)
Python 相关文章推荐
python的绘图工具matplotlib使用实例
Jul 03 Python
Python+Selenium+PIL+Tesseract自动识别验证码进行一键登录
Sep 20 Python
使用C++扩展Python的功能详解
Jan 12 Python
Python实现获取nginx服务器ip及流量统计信息功能示例
May 18 Python
python 切换root 执行命令的方法
Jan 19 Python
python 多进程共享全局变量之Manager()详解
Aug 15 Python
python字典排序的方法
Oct 12 Python
浅谈Tensorflow加载Vgg预训练模型的几个注意事项
May 26 Python
Python 为什么推荐蛇形命名法原因浅析
Jun 18 Python
python为什么要安装到c盘
Jul 20 Python
Python - 10行代码集2000张美女图
May 23 Python
python数字图像处理:图像简单滤波
Jun 28 Python
python生成验证码图片代码分享
Jan 28 #Python
详解Python网络爬虫功能的基本写法
Jan 28 #Python
Python3实现Web网页图片下载
Jan 28 #Python
Python正则获取、过滤或者替换HTML标签的方法
Jan 28 #Python
Python每天必学之bytes字节
Jan 28 #Python
Python装饰器入门学习教程(九步学习)
Jan 28 #Python
基于Python如何使用AIML搭建聊天机器人
Jan 27 #Python
You might like
用PHP和ACCESS写聊天室(九)
2006/10/09 PHP
逐步提升php框架的性能
2008/01/10 PHP
Godaddy空间Zend Optimizer升级方法
2010/05/10 PHP
php+html5基于websocket实现聊天室的方法
2015/07/17 PHP
TP5(thinkPHP5)框架使用ajax实现与后台数据交互的方法小结
2020/02/10 PHP
js判断变量是否空值的代码
2008/10/26 Javascript
Jquery实现点击切换图片并隐藏显示内容(2种方法实现)
2013/04/11 Javascript
jquery仿京东导航/仿淘宝商城左侧分类导航下拉菜单效果
2013/04/24 Javascript
Jquery带搜索框的下拉菜单
2013/05/06 Javascript
js编码、解码函数介绍及其使用示例
2013/09/05 Javascript
JS实现列表页面隔行变色效果
2017/03/25 Javascript
详解nodejs微信公众号开发——1.接入微信公众号
2017/04/10 NodeJs
jQuery阻止事件冒泡实例分析
2018/07/03 jQuery
详解mpvue开发小程序小总结
2018/07/25 Javascript
vue 对axios get pust put delete封装的实例代码
2020/01/05 Javascript
jquery实现简单每周轮换的日历
2020/09/10 jQuery
创建与框架无关的JavaScript插件
2020/12/01 Javascript
深入理解Python中range和xrange的区别
2017/11/26 Python
详解python:time模块用法
2019/03/25 Python
django之自定义软删除Model的方法
2019/08/14 Python
用 Python 制作地球仪的方法
2020/04/24 Python
Django静态文件加载失败解决方案
2020/08/26 Python
简单的命令查看安装的python版本号
2020/08/28 Python
python help函数实例用法
2020/12/06 Python
CSS3 对过渡(transition)进行调速以及延时
2020/10/21 HTML / CSS
HTML5拖拽文件上传的示例代码
2021/03/04 HTML / CSS
SmartBuyGlasses台湾:名牌眼镜,名牌太阳眼镜及隐形眼镜
2017/01/04 全球购物
英国电子产品购物网站:Tech in the basket
2019/11/08 全球购物
自考毕业自我鉴定范文
2013/10/27 职场文书
会计主管岗位职责
2014/01/03 职场文书
经典导游欢迎词大全
2014/01/16 职场文书
企业文化标语口号
2014/06/09 职场文书
批评与自我批评总结
2014/10/17 职场文书
幼儿园大班教师随笔
2015/08/14 职场文书
jquery插件实现图片悬浮
2021/04/16 jQuery
《黑岩★★射手 DAWN FALL》BD发售宣传CM公开
2022/04/04 日漫