python3简单实现微信爬虫


Posted in Python onApril 09, 2015

使用ghost.py 通过搜搜 的微信搜索来爬取微信公共账号的信息

# -*- coding: utf-8 -*-
import sys
reload(sys)
import datetime
import time
sys.setdefaultencoding("utf-8")
 
from ghost import Ghost
ghost = Ghost(wait_timeout=20)
 
url="http://weixin.sogou.com/gzh?openid=oIWsFt8JDv7xubXz5E3U41T0eFbk"
page,resources = ghost.open(url)
result, resources = ghost.wait_for_selector("#wxmore a")
 
from bs4 import BeautifulSoup
c=0
while True:
  if c>=30:
    break
 
  soup = BeautifulSoup(ghost.content)
 
  for wx in soup.find_all("h4"):
    print wx
 
  page, resources = ghost.evaluate(
    """
    var div1 = document.getElementById("wxbox");
    div1.innerHTML = '';
    """)
  ghost.click("#wxmore a")
  result, resources = ghost.wait_for_selector(".wx-rb3")
 
  c=c+1
  pass

以上所述就是本文的全部内容了,希望对大家学习Python能够有所帮助

Python 相关文章推荐
Python实现获取某天是某个月中的第几周
Feb 11 Python
python实现八大排序算法(2)
Sep 14 Python
利用numpy实现一、二维数组的拼接简单代码示例
Dec 15 Python
python 读入多行数据的实例
Apr 19 Python
Python3中正则模块re.compile、re.match及re.search函数用法详解
Jun 11 Python
通过python将大量文件按修改时间分类的方法
Oct 17 Python
Python生成一个迭代器的实操方法
Jun 18 Python
Python中拆分字符串的操作方法
Jul 23 Python
python实现各种插值法(数值分析)
Jul 30 Python
python提取照片坐标信息的实例代码
Aug 14 Python
Pycharm连接远程服务器并远程调试的全过程
Jun 24 Python
python playwrigh框架入门安装使用
Jul 23 Python
初步理解Python进程的信号通讯
Apr 09 #Python
详解Python中的多线程编程
Apr 09 #Python
用Python解析XML的几种常见方法的介绍
Apr 09 #Python
在Python中使用pngquant压缩png图片的教程
Apr 09 #Python
python optparse模块使用实例
Apr 09 #Python
Python中处理时间的几种方法小结
Apr 09 #Python
Python CSV模块使用实例
Apr 09 #Python
You might like
CURL状态码列表(详细)
2013/06/27 PHP
php调用KyotoTycoon简单实例
2015/04/02 PHP
Yii 2.0在Grid中格式化时间方法示例
2017/06/06 PHP
JavaScript 权威指南(第四版) 读书笔记
2009/08/11 Javascript
jQuery中调用WebService方法小结
2011/03/28 Javascript
jQuery阻止同类型事件小结
2013/04/19 Javascript
Get中文乱码IE浏览器Get中文乱码解决方案
2013/12/26 Javascript
JavaScript的strict模式与with关键字介绍
2014/02/08 Javascript
JavaScript中伪协议 javascript:使用探讨
2014/07/18 Javascript
jquery实现全选、反选、获得所有选中的checkbox
2020/09/13 Javascript
如何解决easyui自定义标签 datagrid edit combobox 手动输入保存不上
2015/12/26 Javascript
用iframe实现不刷新整个页面上传图片的实例
2016/11/18 Javascript
jQuery:unbind方法的使用详解
2017/08/14 jQuery
bootstrap modal+gridview实现弹出框效果
2017/08/15 Javascript
React Native中Navigator的使用方法示例
2017/10/13 Javascript
css和js实现弹出登录居中界面完整代码
2017/11/26 Javascript
这应该是最详细的响应式系统讲解了
2019/07/22 Javascript
Vue组件间的通信pubsub-js实现步骤解析
2020/03/11 Javascript
JavaScript arguments.callee作用及替换方案详解
2020/09/02 Javascript
[03:18]DOTA2亚洲邀请赛小组赛第一日 RECAP赛事回顾
2015/01/30 DOTA
[38:27]完美世界DOTA2联赛PWL S2 Forest vs FTD.C 第二场 11.26
2020/11/30 DOTA
python批量修改文件后缀示例代码分享
2013/12/24 Python
Python中获取网页状态码的两个方法
2014/11/03 Python
Python爬虫实例爬取网站搞笑段子
2017/11/08 Python
Python判断远程服务器上Excel文件是否被人打开的方法
2020/07/13 Python
python中的时区问题
2021/01/14 Python
利用Python函数实现一个万历表完整示例
2021/01/23 Python
浅析CSS3 用text-overflow解决文字排版问题
2020/10/28 HTML / CSS
基于Html5实现的react拖拽排序组件示例
2018/08/13 HTML / CSS
美国隐形眼镜销售网站:ContactsDirect
2017/10/28 全球购物
统计员岗位职责
2013/11/14 职场文书
《独坐敬亭山》教学反思
2014/04/08 职场文书
抗震救灾标语
2014/06/26 职场文书
婚庆主持词大全
2015/06/30 职场文书
vue-cli3.0修改打包后的文件名和文件地址,打包后本地运行报错解决
2022/04/06 Vue.js
win10音频服务未响应怎么解决?win10音频服务未响应未修复的解决方法
2022/08/14 数码科技