Python抓取Discuz!用户名脚本代码


Posted in Python onDecember 30, 2013

最近学习Python,于是就用Python写了一个抓取Discuz!用户名的脚本,代码很少但是很搓。思路很简单,就是正则匹配title然后提取用户名写入文本文档。程序以百度站长社区为例(一共有40多万用户),挂在VPS上就没管了,虽然用了延时但是后来发现一共只抓取了50000多个用户名就被封了。。。
代码如下:

# -*- coding: utf-8 -*-
# Author: 天一
# Blog: http://www.90blog.org
# Version: 1.0
# 功能: Python抓取百度站长平台用户名脚本import urllib
import urllib2  
import re
import time
def BiduSpider():
     pattern = re.compile(r'<title>(.*)的个人资料  百度站长社区 </title>')
     uid=1
     thedatas = []
     while uid <400000:
         theUrl = "http://bbs.zhanzhang.baidu.com/home.php?mod=space&uid="+str(uid)
         uid +=1
         theResponse  = urllib2.urlopen(theUrl)
         thePage = theResponse.read()
         #正则匹配用户名
         theFindall = re.findall(pattern,thePage)
         #等待0.5秒,以防频繁访问被禁止
         time.sleep(0.5)
         if theFindall :
              #中文编码防止乱码输出
              thedatas = theFindall[0].decode('utf-8').encode('gbk')
              #写入txt文本文档
              f = open('theUid.txt','a')
              f.writelines(thedatas+'\n')
              f.close()
if __name__ == '__main__':
     BiduSpider()

最终成果如下:

Python抓取Discuz!用户名脚本代码

Python 相关文章推荐
python操作sqlite的CRUD实例分析
May 08 Python
Python实现比较两个列表(list)范围
Jun 12 Python
python+Django+apache的配置方法详解
Jun 01 Python
window下eclipse安装python插件教程
Apr 24 Python
13个最常用的Python深度学习库介绍
Oct 28 Python
python3.6使用pymysql连接Mysql数据库
May 25 Python
python创建文件备份的脚本
Sep 11 Python
Windows系统下PhantomJS的安装和基本用法
Oct 21 Python
python实现简单flappy bird
Dec 24 Python
Python中使用logging和traceback模块记录日志和跟踪异常
Apr 09 Python
如何基于Python实现自动扫雷
Jan 06 Python
Python+Matplotlib+LaTeX玩转数学公式
Feb 24 Python
python之模拟鼠标键盘动作具体实现
Dec 30 #Python
python多线程http下载实现示例
Dec 30 #Python
python正则匹配查询港澳通行证办理进度示例分享
Dec 27 #Python
python模拟登录百度代码分享(获取百度贴吧等级)
Dec 27 #Python
python读文件逐行处理的示例代码分享
Dec 27 #Python
python调用cmd复制文件代码分享
Dec 27 #Python
win7安装python生成随机数代码分享
Dec 27 #Python
You might like
apache+php+mysql安装配置方法小结
2010/08/01 PHP
PHP空值检测函数与方法汇总
2017/11/19 PHP
js电信网通双线自动选择技巧
2008/11/18 Javascript
ext combox 下拉框不出现自动提示,自动选中的解决方法
2010/02/24 Javascript
IE中createElement需要注意的一个问题
2010/07/13 Javascript
js最简单的拖拽效果实现代码
2010/09/24 Javascript
XMLHTTPRequest的属性和方法简介
2010/11/23 Javascript
js获取checkbox复选框选中的选项实例
2014/08/24 Javascript
js实现简单的可切换选项卡效果
2015/04/10 Javascript
js数组去重的方法汇总
2015/07/29 Javascript
js图片轮播特效代码分享
2015/09/07 Javascript
JavaScript数据结构与算法之栈与队列
2016/01/29 Javascript
Javascript之Number对象介绍
2016/06/07 Javascript
jQuery实现简单弹窗遮罩效果
2017/02/27 Javascript
vue-router路由参数刷新消失的问题解决方法
2017/06/17 Javascript
ES7中利用Await减少回调嵌套的方法详解
2017/11/01 Javascript
swiper4实现移动端导航切换
2020/10/16 Javascript
vue各种事件监听实例(小结)
2020/06/24 Javascript
javascript实现移动端轮播图
2020/12/09 Javascript
python正则表达式抓取成语网站
2013/11/20 Python
python合并文本文件示例
2014/02/07 Python
Python 3.8中实现functools.cached_property功能
2019/05/29 Python
如何使用python操作vmware
2019/07/27 Python
Django用户认证系统 Web请求中的认证解析
2019/08/02 Python
Tensorflow 多线程设置方式
2020/02/06 Python
python实现在内存中读写str和二进制数据代码
2020/04/24 Python
HTML5的结构和语义(5):交互
2008/10/17 HTML / CSS
德国足球商店:OUTFITTER
2019/05/06 全球购物
新加坡第一大健康与美容零售商:屈臣氏新加坡(Watsons Singapore)
2020/12/11 全球购物
软件工程师面试题
2012/06/25 面试题
夏季奶茶店创业计划书
2014/01/16 职场文书
活动倡议书范文
2014/05/13 职场文书
2014年财务经理工作总结
2014/12/08 职场文书
婚礼上证婚人致辞
2015/07/28 职场文书
教你如何用Python实现人脸识别(含源代码)
2021/06/23 Python
深入讲解Vue中父子组件通信与事件触发
2022/03/22 Vue.js