Python抓取Discuz!用户名脚本代码


Posted in Python onDecember 30, 2013

最近学习Python,于是就用Python写了一个抓取Discuz!用户名的脚本,代码很少但是很搓。思路很简单,就是正则匹配title然后提取用户名写入文本文档。程序以百度站长社区为例(一共有40多万用户),挂在VPS上就没管了,虽然用了延时但是后来发现一共只抓取了50000多个用户名就被封了。。。
代码如下:

# -*- coding: utf-8 -*-
# Author: 天一
# Blog: http://www.90blog.org
# Version: 1.0
# 功能: Python抓取百度站长平台用户名脚本import urllib
import urllib2  
import re
import time
def BiduSpider():
     pattern = re.compile(r'<title>(.*)的个人资料  百度站长社区 </title>')
     uid=1
     thedatas = []
     while uid <400000:
         theUrl = "http://bbs.zhanzhang.baidu.com/home.php?mod=space&uid="+str(uid)
         uid +=1
         theResponse  = urllib2.urlopen(theUrl)
         thePage = theResponse.read()
         #正则匹配用户名
         theFindall = re.findall(pattern,thePage)
         #等待0.5秒,以防频繁访问被禁止
         time.sleep(0.5)
         if theFindall :
              #中文编码防止乱码输出
              thedatas = theFindall[0].decode('utf-8').encode('gbk')
              #写入txt文本文档
              f = open('theUid.txt','a')
              f.writelines(thedatas+'\n')
              f.close()
if __name__ == '__main__':
     BiduSpider()

最终成果如下:

Python抓取Discuz!用户名脚本代码

Python 相关文章推荐
Python下的Mysql模块MySQLdb安装详解
Apr 09 Python
Python中使用HTMLParser解析html实例
Feb 08 Python
python操作sqlite的CRUD实例分析
May 08 Python
python 打印对象的所有属性值的方法
Sep 11 Python
PYTHON 中使用 GLOBAL引发的一系列问题
Oct 12 Python
详解python的webrtc库实现语音端点检测
May 31 Python
Django的性能优化实现解析
Jul 30 Python
Python帮你微信头像任意添加装饰别再@微信官方了
Sep 25 Python
python 中的命名空间,你真的了解吗?
Aug 19 Python
python更新数据库中某个字段的数据(方法详解)
Nov 18 Python
python基础之爬虫入门
May 10 Python
总结Python使用过程中的bug
Jun 18 Python
python之模拟鼠标键盘动作具体实现
Dec 30 #Python
python多线程http下载实现示例
Dec 30 #Python
python正则匹配查询港澳通行证办理进度示例分享
Dec 27 #Python
python模拟登录百度代码分享(获取百度贴吧等级)
Dec 27 #Python
python读文件逐行处理的示例代码分享
Dec 27 #Python
python调用cmd复制文件代码分享
Dec 27 #Python
win7安装python生成随机数代码分享
Dec 27 #Python
You might like
德生PL990,目前市面上唯一一款便携式插卡蓝牙全波段高性能收音机
2021/03/02 无线电
php实现的遍历文件夹下所有文件,编辑删除
2010/01/05 PHP
php脚本运行时的超时机制详解
2016/02/17 PHP
PHP中header用法小结
2016/05/23 PHP
Yii框架日志记录Logging操作示例
2018/07/12 PHP
PHP命名空间简单用法示例
2018/12/28 PHP
分享27个jQuery 表单插件集合推荐
2011/04/25 Javascript
12306验证码破解思路分享
2015/03/25 Javascript
简单的vue-resourse获取json并应用到模板示例
2017/02/10 Javascript
javascript设计模式之中介者模式学习笔记
2017/02/15 Javascript
微信小程序多张图片上传功能
2017/06/07 Javascript
简单的网页广告特效实例
2017/08/19 Javascript
angular之ng-template模板加载
2017/11/09 Javascript
基于Vue的SPA动态修改页面title的方法(推荐)
2018/01/02 Javascript
详解基于electron制作一个node压缩图片的桌面应用
2019/01/29 Javascript
python检测服务器是否正常
2014/02/16 Python
Python采集腾讯新闻实例
2014/07/10 Python
Python使用正则表达式分割字符串的实现方法
2019/07/16 Python
Python爬虫爬取Bilibili弹幕过程解析
2019/10/10 Python
Python迭代器iterator生成器generator使用解析
2019/10/24 Python
python 使用opencv 把视频分割成图片示例
2019/12/12 Python
python多进程并发demo实例解析
2019/12/13 Python
Python实现Canny及Hough算法代码实例解析
2020/08/06 Python
python生成xml时规定dtd实例方法
2020/09/21 Python
Python urllib3软件包的使用说明
2020/11/18 Python
香蕉共和国工厂店:Banana Republic Factory
2018/06/09 全球购物
FC-Moto西班牙:摩托车手最大的购物场所之一
2019/04/11 全球购物
英国首屈一指的票务公司:See Tickets
2019/05/11 全球购物
施工资料员岗位职责
2014/01/06 职场文书
挑战杯创业计划书的写作指南
2014/01/07 职场文书
公司租房协议书
2014/10/14 职场文书
个人欠款协议书范本2014
2014/11/02 职场文书
大学迎新生的欢迎词
2019/06/25 职场文书
python实现web邮箱扫描的示例(附源码)
2021/03/30 Python
解决MySQL存储时间出现不一致的问题
2021/04/28 MySQL
python opencv检测直线 cv2.HoughLinesP的实现
2021/06/18 Python