Python抓取Discuz!用户名脚本代码


Posted in Python onDecember 30, 2013

最近学习Python,于是就用Python写了一个抓取Discuz!用户名的脚本,代码很少但是很搓。思路很简单,就是正则匹配title然后提取用户名写入文本文档。程序以百度站长社区为例(一共有40多万用户),挂在VPS上就没管了,虽然用了延时但是后来发现一共只抓取了50000多个用户名就被封了。。。
代码如下:

# -*- coding: utf-8 -*-
# Author: 天一
# Blog: http://www.90blog.org
# Version: 1.0
# 功能: Python抓取百度站长平台用户名脚本import urllib
import urllib2  
import re
import time
def BiduSpider():
     pattern = re.compile(r'<title>(.*)的个人资料  百度站长社区 </title>')
     uid=1
     thedatas = []
     while uid <400000:
         theUrl = "http://bbs.zhanzhang.baidu.com/home.php?mod=space&uid="+str(uid)
         uid +=1
         theResponse  = urllib2.urlopen(theUrl)
         thePage = theResponse.read()
         #正则匹配用户名
         theFindall = re.findall(pattern,thePage)
         #等待0.5秒,以防频繁访问被禁止
         time.sleep(0.5)
         if theFindall :
              #中文编码防止乱码输出
              thedatas = theFindall[0].decode('utf-8').encode('gbk')
              #写入txt文本文档
              f = open('theUid.txt','a')
              f.writelines(thedatas+'\n')
              f.close()
if __name__ == '__main__':
     BiduSpider()

最终成果如下:

Python抓取Discuz!用户名脚本代码

Python 相关文章推荐
Python中的多重装饰器
Apr 11 Python
python 矩阵增加一行或一列的实例
Apr 04 Python
解决Python下imread,imwrite不支持中文的问题
Dec 05 Python
python-pyinstaller、打包后获取路径的实例
Jun 10 Python
django 环境变量配置过程详解
Aug 06 Python
Python 中list ,set,dict的大规模查找效率对比详解
Oct 11 Python
pygame库实现移动底座弹球小游戏
Apr 14 Python
如何基于python操作excel并获取内容
Dec 24 Python
Python跑循环时内存泄露的解决方法
Jan 13 Python
Python HTMLTestRunner可视化报告实现过程解析
Apr 10 Python
Python super()函数使用及多重继承
May 06 Python
tensorflow使用CNN分析mnist手写体数字数据集
Jun 17 Python
python之模拟鼠标键盘动作具体实现
Dec 30 #Python
python多线程http下载实现示例
Dec 30 #Python
python正则匹配查询港澳通行证办理进度示例分享
Dec 27 #Python
python模拟登录百度代码分享(获取百度贴吧等级)
Dec 27 #Python
python读文件逐行处理的示例代码分享
Dec 27 #Python
python调用cmd复制文件代码分享
Dec 27 #Python
win7安装python生成随机数代码分享
Dec 27 #Python
You might like
PHP4 与 MySQL 交互使用
2006/10/09 PHP
PHP中“简单工厂模式”实例代码讲解
2012/09/04 PHP
PHP把小数转成整数3种方法
2014/06/30 PHP
php使用sql server验证连接数据库的方法
2014/12/25 PHP
避免Smarty与CSS语法冲突的方法
2015/03/02 PHP
PHP的mysqli_stmt_init()函数讲解
2019/01/24 PHP
javascript天然的迭代器
2010/10/29 Javascript
jQuery学习基础知识小结
2010/11/25 Javascript
Jquery事件的连接使用示例
2013/06/18 Javascript
JQuery获取表格数据示例代码
2014/05/26 Javascript
node.js中的fs.fchown方法使用说明
2014/12/16 Javascript
javasript实现密码的隐藏与显示
2015/05/08 Javascript
分享纯手写漂亮的表单验证
2015/11/19 Javascript
基于js 字符串indexof与search方法的区别(详解)
2017/12/04 Javascript
详解Vue-cli webpack移动端自动化构建rem问题
2018/04/07 Javascript
vue.js绑定事件监听器示例【基于v-on事件绑定】
2018/07/07 Javascript
Vue插件之滑动验证码
2019/09/21 Javascript
Node.js+Vue脚手架环境搭建的方法步骤
2020/03/08 Javascript
python使用reportlab画图示例(含中文汉字)
2013/12/03 Python
跟老齐学Python之私有函数和专有方法
2014/10/24 Python
Python新手实现2048小游戏
2015/03/31 Python
详解Python的Django框架中的模版继承
2015/07/16 Python
Python基于动态规划算法解决01背包问题实例
2017/12/06 Python
解决Python print输出不换行没空格的问题
2018/11/14 Python
django Model层常用验证器及自定义验证器详解
2020/07/15 Python
We Fashion荷兰:一家国际时装公司
2018/04/18 全球购物
SHEIN台湾:购买最新流行女装服饰
2019/05/18 全球购物
Derek Rose官网:英国高档睡衣、家居服和内衣品牌
2020/01/18 全球购物
兰蔻法国官方网站:Lancôme法国
2020/02/22 全球购物
材料加工工程求职信
2014/02/19 职场文书
司法助理专业自荐书
2014/06/13 职场文书
爱心捐书活动总结
2014/07/05 职场文书
个人作风建设总结
2014/10/23 职场文书
免职证明样本
2014/10/23 职场文书
介绍信如何写
2015/01/31 职场文书
海上钢琴师观后感
2015/06/03 职场文书