Python抓取Discuz!用户名脚本代码


Posted in Python onDecember 30, 2013

最近学习Python,于是就用Python写了一个抓取Discuz!用户名的脚本,代码很少但是很搓。思路很简单,就是正则匹配title然后提取用户名写入文本文档。程序以百度站长社区为例(一共有40多万用户),挂在VPS上就没管了,虽然用了延时但是后来发现一共只抓取了50000多个用户名就被封了。。。
代码如下:

# -*- coding: utf-8 -*-
# Author: 天一
# Blog: http://www.90blog.org
# Version: 1.0
# 功能: Python抓取百度站长平台用户名脚本import urllib
import urllib2  
import re
import time
def BiduSpider():
     pattern = re.compile(r'<title>(.*)的个人资料  百度站长社区 </title>')
     uid=1
     thedatas = []
     while uid <400000:
         theUrl = "http://bbs.zhanzhang.baidu.com/home.php?mod=space&uid="+str(uid)
         uid +=1
         theResponse  = urllib2.urlopen(theUrl)
         thePage = theResponse.read()
         #正则匹配用户名
         theFindall = re.findall(pattern,thePage)
         #等待0.5秒,以防频繁访问被禁止
         time.sleep(0.5)
         if theFindall :
              #中文编码防止乱码输出
              thedatas = theFindall[0].decode('utf-8').encode('gbk')
              #写入txt文本文档
              f = open('theUid.txt','a')
              f.writelines(thedatas+'\n')
              f.close()
if __name__ == '__main__':
     BiduSpider()

最终成果如下:

Python抓取Discuz!用户名脚本代码

Python 相关文章推荐
Python写的英文字符大小写转换代码示例
Mar 06 Python
Python面向对象编程中的类和对象学习教程
Mar 30 Python
使用Python的Flask框架实现视频的流媒体传输
Mar 31 Python
在Python中实现贪婪排名算法的教程
Apr 17 Python
在cmd中查看python的安装路径方法
Jul 03 Python
django多种支付、并发订单处理实例代码
Dec 13 Python
详解Pycharm出现out of memory的终极解决方法
Mar 03 Python
详解python中的lambda与sorted函数
Sep 04 Python
python合并多个excel文件的示例
Sep 23 Python
python 实现单例模式的5种方法
Sep 23 Python
5 分钟读懂Python 中的 Hook 钩子函数
Dec 09 Python
python之基数排序的实现
Jul 26 Python
python之模拟鼠标键盘动作具体实现
Dec 30 #Python
python多线程http下载实现示例
Dec 30 #Python
python正则匹配查询港澳通行证办理进度示例分享
Dec 27 #Python
python模拟登录百度代码分享(获取百度贴吧等级)
Dec 27 #Python
python读文件逐行处理的示例代码分享
Dec 27 #Python
python调用cmd复制文件代码分享
Dec 27 #Python
win7安装python生成随机数代码分享
Dec 27 #Python
You might like
ajax在joomla中的原生态应用代码
2012/07/19 PHP
php环境套包 dedeampz 伪静态设置示例
2014/03/26 PHP
php实现字符串翻转的方法
2015/03/27 PHP
php获取文件类型和文件信息的方法
2015/07/10 PHP
php中array_column函数简单实现方法
2016/07/11 PHP
php array_udiff_assoc 计算两个数组的差集实例
2016/11/12 PHP
关于php中的json_encode()和json_decode()函数的一些说明
2016/11/20 PHP
tp5(thinkPHP5)框架数据库Db增删改查常见操作总结
2019/01/10 PHP
php写入mysql中文乱码的实例解决方法
2019/09/17 PHP
基于jquery1.4.2的仿flash超炫焦点图播放效果
2010/04/20 Javascript
Javascript浅谈之this
2013/12/17 Javascript
js换图片效果可进行定时操作
2014/06/09 Javascript
JS实现点击颜色块切换指定区域背景颜色的方法
2015/02/25 Javascript
jquery图片轮播特效代码分享
2020/04/20 Javascript
jQuery Mobile 和 Kendo UI 的比较
2016/05/05 Javascript
Angular2学习笔记——详解路由器模型(Router)
2016/12/02 Javascript
解决vue-cli中stylus无法使用的问题方法
2017/06/19 Javascript
JS鼠标滚动分页效果示例
2017/07/05 Javascript
protractor的安装与基本使用教程
2017/07/07 Javascript
vue实现select下拉显示隐藏功能
2019/09/30 Javascript
[01:39:42]Fnatic vs Mineski 2018国际邀请赛小组赛BO2 第一场 8.17
2018/08/18 DOTA
[02:38]DOTA2 夜魇暗潮2020活动介绍官方视频
2020/11/04 DOTA
[01:27:44]DOTA2-DPC中国联赛 正赛 PSG.LGD vs Aster BO3 第一场 1月24日
2021/03/11 DOTA
Python 迭代器工具包【推荐】
2016/05/06 Python
快速入手Python字符编码
2016/08/03 Python
CentOS6.9 Python环境配置(python2.7、pip、virtualenv)
2019/05/06 Python
python 负数取模运算实例
2020/06/03 Python
详解anaconda离线安装pytorchGPU版
2020/09/08 Python
英国性能汽车零件和发动机配件在线:Maxpeedingrods
2019/11/05 全球购物
人力资源专员岗位职责
2014/01/30 职场文书
公务员政审个人鉴定
2014/02/25 职场文书
关于读书的演讲稿1000字
2014/08/27 职场文书
大学生入党积极分子自我评价
2014/09/20 职场文书
在教室放鞭炮的检讨书
2014/09/28 职场文书
pycharm 如何查看某一函数源码的快捷键
2021/05/12 Python
SpringBoot2零基础到精通之数据库专项精讲
2022/03/22 Java/Android