Python抓取Discuz!用户名脚本代码


Posted in Python onDecember 30, 2013

最近学习Python,于是就用Python写了一个抓取Discuz!用户名的脚本,代码很少但是很搓。思路很简单,就是正则匹配title然后提取用户名写入文本文档。程序以百度站长社区为例(一共有40多万用户),挂在VPS上就没管了,虽然用了延时但是后来发现一共只抓取了50000多个用户名就被封了。。。
代码如下:

# -*- coding: utf-8 -*-
# Author: 天一
# Blog: http://www.90blog.org
# Version: 1.0
# 功能: Python抓取百度站长平台用户名脚本import urllib
import urllib2  
import re
import time
def BiduSpider():
     pattern = re.compile(r'<title>(.*)的个人资料  百度站长社区 </title>')
     uid=1
     thedatas = []
     while uid <400000:
         theUrl = "http://bbs.zhanzhang.baidu.com/home.php?mod=space&uid="+str(uid)
         uid +=1
         theResponse  = urllib2.urlopen(theUrl)
         thePage = theResponse.read()
         #正则匹配用户名
         theFindall = re.findall(pattern,thePage)
         #等待0.5秒,以防频繁访问被禁止
         time.sleep(0.5)
         if theFindall :
              #中文编码防止乱码输出
              thedatas = theFindall[0].decode('utf-8').encode('gbk')
              #写入txt文本文档
              f = open('theUid.txt','a')
              f.writelines(thedatas+'\n')
              f.close()
if __name__ == '__main__':
     BiduSpider()

最终成果如下:

Python抓取Discuz!用户名脚本代码

Python 相关文章推荐
python数据结构树和二叉树简介
Apr 29 Python
使用Python3编写抓取网页和只抓网页图片的脚本
Aug 20 Python
Python+微信接口实现运维报警
Aug 27 Python
python3 flask实现文件上传功能
Mar 20 Python
让代码变得更易维护的7个Python库
Oct 09 Python
对Pandas DataFrame缺失值的查找与填充示例讲解
Nov 06 Python
Python正则表达式实现简易计算器功能示例
May 07 Python
python中pip的使用和修改下载源的方法
Jul 08 Python
python线程的几种创建方式详解
Aug 29 Python
Python操作SQLite数据库过程解析
Sep 02 Python
解决import tensorflow as tf 出错的原因
Apr 16 Python
浅析PyCharm 的初始设置(知道)
Oct 12 Python
python之模拟鼠标键盘动作具体实现
Dec 30 #Python
python多线程http下载实现示例
Dec 30 #Python
python正则匹配查询港澳通行证办理进度示例分享
Dec 27 #Python
python模拟登录百度代码分享(获取百度贴吧等级)
Dec 27 #Python
python读文件逐行处理的示例代码分享
Dec 27 #Python
python调用cmd复制文件代码分享
Dec 27 #Python
win7安装python生成随机数代码分享
Dec 27 #Python
You might like
浅析51个PHP处理字符串的函数
2013/08/02 PHP
PHP的foreach中使用引用时需要注意的一个问题和解决方法
2014/05/29 PHP
PHP获取一年中每个星期的开始和结束日期的方法
2015/02/12 PHP
PHP添加PNG图片背景透明水印操作类定义与用法示例
2019/03/12 PHP
贴一个在Mozilla中常用的Javascript代码
2007/01/09 Javascript
jQuery 研究心得 取得属性的值
2007/11/30 Javascript
jQuery验证Checkbox是否选中的代码 推荐
2011/09/04 Javascript
使用JavaScript 实现各种跨域的方法
2013/05/08 Javascript
jquery事件与函数的使用介绍
2013/09/29 Javascript
jQuery+html5实现div弹出层并遮罩背景
2015/04/15 Javascript
jQuery+CSS3实现3D立方体旋转效果
2015/11/10 Javascript
深入浅析JSON.parse()、JSON.stringify()和eval()的作用详解
2016/04/03 Javascript
JS 根据子网掩码,网关计算出所有IP地址范围示例
2020/04/23 Javascript
使用jsonp实现跨域获取数据实例讲解
2016/12/25 Javascript
JS实现队列的先进先出功能示例
2017/05/10 Javascript
Vue-router的使用和出现空白页,路由对象属性详解
2018/09/03 Javascript
jQuery实现网页拼图游戏
2020/04/22 jQuery
对于防止按钮重复点击的尝试详解
2019/04/22 Javascript
JS常见面试试题总结【去重、遍历、闭包、继承等】
2019/08/27 Javascript
ionic3双击返回退出应用的方法
2019/09/17 Javascript
JQuery常用简单动画操作方法回顾与总结
2019/12/07 jQuery
Python处理JSON数据并生成条形图
2016/08/05 Python
浅谈numpy数组的几种排序方式
2017/12/15 Python
Python编程中NotImplementedError的使用方法
2018/04/21 Python
python 字符串追加实例
2019/07/20 Python
python两个_多个字典合并相加的实例代码
2019/12/26 Python
基于python模拟bfs和dfs代码实例
2020/11/19 Python
html5中JavaScript removeChild 删除所有节点
2014/05/16 HTML / CSS
家长给小学生的评语
2014/01/30 职场文书
2014年道德讲堂实施方案
2014/03/05 职场文书
分层教学实施方案
2014/03/19 职场文书
气象学专业个人求职信
2014/04/22 职场文书
青年文明号口号
2014/06/17 职场文书
酒店七夕情人节活动策划方案
2014/08/24 职场文书
学校感恩节活动策划方案
2014/10/06 职场文书
2016年寒假社会实践活动总结
2015/03/27 职场文书