Python抓取Discuz!用户名脚本代码


Posted in Python onDecember 30, 2013

最近学习Python,于是就用Python写了一个抓取Discuz!用户名的脚本,代码很少但是很搓。思路很简单,就是正则匹配title然后提取用户名写入文本文档。程序以百度站长社区为例(一共有40多万用户),挂在VPS上就没管了,虽然用了延时但是后来发现一共只抓取了50000多个用户名就被封了。。。
代码如下:

# -*- coding: utf-8 -*-
# Author: 天一
# Blog: http://www.90blog.org
# Version: 1.0
# 功能: Python抓取百度站长平台用户名脚本import urllib
import urllib2  
import re
import time
def BiduSpider():
     pattern = re.compile(r'<title>(.*)的个人资料  百度站长社区 </title>')
     uid=1
     thedatas = []
     while uid <400000:
         theUrl = "http://bbs.zhanzhang.baidu.com/home.php?mod=space&uid="+str(uid)
         uid +=1
         theResponse  = urllib2.urlopen(theUrl)
         thePage = theResponse.read()
         #正则匹配用户名
         theFindall = re.findall(pattern,thePage)
         #等待0.5秒,以防频繁访问被禁止
         time.sleep(0.5)
         if theFindall :
              #中文编码防止乱码输出
              thedatas = theFindall[0].decode('utf-8').encode('gbk')
              #写入txt文本文档
              f = open('theUid.txt','a')
              f.writelines(thedatas+'\n')
              f.close()
if __name__ == '__main__':
     BiduSpider()

最终成果如下:

Python抓取Discuz!用户名脚本代码

Python 相关文章推荐
Sanic框架流式传输操作示例
Jul 18 Python
由Python编写的MySQL管理工具代码实例
Apr 09 Python
python 函数中的内置函数及用法详解
Jul 02 Python
python实现串口自动触发工作的示例
Jul 02 Python
python如何保证输入键入数字的方法
Aug 23 Python
Pycharm中import torch报错的快速解决方法
Mar 05 Python
python 获取当前目录下的文件目录和文件名实例代码详解
Mar 10 Python
jupyter notebook运行命令显示[*](解决办法)
May 18 Python
Tensorflow使用Anaconda、pycharm安装记录
Jul 29 Python
python线程里哪种模块比较适合
Aug 02 Python
Python网络编程之ZeroMQ知识总结
Apr 25 Python
Github 使用python对copilot做些简单使用测试
Apr 14 Python
python之模拟鼠标键盘动作具体实现
Dec 30 #Python
python多线程http下载实现示例
Dec 30 #Python
python正则匹配查询港澳通行证办理进度示例分享
Dec 27 #Python
python模拟登录百度代码分享(获取百度贴吧等级)
Dec 27 #Python
python读文件逐行处理的示例代码分享
Dec 27 #Python
python调用cmd复制文件代码分享
Dec 27 #Python
win7安装python生成随机数代码分享
Dec 27 #Python
You might like
php radio 单选框获取与保持值的实现代码
2010/05/15 PHP
php使用redis的几种常见操作方式和用法示例
2020/02/20 PHP
javascript实现轮显新闻标题链接
2007/08/13 Javascript
javascript中的变量是传值还是传址的?
2010/04/19 Javascript
javascript中万恶的function实例分析
2011/05/25 Javascript
css transform 3D幻灯片特效实现步骤解读
2013/03/27 Javascript
JavaScript cookie的设置获取删除详解
2014/02/11 Javascript
js如何实现点击标签文字,文字在文本框出现
2015/08/05 Javascript
jquery仅用6行代码实现滑动门效果
2015/09/07 Javascript
jQuery获取父元素及父节点的方法小结
2016/04/14 Javascript
js中使用使用原型(prototype)定义方法的好处详解
2016/07/04 Javascript
用JS编写一个函数,返回数组中重复出现过的元素(实例)
2017/09/14 Javascript
Vue2.0学习之详解Vue 组件及父子组件通信
2017/12/12 Javascript
实例学习JavaScript读取和写入cookie
2018/01/29 Javascript
vue自定义tap指令及tap事件的实现
2018/09/18 Javascript
浅谈vux之x-input使用以及源码解读
2018/11/04 Javascript
微信小程序实现Swiper轮播图效果
2019/11/22 Javascript
小程序自定义模板实现吸顶功能
2020/01/08 Javascript
vue mvvm数据响应实现
2020/11/11 Javascript
[02:11]2016国际邀请赛中国区预选赛全程回顾
2016/07/01 DOTA
[00:32]2018DOTA2亚洲邀请赛Secret出场
2018/04/03 DOTA
Python微信企业号开发之回调模式接收微信端客户端发送消息及被动返回消息示例
2017/08/21 Python
python3.6根据m3u8下载mp4视频
2019/06/17 Python
wxPython实现整点报时
2019/11/18 Python
有关pycharm登录github时有的时候会报错connection reset的问题
2020/09/15 Python
python生成xml时规定dtd实例方法
2020/09/21 Python
css3的@media属性实现页面响应式布局示例代码
2014/02/10 HTML / CSS
HTML5中的Web Notification桌面右下角通知功能的实现
2018/04/19 HTML / CSS
html2canvas生成的图片偏移不完整的解决方法
2020/05/19 HTML / CSS
大二学生学年自我鉴定
2014/09/12 职场文书
企业法人代表证明书
2014/09/27 职场文书
个人作风纪律整顿整改措施
2014/10/25 职场文书
教师党的群众路线学习心得体会
2014/11/04 职场文书
写给孩子的新学期寄语
2015/02/27 职场文书
2015年市场营销工作总结
2015/07/23 职场文书
美元符号 $
2022/02/17 杂记