尝试使用Python多线程抓取代理服务器IP地址的示例


Posted in Python onNovember 09, 2015

这里以抓取 http://www.proxy.com.ru 站点的代理服务器为例,代码如下:

#!/usr/bin/env python
#coding:utf-8
import urllib2
import re
import threading
import time
import MySQLdb
rawProxyList = []
checkedProxyList = []
#抓取代理网站
targets = []
for i in xrange(1,42):
  target = r"http://www.proxy.com.ru/list_%d.html" % i
  targets.append(target)
#抓取代理服务器正则
p = re.compile(r'''<tr><b><td>(\d+)</td><td>(.+?)</td><td>(\d+)</td><td>(.+?)</td><td>(.+?)</td></b></tr>''')
#获取代理的类
class ProxyGet(threading.Thread):
 def __init__(self,target):
  threading.Thread.__init__(self)
  self.target = target
 def getProxy(self):
  print "代理服务器目标网站: " + self.target
  req = urllib2.urlopen(self.target)
  result = req.read()
  #print chardet.detect(result)
  matchs = p.findall(result)
#  print matchs
  for row in matchs:
   ip=row[1]
   port =row[2]
   addr = row[4].decode("cp936").encode("utf-8")
   proxy = [ip,port,addr]
   print proxy
   rawProxyList.append(proxy)
 def run(self):
  self.getProxy()
#检验代理的类
class ProxyCheck(threading.Thread):
 def __init__(self,proxyList):
  threading.Thread.__init__(self)
  self.proxyList = proxyList
  self.timeout = 5
  self.testUrl = "http://www.baidu.com/"
  self.testStr = "030173"
 def checkProxy(self):
  cookies = urllib2.HTTPCookieProcessor()
  for proxy in self.proxyList:
   proxyHandler = urllib2.ProxyHandler({"http" : r'http://%s:%s' %(proxy[0],proxy[1])})
   #print r'http://%s:%s' %(proxy[0],proxy[1])
   opener = urllib2.build_opener(cookies,proxyHandler)
   opener.addheaders = [('User-agent', 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:22.0) Gecko/20100101 Firefox/22.0')]
   #urllib2.install_opener(opener)
   t1 = time.time()
   try:
    #req = urllib2.urlopen("http://www.baidu.com", timeout=self.timeout)
    req = opener.open(self.testUrl, timeout=self.timeout)
    #print "urlopen is ok...."
    result = req.read()
    #print "read html...."
    timeused = time.time() - t1
    pos = result.find(self.testStr)
    #print "pos is %s" %pos
    if pos > 1:
     checkedProxyList.append((proxy[0],proxy[1],proxy[2],timeused))
     #print "ok ip: %s %s %s %s" %(proxy[0],proxy[1],proxy[2],timeused)
    else:
      continue
   except Exception,e:
    #print e.message
    continue
 def run(self):
  self.checkProxy()
if __name__ == "__main__":
 getThreads = []
 checkThreads = []
#对每个目标网站开启一个线程负责抓取代理
for i in range(len(targets)):
 t = ProxyGet(targets[i])
 getThreads.append(t)
for i in range(len(getThreads)):
 getThreads[i].start()
for i in range(len(getThreads)):
 getThreads[i].join()
print '.'*10+"总共抓取了%s个代理" %len(rawProxyList) +'.'*10
#开启20个线程负责校验,将抓取到的代理分成20份,每个线程校验一份
for i in range(20):
 t = ProxyCheck(rawProxyList[((len(rawProxyList)+19)/20) * i:((len(rawProxyList)+19)/20) * (i+1)])
 checkThreads.append(t)
for i in range(len(checkThreads)):
 checkThreads[i].start()
for i in range(len(checkThreads)):
 checkThreads[i].join()
print '.'*10+"总共有%s个代理通过校验" %len(checkedProxyList) +'.'*10
#插入数据库,表结构自己创建,四个字段ip,port,speed,address
def db_insert(insert_list):
 try:
  conn = MySQLdb.connect(host="localhost", user="root", passwd="admin",db="m_common",charset='utf8')
  cursor = conn.cursor()
  cursor.execute('delete from proxy')
  cursor.execute('alter table proxy AUTO_INCREMENT=1')
  cursor.executemany("INSERT INTO proxy(ip,port,speed,address) VALUES (%s,%s,%s,%s)",insert_list)
  conn.commit()
  cursor.close()
  conn.close()
 except MySQLdb.Error,e:
  print "Mysql Error %d: %s" % (e.args[0], e.args[1])
#代理排序持久化
proxy_ok = []
f= open("proxy_list.txt",'w+')
for proxy in sorted(checkedProxyList,cmp=lambda x,y:cmp(x[3],y[3])):
 if proxy[3] < 8:
  #print "checked proxy is: %s:%s\t%s\t%s" %(proxy[0],proxy[1],proxy[2],proxy[3])
  proxy_ok.append((proxy[0],proxy[1],proxy[3],proxy[2]))
  f.write("%s:%s\t%s\t%s\n"%(proxy[0],proxy[1],proxy[2],proxy[3]))
f.close()
db_insert(proxy_ok)

测试:

python proxy.py

结果如下:

['61.58.94.179', '8088', '\xe5\x8f\xb0\xe6\xb9\xbe\xe7\x9c\x81 \xe5\x8f\xb0\xe6\xb9\xbe\xe5\xae\xbd\xe9\xa2\x91\xe9\x80\x9a\xe8\xae\xaf\xe9\xa1\xbe\xe9\x97\xae\xe8\x82\xa1\xe4\xbb\xbd\xe6\x9c\x89\xe9\x99\x90\xe5\x85\xac\xe5\x8f\xb8']
['200.84.116.99', '9064', '\xe5\xa7\x94\xe5\x86\x85\xe7\x91\x9e\xe6\x8b\x89 ']
['183.223.204.8', '8123', '\xe5\x9b\x9b\xe5\xb7\x9d\xe7\x9c\x81\xe8\x87\xaa\xe8\xb4\xa1\xe5\xb8\x82 \xe7\xa7\xbb\xe5\x8a\xa8']
..........总共抓取了1921个代理..........
..........总共有524个代理通过校验..........
# more proxy_list.txt
202.106.169.142:80  北京市 联通ADSL 0.291432857513
111.13.136.59:80  北京市 移动  0.297957897186
111.13.136.56:80  北京市 移动  0.373070955276
111.206.81.248:80  北京市 联通  0.403017997742
111.13.136.58:80  北京市 移动  0.414332151413
124.202.217.134:8118 北京市 电信通 0.416817903519
124.202.183.218:8118 北京市 电信通 0.426618099213
120.132.71.232:80  北京市 联通  0.440200090408
61.232.6.164:8081  北京市 铁通  0.469615936279
118.144.96.253:80  北京市 电信通 0.485229969025
203.192.10.66:80  北京市 新华社 0.51485991478
124.202.182.22:8118  北京市 电信通 0.553130865097

数据库:

mysql> select * from m_common.proxy limit 10;
+----------+-----------------+------+----------+----------------------+---------------------+
| proxy_id | ip    | port | speed | address    | create_time   |
+----------+-----------------+------+----------+----------------------+---------------------+
|  1 | 202.106.169.142 | 80 | 0.291433 | 北京市 联通ADSL  | 2015-02-26 11:29:24 |
|  2 | 111.13.136.59 | 80 | 0.297958 | 北京市 移动   | 2015-02-26 11:29:24 |
|  3 | 111.13.136.56 | 80 | 0.373071 | 北京市 移动   | 2015-02-26 11:29:24 |
|  4 | 111.206.81.248 | 80 | 0.403018 | 北京市 联通   | 2015-02-26 11:29:24 |
|  5 | 111.13.136.58 | 80 | 0.414332 | 北京市 移动   | 2015-02-26 11:29:24 |
|  6 | 124.202.217.134 | 8118 | 0.416818 | 北京市 电信通  | 2015-02-26 11:29:24 |
|  7 | 124.202.183.218 | 8118 | 0.426618 | 北京市 电信通  | 2015-02-26 11:29:24 |
|  8 | 120.132.71.232 | 80 | 0.4402 | 北京市 联通   | 2015-02-26 11:29:24 |
|  9 | 61.232.6.164 | 8081 | 0.469616 | 北京市 铁通   | 2015-02-26 11:29:24 |
|  10 | 118.144.96.253 | 80 | 0.48523 | 北京市 电信通  | 2015-02-26 11:29:24 |
+----------+-----------------+------+----------+----------------------+---------------------+
10 rows in set (0.00 sec)
Python 相关文章推荐
在Windows8上的搭建Python和Django环境
Jul 03 Python
Nginx搭建HTTPS服务器和强制使用HTTPS访问的方法
Aug 16 Python
python 上下文管理器使用方法小结
Oct 10 Python
Python 打印中文字符的三种方法
Aug 14 Python
django框架model orM使用字典作为参数,保存数据的方法分析
Jun 24 Python
Python中面向对象你应该知道的一下知识
Jul 10 Python
新手入门Python编程的8个实用建议
Jul 12 Python
Python生命游戏实现原理及过程解析(附源代码)
Aug 01 Python
Python实现随机取一个矩阵数组的某几行
Nov 26 Python
Python3.7基于hashlib和Crypto实现加签验签功能(实例代码)
Dec 04 Python
python中提高pip install速度
Feb 14 Python
Pycharm github配置实现过程图解
Oct 13 Python
使用Python实现BT种子和磁力链接的相互转换
Nov 09 #Python
Python中MySQLdb和torndb模块对MySQL的断连问题处理
Nov 09 #Python
使用Python对IP进行转换的一些操作技巧小结
Nov 09 #Python
Python实现模拟时钟代码推荐
Nov 08 #Python
用Python的Flask框架结合MySQL写一个内存监控程序
Nov 07 #Python
Python的Flask框架中SQLAlchemy使用时的乱码问题解决
Nov 07 #Python
举例讲解Linux系统下Python调用系统Shell的方法
Nov 07 #Python
You might like
PHP利用str_replace防注入的方法
2013/11/10 PHP
使用PHP强制下载PDF文件示例
2014/01/17 PHP
php使用mysqli向数据库添加数据的方法
2015/03/20 PHP
PHP文件下载实例代码浅析
2016/08/17 PHP
php发送http请求的常用方法分析
2016/11/08 PHP
javascript小组件 原生table排序表格脚本(兼容ie firefox opera chrome)
2012/07/25 Javascript
JavaScript自动设置IFrame高度的小例子
2013/06/08 Javascript
js实现倒计时时钟的示例代码
2013/12/17 Javascript
字段太多jquey快速清空表单内容方法
2014/08/21 Javascript
轻松创建nodejs服务器(6):作出响应
2014/12/18 NodeJs
JavaScript实现将UPC转换成ISBN的方法
2015/05/26 Javascript
详解JS中Array对象扩展与String对象扩展
2016/01/07 Javascript
javascript事件绑定学习要点
2016/03/09 Javascript
js正则表达式校验指定字符串的方法
2018/07/23 Javascript
基于vue实现探探滑动组件功能
2020/05/29 Javascript
ES6学习教程之Promise用法详解
2020/11/22 Javascript
python网络编程之TCP通信实例和socketserver框架使用例子
2014/04/25 Python
Python StringIO模块实现在内存缓冲区中读写数据
2015/04/08 Python
Python的time模块中的常用方法整理
2015/06/18 Python
python根据京东商品url获取产品价格
2015/08/09 Python
Python基础之getpass模块详细介绍
2017/08/10 Python
Mac中Python 3环境下安装scrapy的方法教程
2017/10/26 Python
python使用锁访问共享变量实例解析
2018/02/08 Python
Pycharm新手教程(只需要看这篇就够了)
2019/06/18 Python
通过python实现windows桌面截图代码实例
2020/01/17 Python
Python continue语句实例用法
2020/02/06 Python
中国领先的专业家电网购平台:国美在线
2016/12/25 全球购物
Coach澳大利亚官方网站:美国著名时尚奢侈品牌
2017/05/24 全球购物
SmartBuyGlasses美国官网:太阳眼镜和眼镜
2017/08/20 全球购物
社会实践自我鉴定
2013/11/07 职场文书
优秀经理获奖感言
2014/03/04 职场文书
大学生职业生涯规划大赛作品(精品)
2014/09/17 职场文书
党的群众路线教育实践活动领导班子整改措施
2014/09/30 职场文书
同学聚会邀请函
2015/01/30 职场文书
2015七夕情人节宣传语
2015/07/14 职场文书
Golang标准库syscall详解(什么是系统调用)
2021/05/25 Golang