尝试使用Python多线程抓取代理服务器IP地址的示例


Posted in Python onNovember 09, 2015

这里以抓取 http://www.proxy.com.ru 站点的代理服务器为例,代码如下:

#!/usr/bin/env python
#coding:utf-8
import urllib2
import re
import threading
import time
import MySQLdb
rawProxyList = []
checkedProxyList = []
#抓取代理网站
targets = []
for i in xrange(1,42):
  target = r"http://www.proxy.com.ru/list_%d.html" % i
  targets.append(target)
#抓取代理服务器正则
p = re.compile(r'''<tr><b><td>(\d+)</td><td>(.+?)</td><td>(\d+)</td><td>(.+?)</td><td>(.+?)</td></b></tr>''')
#获取代理的类
class ProxyGet(threading.Thread):
 def __init__(self,target):
  threading.Thread.__init__(self)
  self.target = target
 def getProxy(self):
  print "代理服务器目标网站: " + self.target
  req = urllib2.urlopen(self.target)
  result = req.read()
  #print chardet.detect(result)
  matchs = p.findall(result)
#  print matchs
  for row in matchs:
   ip=row[1]
   port =row[2]
   addr = row[4].decode("cp936").encode("utf-8")
   proxy = [ip,port,addr]
   print proxy
   rawProxyList.append(proxy)
 def run(self):
  self.getProxy()
#检验代理的类
class ProxyCheck(threading.Thread):
 def __init__(self,proxyList):
  threading.Thread.__init__(self)
  self.proxyList = proxyList
  self.timeout = 5
  self.testUrl = "http://www.baidu.com/"
  self.testStr = "030173"
 def checkProxy(self):
  cookies = urllib2.HTTPCookieProcessor()
  for proxy in self.proxyList:
   proxyHandler = urllib2.ProxyHandler({"http" : r'http://%s:%s' %(proxy[0],proxy[1])})
   #print r'http://%s:%s' %(proxy[0],proxy[1])
   opener = urllib2.build_opener(cookies,proxyHandler)
   opener.addheaders = [('User-agent', 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:22.0) Gecko/20100101 Firefox/22.0')]
   #urllib2.install_opener(opener)
   t1 = time.time()
   try:
    #req = urllib2.urlopen("http://www.baidu.com", timeout=self.timeout)
    req = opener.open(self.testUrl, timeout=self.timeout)
    #print "urlopen is ok...."
    result = req.read()
    #print "read html...."
    timeused = time.time() - t1
    pos = result.find(self.testStr)
    #print "pos is %s" %pos
    if pos > 1:
     checkedProxyList.append((proxy[0],proxy[1],proxy[2],timeused))
     #print "ok ip: %s %s %s %s" %(proxy[0],proxy[1],proxy[2],timeused)
    else:
      continue
   except Exception,e:
    #print e.message
    continue
 def run(self):
  self.checkProxy()
if __name__ == "__main__":
 getThreads = []
 checkThreads = []
#对每个目标网站开启一个线程负责抓取代理
for i in range(len(targets)):
 t = ProxyGet(targets[i])
 getThreads.append(t)
for i in range(len(getThreads)):
 getThreads[i].start()
for i in range(len(getThreads)):
 getThreads[i].join()
print '.'*10+"总共抓取了%s个代理" %len(rawProxyList) +'.'*10
#开启20个线程负责校验,将抓取到的代理分成20份,每个线程校验一份
for i in range(20):
 t = ProxyCheck(rawProxyList[((len(rawProxyList)+19)/20) * i:((len(rawProxyList)+19)/20) * (i+1)])
 checkThreads.append(t)
for i in range(len(checkThreads)):
 checkThreads[i].start()
for i in range(len(checkThreads)):
 checkThreads[i].join()
print '.'*10+"总共有%s个代理通过校验" %len(checkedProxyList) +'.'*10
#插入数据库,表结构自己创建,四个字段ip,port,speed,address
def db_insert(insert_list):
 try:
  conn = MySQLdb.connect(host="localhost", user="root", passwd="admin",db="m_common",charset='utf8')
  cursor = conn.cursor()
  cursor.execute('delete from proxy')
  cursor.execute('alter table proxy AUTO_INCREMENT=1')
  cursor.executemany("INSERT INTO proxy(ip,port,speed,address) VALUES (%s,%s,%s,%s)",insert_list)
  conn.commit()
  cursor.close()
  conn.close()
 except MySQLdb.Error,e:
  print "Mysql Error %d: %s" % (e.args[0], e.args[1])
#代理排序持久化
proxy_ok = []
f= open("proxy_list.txt",'w+')
for proxy in sorted(checkedProxyList,cmp=lambda x,y:cmp(x[3],y[3])):
 if proxy[3] < 8:
  #print "checked proxy is: %s:%s\t%s\t%s" %(proxy[0],proxy[1],proxy[2],proxy[3])
  proxy_ok.append((proxy[0],proxy[1],proxy[3],proxy[2]))
  f.write("%s:%s\t%s\t%s\n"%(proxy[0],proxy[1],proxy[2],proxy[3]))
f.close()
db_insert(proxy_ok)

测试:

python proxy.py

结果如下:

['61.58.94.179', '8088', '\xe5\x8f\xb0\xe6\xb9\xbe\xe7\x9c\x81 \xe5\x8f\xb0\xe6\xb9\xbe\xe5\xae\xbd\xe9\xa2\x91\xe9\x80\x9a\xe8\xae\xaf\xe9\xa1\xbe\xe9\x97\xae\xe8\x82\xa1\xe4\xbb\xbd\xe6\x9c\x89\xe9\x99\x90\xe5\x85\xac\xe5\x8f\xb8']
['200.84.116.99', '9064', '\xe5\xa7\x94\xe5\x86\x85\xe7\x91\x9e\xe6\x8b\x89 ']
['183.223.204.8', '8123', '\xe5\x9b\x9b\xe5\xb7\x9d\xe7\x9c\x81\xe8\x87\xaa\xe8\xb4\xa1\xe5\xb8\x82 \xe7\xa7\xbb\xe5\x8a\xa8']
..........总共抓取了1921个代理..........
..........总共有524个代理通过校验..........
# more proxy_list.txt
202.106.169.142:80  北京市 联通ADSL 0.291432857513
111.13.136.59:80  北京市 移动  0.297957897186
111.13.136.56:80  北京市 移动  0.373070955276
111.206.81.248:80  北京市 联通  0.403017997742
111.13.136.58:80  北京市 移动  0.414332151413
124.202.217.134:8118 北京市 电信通 0.416817903519
124.202.183.218:8118 北京市 电信通 0.426618099213
120.132.71.232:80  北京市 联通  0.440200090408
61.232.6.164:8081  北京市 铁通  0.469615936279
118.144.96.253:80  北京市 电信通 0.485229969025
203.192.10.66:80  北京市 新华社 0.51485991478
124.202.182.22:8118  北京市 电信通 0.553130865097

数据库:

mysql> select * from m_common.proxy limit 10;
+----------+-----------------+------+----------+----------------------+---------------------+
| proxy_id | ip    | port | speed | address    | create_time   |
+----------+-----------------+------+----------+----------------------+---------------------+
|  1 | 202.106.169.142 | 80 | 0.291433 | 北京市 联通ADSL  | 2015-02-26 11:29:24 |
|  2 | 111.13.136.59 | 80 | 0.297958 | 北京市 移动   | 2015-02-26 11:29:24 |
|  3 | 111.13.136.56 | 80 | 0.373071 | 北京市 移动   | 2015-02-26 11:29:24 |
|  4 | 111.206.81.248 | 80 | 0.403018 | 北京市 联通   | 2015-02-26 11:29:24 |
|  5 | 111.13.136.58 | 80 | 0.414332 | 北京市 移动   | 2015-02-26 11:29:24 |
|  6 | 124.202.217.134 | 8118 | 0.416818 | 北京市 电信通  | 2015-02-26 11:29:24 |
|  7 | 124.202.183.218 | 8118 | 0.426618 | 北京市 电信通  | 2015-02-26 11:29:24 |
|  8 | 120.132.71.232 | 80 | 0.4402 | 北京市 联通   | 2015-02-26 11:29:24 |
|  9 | 61.232.6.164 | 8081 | 0.469616 | 北京市 铁通   | 2015-02-26 11:29:24 |
|  10 | 118.144.96.253 | 80 | 0.48523 | 北京市 电信通  | 2015-02-26 11:29:24 |
+----------+-----------------+------+----------+----------------------+---------------------+
10 rows in set (0.00 sec)
Python 相关文章推荐
Python 匹配任意字符(包括换行符)的正则表达式写法
Oct 29 Python
python写的一个文本编辑器
Jan 23 Python
Python Property属性的2种用法
Jun 21 Python
Python复制文件操作实例详解
Nov 10 Python
对python中raw_input()和input()的用法详解
Apr 22 Python
快速解决PyCharm无法引用matplotlib的问题
May 24 Python
django Serializer序列化使用方法详解
Oct 16 Python
基于Python的Post请求数据爬取的方法详解
Jun 14 Python
详解Python并发编程之从性能角度来初探并发编程
Aug 23 Python
在Python中实现函数重载的示例代码
Dec 12 Python
python global和nonlocal用法解析
Feb 03 Python
在Python IDLE 下调用anaconda中的库教程
Mar 09 Python
使用Python实现BT种子和磁力链接的相互转换
Nov 09 #Python
Python中MySQLdb和torndb模块对MySQL的断连问题处理
Nov 09 #Python
使用Python对IP进行转换的一些操作技巧小结
Nov 09 #Python
Python实现模拟时钟代码推荐
Nov 08 #Python
用Python的Flask框架结合MySQL写一个内存监控程序
Nov 07 #Python
Python的Flask框架中SQLAlchemy使用时的乱码问题解决
Nov 07 #Python
举例讲解Linux系统下Python调用系统Shell的方法
Nov 07 #Python
You might like
php一些错误处理的方法与技巧总结
2013/08/10 PHP
php的array数组和使用实例简明教程(容易理解)
2014/03/20 PHP
JavaScript高级程序设计 读书笔记之九 本地对象Array
2012/02/27 Javascript
js隐藏与显示回到顶部按钮及window.onscroll事件应用
2013/01/25 Javascript
向左滚动文字 js代码效果
2013/08/17 Javascript
ECMAScript中函数function类型
2015/06/03 Javascript
JS模拟实现Select效果代码
2015/09/24 Javascript
浅谈Javascript中substr和substring的区别
2015/09/30 Javascript
Node.js编写爬虫的基本思路及抓取百度图片的实例分享
2016/03/12 Javascript
JQuery DIV 动态隐藏和显示的方法
2016/06/23 Javascript
用Vue-cli搭建的项目中引入css报错的原因分析
2017/07/20 Javascript
JavaScript代码判断输入的字符串是否含有特殊字符和表情代码实例
2017/08/17 Javascript
微信小程序实现图片上传功能
2018/05/28 Javascript
jquery拖拽自动排序插件使用方法详解
2020/07/20 jQuery
js如何获取访问IP、地区、当前操作浏览器
2019/07/23 Javascript
原生js实现针对Dom节点的CRUD操作示例
2019/08/26 Javascript
微信小程序批量上传图片到七牛(推荐)
2019/12/19 Javascript
浅谈vuex为什么不建议在action中修改state
2020/02/02 Javascript
浅谈Vue3 Composition API如何替换Vue Mixins
2020/04/29 Javascript
[50:20]DOTA2上海特级锦标赛主赛事日 - 5 总决赛Liquid VS Secret第四局
2016/03/06 DOTA
pygame学习笔记(4):声音控制
2015/04/15 Python
python实现按行切分文本文件的方法
2016/04/18 Python
python+selenium实现163邮箱自动登陆的方法
2017/12/31 Python
基于Django用户认证系统详解
2018/02/21 Python
解决pandas 作图无法显示中文的问题
2018/05/24 Python
浅谈关于Python3中venv虚拟环境
2018/08/01 Python
Python BS4库的安装与使用详解
2018/08/08 Python
python返回数组的索引实例
2019/11/28 Python
python爬取2021猫眼票房字体加密实例
2021/02/19 Python
简历中个人自我评价范文
2013/12/26 职场文书
四年大学自我鉴定
2014/02/17 职场文书
抽样调查项目计划书
2014/04/24 职场文书
2014年工作总结与下年工作计划
2014/11/27 职场文书
领导离职感言
2015/08/03 职场文书
frg-100简单操作(设置)说明
2022/04/05 无线电
什么是Python装饰器?如何定义和使用?
2022/04/11 Python