尝试使用Python多线程抓取代理服务器IP地址的示例


Posted in Python onNovember 09, 2015

这里以抓取 http://www.proxy.com.ru 站点的代理服务器为例,代码如下:

#!/usr/bin/env python
#coding:utf-8
import urllib2
import re
import threading
import time
import MySQLdb
rawProxyList = []
checkedProxyList = []
#抓取代理网站
targets = []
for i in xrange(1,42):
  target = r"http://www.proxy.com.ru/list_%d.html" % i
  targets.append(target)
#抓取代理服务器正则
p = re.compile(r'''<tr><b><td>(\d+)</td><td>(.+?)</td><td>(\d+)</td><td>(.+?)</td><td>(.+?)</td></b></tr>''')
#获取代理的类
class ProxyGet(threading.Thread):
 def __init__(self,target):
  threading.Thread.__init__(self)
  self.target = target
 def getProxy(self):
  print "代理服务器目标网站: " + self.target
  req = urllib2.urlopen(self.target)
  result = req.read()
  #print chardet.detect(result)
  matchs = p.findall(result)
#  print matchs
  for row in matchs:
   ip=row[1]
   port =row[2]
   addr = row[4].decode("cp936").encode("utf-8")
   proxy = [ip,port,addr]
   print proxy
   rawProxyList.append(proxy)
 def run(self):
  self.getProxy()
#检验代理的类
class ProxyCheck(threading.Thread):
 def __init__(self,proxyList):
  threading.Thread.__init__(self)
  self.proxyList = proxyList
  self.timeout = 5
  self.testUrl = "http://www.baidu.com/"
  self.testStr = "030173"
 def checkProxy(self):
  cookies = urllib2.HTTPCookieProcessor()
  for proxy in self.proxyList:
   proxyHandler = urllib2.ProxyHandler({"http" : r'http://%s:%s' %(proxy[0],proxy[1])})
   #print r'http://%s:%s' %(proxy[0],proxy[1])
   opener = urllib2.build_opener(cookies,proxyHandler)
   opener.addheaders = [('User-agent', 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:22.0) Gecko/20100101 Firefox/22.0')]
   #urllib2.install_opener(opener)
   t1 = time.time()
   try:
    #req = urllib2.urlopen("http://www.baidu.com", timeout=self.timeout)
    req = opener.open(self.testUrl, timeout=self.timeout)
    #print "urlopen is ok...."
    result = req.read()
    #print "read html...."
    timeused = time.time() - t1
    pos = result.find(self.testStr)
    #print "pos is %s" %pos
    if pos > 1:
     checkedProxyList.append((proxy[0],proxy[1],proxy[2],timeused))
     #print "ok ip: %s %s %s %s" %(proxy[0],proxy[1],proxy[2],timeused)
    else:
      continue
   except Exception,e:
    #print e.message
    continue
 def run(self):
  self.checkProxy()
if __name__ == "__main__":
 getThreads = []
 checkThreads = []
#对每个目标网站开启一个线程负责抓取代理
for i in range(len(targets)):
 t = ProxyGet(targets[i])
 getThreads.append(t)
for i in range(len(getThreads)):
 getThreads[i].start()
for i in range(len(getThreads)):
 getThreads[i].join()
print '.'*10+"总共抓取了%s个代理" %len(rawProxyList) +'.'*10
#开启20个线程负责校验,将抓取到的代理分成20份,每个线程校验一份
for i in range(20):
 t = ProxyCheck(rawProxyList[((len(rawProxyList)+19)/20) * i:((len(rawProxyList)+19)/20) * (i+1)])
 checkThreads.append(t)
for i in range(len(checkThreads)):
 checkThreads[i].start()
for i in range(len(checkThreads)):
 checkThreads[i].join()
print '.'*10+"总共有%s个代理通过校验" %len(checkedProxyList) +'.'*10
#插入数据库,表结构自己创建,四个字段ip,port,speed,address
def db_insert(insert_list):
 try:
  conn = MySQLdb.connect(host="localhost", user="root", passwd="admin",db="m_common",charset='utf8')
  cursor = conn.cursor()
  cursor.execute('delete from proxy')
  cursor.execute('alter table proxy AUTO_INCREMENT=1')
  cursor.executemany("INSERT INTO proxy(ip,port,speed,address) VALUES (%s,%s,%s,%s)",insert_list)
  conn.commit()
  cursor.close()
  conn.close()
 except MySQLdb.Error,e:
  print "Mysql Error %d: %s" % (e.args[0], e.args[1])
#代理排序持久化
proxy_ok = []
f= open("proxy_list.txt",'w+')
for proxy in sorted(checkedProxyList,cmp=lambda x,y:cmp(x[3],y[3])):
 if proxy[3] < 8:
  #print "checked proxy is: %s:%s\t%s\t%s" %(proxy[0],proxy[1],proxy[2],proxy[3])
  proxy_ok.append((proxy[0],proxy[1],proxy[3],proxy[2]))
  f.write("%s:%s\t%s\t%s\n"%(proxy[0],proxy[1],proxy[2],proxy[3]))
f.close()
db_insert(proxy_ok)

测试:

python proxy.py

结果如下:

['61.58.94.179', '8088', '\xe5\x8f\xb0\xe6\xb9\xbe\xe7\x9c\x81 \xe5\x8f\xb0\xe6\xb9\xbe\xe5\xae\xbd\xe9\xa2\x91\xe9\x80\x9a\xe8\xae\xaf\xe9\xa1\xbe\xe9\x97\xae\xe8\x82\xa1\xe4\xbb\xbd\xe6\x9c\x89\xe9\x99\x90\xe5\x85\xac\xe5\x8f\xb8']
['200.84.116.99', '9064', '\xe5\xa7\x94\xe5\x86\x85\xe7\x91\x9e\xe6\x8b\x89 ']
['183.223.204.8', '8123', '\xe5\x9b\x9b\xe5\xb7\x9d\xe7\x9c\x81\xe8\x87\xaa\xe8\xb4\xa1\xe5\xb8\x82 \xe7\xa7\xbb\xe5\x8a\xa8']
..........总共抓取了1921个代理..........
..........总共有524个代理通过校验..........
# more proxy_list.txt
202.106.169.142:80  北京市 联通ADSL 0.291432857513
111.13.136.59:80  北京市 移动  0.297957897186
111.13.136.56:80  北京市 移动  0.373070955276
111.206.81.248:80  北京市 联通  0.403017997742
111.13.136.58:80  北京市 移动  0.414332151413
124.202.217.134:8118 北京市 电信通 0.416817903519
124.202.183.218:8118 北京市 电信通 0.426618099213
120.132.71.232:80  北京市 联通  0.440200090408
61.232.6.164:8081  北京市 铁通  0.469615936279
118.144.96.253:80  北京市 电信通 0.485229969025
203.192.10.66:80  北京市 新华社 0.51485991478
124.202.182.22:8118  北京市 电信通 0.553130865097

数据库:

mysql> select * from m_common.proxy limit 10;
+----------+-----------------+------+----------+----------------------+---------------------+
| proxy_id | ip    | port | speed | address    | create_time   |
+----------+-----------------+------+----------+----------------------+---------------------+
|  1 | 202.106.169.142 | 80 | 0.291433 | 北京市 联通ADSL  | 2015-02-26 11:29:24 |
|  2 | 111.13.136.59 | 80 | 0.297958 | 北京市 移动   | 2015-02-26 11:29:24 |
|  3 | 111.13.136.56 | 80 | 0.373071 | 北京市 移动   | 2015-02-26 11:29:24 |
|  4 | 111.206.81.248 | 80 | 0.403018 | 北京市 联通   | 2015-02-26 11:29:24 |
|  5 | 111.13.136.58 | 80 | 0.414332 | 北京市 移动   | 2015-02-26 11:29:24 |
|  6 | 124.202.217.134 | 8118 | 0.416818 | 北京市 电信通  | 2015-02-26 11:29:24 |
|  7 | 124.202.183.218 | 8118 | 0.426618 | 北京市 电信通  | 2015-02-26 11:29:24 |
|  8 | 120.132.71.232 | 80 | 0.4402 | 北京市 联通   | 2015-02-26 11:29:24 |
|  9 | 61.232.6.164 | 8081 | 0.469616 | 北京市 铁通   | 2015-02-26 11:29:24 |
|  10 | 118.144.96.253 | 80 | 0.48523 | 北京市 电信通  | 2015-02-26 11:29:24 |
+----------+-----------------+------+----------+----------------------+---------------------+
10 rows in set (0.00 sec)
Python 相关文章推荐
Python中tell()方法的使用详解
May 24 Python
python如何去除字符串中不想要的字符
Jul 05 Python
Python多图片合并PDF的方法
Jan 03 Python
Python学习笔记基本数据结构之序列类型list tuple range用法分析
Jun 08 Python
python输入多行字符串的方法总结
Jul 02 Python
使用python socket分发大文件的实现方法
Jul 08 Python
python 检查数据中是否有缺失值,删除缺失值的方式
Dec 02 Python
keras 读取多标签图像数据方式
Jun 12 Python
单身狗福利?Python爬取某婚恋网征婚数据
Jun 03 Python
一篇文章弄懂Python关键字、标识符和变量
Jul 15 Python
用 Python 定义 Schema 并生成 Parquet 文件详情
Sep 25 Python
python神经网络 tf.name_scope 和 tf.variable_scope 的区别
May 04 Python
使用Python实现BT种子和磁力链接的相互转换
Nov 09 #Python
Python中MySQLdb和torndb模块对MySQL的断连问题处理
Nov 09 #Python
使用Python对IP进行转换的一些操作技巧小结
Nov 09 #Python
Python实现模拟时钟代码推荐
Nov 08 #Python
用Python的Flask框架结合MySQL写一个内存监控程序
Nov 07 #Python
Python的Flask框架中SQLAlchemy使用时的乱码问题解决
Nov 07 #Python
举例讲解Linux系统下Python调用系统Shell的方法
Nov 07 #Python
You might like
php中session_unset与session_destroy的区别分析
2011/06/16 PHP
PHP实现删除字符串中任何字符的函数
2015/08/11 PHP
php字符集转换
2017/01/23 PHP
PHP面向对象五大原则之依赖倒置原则(DIP)详解
2018/04/08 PHP
PHP实现小程序批量通知推送
2018/11/27 PHP
PHP中数组转换为SimpleXML教程
2019/01/27 PHP
ExtJS TabPanel beforeremove beforeclose使用说明
2010/03/31 Javascript
基于jquery的一个简单的脚本验证插件
2010/04/05 Javascript
Ext JS 4官方文档之三 -- 类体系概述与实践
2012/12/16 Javascript
在JS方法中返回多个值的方法汇总
2015/05/20 Javascript
jquery+php实现滚动的数字特效
2015/11/29 Javascript
AngularJS中实现显示或隐藏动画效果的方式总结
2015/12/31 Javascript
jQuery学习心得总结(必看篇)
2016/06/10 Javascript
React+react-dropzone+node.js实现图片上传的示例代码
2017/08/23 Javascript
浅谈Vue初学之props的驼峰命名
2018/07/19 Javascript
解决koa2 ctx.render is not a function报错问题
2018/08/07 Javascript
webpack自动打包和热更新的实现方法
2019/06/24 Javascript
Vue.js计算机属性computed和methods方法详解
2019/10/12 Javascript
Vue调用后端java接口的实例代码
2019/10/28 Javascript
vue实现图片上传预览功能
2019/12/23 Javascript
JS实现滑动插件
2020/01/15 Javascript
vue 如何使用递归组件
2020/10/23 Javascript
[02:56]DOTA2矮人直升机 英雄基础教程
2013/11/26 DOTA
Python读取英文文件并记录每个单词出现次数后降序输出示例
2018/06/28 Python
jupyter notebook远程访问不了的问题解决方法
2021/01/11 Python
5分钟让你掌握css3阴影、倒影、渐变小技巧(小编推荐)
2016/08/15 HTML / CSS
DELPHI中如何调用API,可举例说明
2014/01/16 面试题
冰淇淋店创业计划书范文
2013/12/27 职场文书
六十岁生日答谢词
2014/01/10 职场文书
初一生物教学反思
2014/01/18 职场文书
《美丽的小兴安岭》教学反思
2014/02/26 职场文书
地球一小时宣传标语
2014/06/24 职场文书
护士医德医风自我评价
2014/09/15 职场文书
水电工岗位职责
2015/02/14 职场文书
预备党员考察意见范文
2015/06/01 职场文书
世界上超棒的8种逻辑思维
2019/08/06 职场文书