python支持多线程的爬虫实例


Posted in Python onDecember 21, 2019

python是支持多线程的, 主要是通过thread和threading这两个模块来实现的,本文主要给大家分享python实现多线程网页爬虫

一般来说,使用线程有两种模式, 一种是创建线程要执行的函数, 把这个函数传递进Thread对象里,让它来执行. 另一种是直接从Thread继承,创建一个新的class,把线程执行的代码放到这个新的class里。

实现多线程网页爬虫,采用了多线程和锁机制,实现了广度优先算法的网页爬虫。

先给大家简单介绍下我的实现思路:

对于一个网络爬虫,如果要按广度遍历的方式下载,它是这样的:

1.从给定的入口网址把第一个网页下载下来

2.从第一个网页中提取出所有新的网页地址,放入下载列表中

3.按下载列表中的地址,下载所有新的网页

4.从所有新的网页中找出没有下载过的网页地址,更新下载列表

5.重复3、4两步,直到更新后的下载列表为空表时停止

python代码如下:

#!/usr/bin/env python
#coding=utf-8
import threading
import urllib
import re
import time
g_mutex=threading.Condition()
g_pages=[] #从中解析所有url链接
g_queueURL=[] #等待爬取的url链接列表
g_existURL=[] #已经爬取过的url链接列表
g_failedURL=[] #下载失败的url链接列表
g_totalcount=0 #下载过的页面数
class Crawler:
 def __init__(self,crawlername,url,threadnum):
  self.crawlername=crawlername
  self.url=url
  self.threadnum=threadnum
  self.threadpool=[]
  self.logfile=file("log.txt",'w')
 def craw(self):
  global g_queueURL
  g_queueURL.append(url) 
  depth=0
  print self.crawlername+" 启动..."
  while(len(g_queueURL)!=0):
   depth+=1
   print 'Searching depth ',depth,'...\n\n'
   self.logfile.write("URL:"+g_queueURL[0]+"........")
   self.downloadAll()
   self.updateQueueURL()
   content='\n>>>Depth '+str(depth)+':\n'
   self.logfile.write(content)
   i=0
   while i<len(g_queueURL):
    content=str(g_totalcount+i)+'->'+g_queueURL[i]+'\n'
    self.logfile.write(content)
    i+=1
 def downloadAll(self):
  global g_queueURL
  global g_totalcount
  i=0
  while i<len(g_queueURL):
   j=0
   while j<self.threadnum and i+j < len(g_queueURL):
    g_totalcount+=1
    threadresult=self.download(g_queueURL[i+j],str(g_totalcount)+'.html',j)
    if threadresult!=None:
     print 'Thread started:',i+j,'--File number =',g_totalcount
    j+=1
   i+=j
   for thread in self.threadpool:
    thread.join(30)
   threadpool=[]
  g_queueURL=[]
 def download(self,url,filename,tid):
  crawthread=CrawlerThread(url,filename,tid)
  self.threadpool.append(crawthread)
  crawthread.start()
 def updateQueueURL(self):
  global g_queueURL
  global g_existURL
  newUrlList=[]
  for content in g_pages:
   newUrlList+=self.getUrl(content)
  g_queueURL=list(set(newUrlList)-set(g_existURL)) 
 def getUrl(self,content):
  reg=r'"(http://.+?)"'
  regob=re.compile(reg,re.DOTALL)
  urllist=regob.findall(content)
  return urllist
class CrawlerThread(threading.Thread):
 def __init__(self,url,filename,tid):
  threading.Thread.__init__(self)
  self.url=url
  self.filename=filename
  self.tid=tid
 def run(self):
  global g_mutex
  global g_failedURL
  global g_queueURL
  try:
   page=urllib.urlopen(self.url)
   html=page.read()
   fout=file(self.filename,'w')
   fout.write(html)
   fout.close()
  except Exception,e:
   g_mutex.acquire()
   g_existURL.append(self.url)
   g_failedURL.append(self.url)
   g_mutex.release()
   print 'Failed downloading and saving',self.url
   print e
   return None
  g_mutex.acquire()
  g_pages.append(html)
  g_existURL.append(self.url)
  g_mutex.release()
if __name__=="__main__":
 url=raw_input("请输入url入口:\n")
 threadnum=int(raw_input("设置线程数:"))
 crawlername="小小爬虫"
 crawler=Crawler(crawlername,url,threadnum)
 crawler.craw()

以上这篇python支持多线程的爬虫实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python Django连接MySQL数据库做增删改查
Nov 07 Python
python将MongoDB里的ObjectId转换为时间戳的方法
Mar 13 Python
Python中使用不同编码读写txt文件详解
May 28 Python
Python中使用Queue和Condition进行线程同步的方法
Jan 19 Python
python使用两种发邮件的方式smtp和outlook示例
Jun 02 Python
Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】
Dec 11 Python
Python 移动光标位置的方法
Jan 20 Python
Python全栈之列表数据类型详解
Oct 01 Python
Python利用Scrapy框架爬取豆瓣电影示例
Jan 17 Python
python框架flask入门之路由及简单实现方法
Jun 07 Python
经验丰富程序员才知道的8种高级Python技巧
Jul 27 Python
Django实现聊天机器人
May 31 Python
Python 实现try重新执行
Dec 21 #Python
在python shell中运行python文件的实现
Dec 21 #Python
Python 脚本的三种执行方式小结
Dec 21 #Python
python带参数打包exe及调用方式
Dec 21 #Python
python脚本后台执行方式
Dec 21 #Python
Python模块的制作方法实例分析
Dec 21 #Python
基于Python 中函数的 收集参数 机制
Dec 21 #Python
You might like
简单的用PHP编写的导航条程序
2006/10/09 PHP
PHP中的替代语法简介
2014/08/22 PHP
yii框架搜索分页modle写法
2016/12/19 PHP
基于thinkPHP3.2实现微信接入及查询token值的方法
2017/04/18 PHP
PHP PDOStatement::setFetchMode讲解
2019/02/03 PHP
日期函数扩展类Ver0.1.1
2006/09/07 Javascript
JavaScript 事件查询综合
2009/07/13 Javascript
js parentElement和offsetParent之间的区别
2010/03/23 Javascript
Jquery 动态循环输出表格具体方法
2013/11/23 Javascript
js加入收藏以及使用Jquery更改透明度
2014/01/26 Javascript
JQuery下拉框应用示例介绍
2014/04/23 Javascript
vue项目中使用百度地图的方法
2018/06/08 Javascript
Vue中 key keep-alive的实现原理
2018/09/18 Javascript
jQuery.parseJSON()函数详解
2019/02/28 jQuery
JavaScript基于SVG的图片切换效果实例代码
2020/12/15 Javascript
原生JS运动实现轮播图
2021/01/02 Javascript
Python编程之序列操作实例详解
2017/07/22 Python
解决pycharm无法调用pip安装的包问题
2018/05/18 Python
Python制作exe文件简单流程
2019/01/24 Python
python实现弹窗祝福效果
2019/04/07 Python
Python使用Slider组件实现调整曲线参数功能示例
2019/09/06 Python
三步解决python PermissionError: [WinError 5]拒绝访问的情况
2020/04/22 Python
python 使用elasticsearch 实现翻页的三种方式
2020/07/31 Python
美国中小型企业领先的办公家具供应商:Office Designs
2016/11/26 全球购物
美国NBA官方商店:NBA Store
2019/04/12 全球购物
CAT鞋加拿大官网:CAT Footwear加拿大
2020/08/05 全球购物
Android面试宝典
2013/08/06 面试题
七年级数学教学反思
2014/01/22 职场文书
感恩老师的演讲稿
2014/05/06 职场文书
爱护公物演讲稿
2014/09/09 职场文书
民主评议党员个人总结
2015/02/13 职场文书
2015年度内部审计工作总结
2015/05/20 职场文书
董事长新年致辞
2015/07/29 职场文书
2016见义勇为事迹材料汇总
2016/03/01 职场文书
Oracle安装TNS_ADMIN环境变量设置参考
2021/11/01 Oracle
在js中修改html body的样式
2021/11/11 Javascript