python爬虫中多线程的使用详解


Posted in Python onSeptember 23, 2019

queue介绍

queue是python的标准库,俗称队列.可以直接import引用,在python2.x中,模块名为Queue。python3直接queue即可

在python中,多个线程之间的数据是共享的,多个线程进行数据交换的时候,不能够保证数据的安全性和一致性,所以当多个线程需要进行数据交换的时候,队列就出现了,队列可以完美解决线程间的数据交换,保证线程间数据的安全性和一致性。

#多线程实战栗子(糗百)
#用一个队列Queue对象,
#先产生所有url,put进队列;
#开启多线程,把queue队列作为参数传入
#主函数中读取url
import requests
from queue import Queue
import re,os,threading,time
# 构造所有ip地址并添加进queue队列
headers = {
  'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'
}
urlQueue = Queue()
[urlQueue.put('http://www.qiumeimei.com/image/page/{}'.format(i)) for i in range(1,14)]
def get_image(urlQueue):
  while True:
    try:
      # 不阻塞的读取队列数据
      url = urlQueue.get_nowait()
      # i = urlQueue.qsize()
    except Exception as e:
      break
    print('Current Thread Name %s, Url: %s ' % (threading.currentThread().name, url))
    try:
      res = requests.get(url, headers=headers)
      url_infos = re.findall('data-lazy-src="(.*?)"', res.text, re.S)
      for url_info in url_infos:
        if os.path.exists(img_path + url_info[-20:]):
          print('图片已存在')
        else:
          image = requests.get(url_info, headers=headers)
          with open(img_path + url_info[-20:], 'wb') as fp:
            time.sleep(1)
            fp.write(image.content)
          print('正在下载:' + url_info)
    except Exception as e:
      print(e)
if __name__ == '__main__':
  startTime = time.time()
  # 定义图片存储路径
  img_path = './img/'
  if not os.path.exists(img_path):
    os.mkdir(img_path)
  threads = []
  # 可以调节线程数, 进而控制抓取速度
  threadNum = 4
  for i in range(0, threadNum):
    t = threading.Thread(target=get_image, args=(urlQueue,))
    threads.append(t)
  for t in threads:
    t.start()
  for t in threads:
    # 多线程多join的情况下,依次执行各线程的join方法, 这样可以确保主线程最后退出, 且各个线程间没有阻塞
    t.join()
  endTime = time.time()
  print('Done, Time cost: %s ' % (endTime - startTime))

总结

以上所述是小编给大家介绍的python爬虫中多线程的使用详解,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

Python 相关文章推荐
Python Web服务器Tornado使用小结
May 06 Python
python的re模块应用实例
Sep 26 Python
用python 制作图片转pdf工具
Jan 30 Python
python抓取百度首页的方法
May 19 Python
python之Socket网络编程详解
Sep 29 Python
利用python爬取软考试题之ip自动代理
Mar 28 Python
python中abs&map&reduce简介
Feb 20 Python
利用Pandas 创建空的DataFrame方法
Apr 08 Python
解决Python网页爬虫之中文乱码问题
May 11 Python
django中related_name的用法说明
May 20 Python
Python操作MySQL数据库的示例代码
Jul 13 Python
谈谈python垃圾回收机制
Sep 27 Python
Django中自定义模型管理器(Manager)及方法
Sep 23 #Python
Python 异常的捕获、异常的传递与主动抛出异常操作示例
Sep 23 #Python
Python 单例设计模式用法实例分析
Sep 23 #Python
Python3使用xml.dom.minidom和xml.etree模块儿解析xml文件封装函数的方法
Sep 23 #Python
详解Python3定时器任务代码
Sep 23 #Python
python应用文件读取与登录注册功能
Sep 23 #Python
Python爬虫 urllib2的使用方法详解
Sep 23 #Python
You might like
php代码把全角数字转为半角数字
2007/12/10 PHP
php用数组返回无限分类的列表数据的代码
2010/08/08 PHP
php在程序中将网页生成word文档并提供下载的代码
2012/10/09 PHP
PHP迭代器实现斐波纳契数列的函数
2013/11/12 PHP
php实现短信发送代码
2015/07/05 PHP
Symfony2联合查询实现方法
2016/03/18 PHP
PHP实现微信申请退款功能
2018/10/01 PHP
PHP文件类型检查及fileinfo模块安装使用详解
2019/05/09 PHP
JQuery 学习笔记 element属性控制
2009/07/23 Javascript
JavaScript cookie的设置获取删除详解
2014/02/11 Javascript
ECMAScript6的新特性箭头函数(Arrow Function)详细介绍
2014/06/07 Javascript
angular.foreach 循环方法使用指南
2015/01/06 Javascript
javascript数组克隆简单实现方法
2015/12/16 Javascript
nodejs连接mongodb数据库实现增删改查
2016/12/01 NodeJs
微信小程序分享功能之按钮button 边框隐藏和点击隐藏
2018/06/14 Javascript
js中的reduce()函数讲解
2019/01/18 Javascript
vue鼠标悬停事件实例详解
2019/04/01 Javascript
Vue 解决路由过渡动画抖动问题(实例详解)
2020/01/05 Javascript
Vue props中Object和Array设置默认值操作
2020/07/30 Javascript
python使用PIL缩放网络图片并保存的方法
2015/04/24 Python
Python爬取京东的商品分类与链接
2016/08/26 Python
Python读取Json字典写入Excel表格的方法
2018/01/03 Python
Python使用Tkinter实现机器人走迷宫
2018/01/22 Python
matplotlib savefig 保存图片大小的实例
2018/05/24 Python
Python 爬虫之Beautiful Soup模块使用指南
2018/07/05 Python
Python3中内置类型bytes和str用法及byte和string之间各种编码转换 问题
2018/09/27 Python
python实现年会抽奖程序
2019/01/22 Python
python多线程抽象编程模型详解
2019/03/20 Python
Python Django 前后端分离 API的方法
2019/08/28 Python
Python xlwt模块使用代码实例
2020/06/10 Python
解决pytorch 模型复制的一些问题
2021/03/03 Python
极简鞋类,赤脚的感觉:Lems Shoes
2019/08/06 全球购物
水果超市创业计划书
2014/01/27 职场文书
消防安全责任书范本
2014/04/15 职场文书
感恩父母的演讲稿
2014/05/06 职场文书
Nginx文件已经存在全局反向代理问题排查记录
2022/07/15 Servers