Python网络爬虫中的同步与异步示例详解


Posted in Python onFebruary 03, 2018

一、同步与异步

#同步编程(同一时间只能做一件事,做完了才能做下一件事情)
<-a_url-><-b_url-><-c_url->
#异步编程 (可以近似的理解成同一时间有多个事情在做,但有先后)
<-a_url->
 <-b_url->
 <-c_url->
 <-d_url->
 <-e_url->
  <-f_url->
  <-g_url->
  <-h_url->
  <--i_url-->
   <--j_url-->

模板

import asyncio
#函数名:做现在的任务时不等待,能继续做别的任务。
async def donow_meantime_dontwait(url):
 response = await requests.get(url)
#函数名:快速高效的做任务
async def fast_do_your_thing():
 await asyncio.wait([donow_meantime_dontwait(url) for url in urls])
#下面两行都是套路,记住就好
loop = asyncio.get_event_loop()
loop.run_until_complete(fast_do_your_thing())

tips:

  • await表达式中的对象必须是awaitable
  • requests不支持非阻塞
  • aiohttp是用于异步请求的库

代码

import asyncio
import requests
import time
import aiohttp
urls = ['https://book.douban.com/tag/小说','https://book.douban.com/tag/科幻',
 'https://book.douban.com/tag/漫画','https://book.douban.com/tag/奇幻',
 'https://book.douban.com/tag/历史','https://book.douban.com/tag/经济学']
async def requests_meantime_dont_wait(url):
 print(url)
 async with aiohttp.ClientSession() as session:
 async with session.get(url) as resp:
  print(resp.status)
  print("{url} 得到响应".format(url=url))
async def fast_requsts(urls):
 start = time.time()
 await asyncio.wait([requests_meantime_dont_wait(url) for url in urls])
 end = time.time()
 print("Complete in {} seconds".format(end - start))
loop = asyncio.get_event_loop()
loop.run_until_complete(fast_requsts(urls))

gevent简介

gevent是一个python的并发库,它为各种并发和网络相关的任务提供了整洁的API。

gevent中用到的主要模式是greenlet,它是以C扩展模块形式接入Python的轻量级协程。 greenlet全部运行在主程序操作系统进程的内部,但它们被协作式地调度。

猴子补丁

requests库是阻塞式的,为了将requests同步更改为异步。只有将requests库阻塞式更改为非阻塞,异步操作才能实现。

而gevent库中的猴子补丁(monkey patch),gevent能够修改标准库里面大部分的阻塞式系统调用。这样在不改变原有代码的情况下,将应用的阻塞式方法,变成协程式的(异步)。

代码

from gevent import monkey
import gevent
import requests
import time


monkey.patch_all()

def req(url):
 print(url)
 resp = requests.get(url)
 print(resp.status_code,url)
def synchronous_times(urls):
 """同步请求运行时间"""
 start = time.time()
 for url in urls:
 req(url)
 end = time.time()
 print('同步执行时间 {} s'.format(end-start))
def asynchronous_times(urls):
 """异步请求运行时间"""
 start = time.time()
 gevent.joinall([gevent.spawn(req,url) for url in urls])
 end = time.time()
 print('异步执行时间 {} s'.format(end - start))
urls = ['https://book.douban.com/tag/小说','https://book.douban.com/tag/科幻',
 'https://book.douban.com/tag/漫画','https://book.douban.com/tag/奇幻',
 'https://book.douban.com/tag/历史','https://book.douban.com/tag/经济学']
synchronous_times(urls)
asynchronous_times(urls)

gevent:异步理论与实战

Python网络爬虫中的同步与异步示例详解

gevent库中使用的最核心的是Greenlet-一种用C写的轻量级python模块。在任意时间,系统只能允许一个Greenlet处于运行状态

一个greenlet遇到IO操作时,比如访问网络,就自动切换到其他的greenlet,等到IO操作完成,再在适当的时候切换回来继续执行。由于IO操作非常耗时,经常使程序处于等待状态,有了gevent为我们自动切换协程,就保证总有greenlet在运行,而不是等待IO。

串行和异步

高并发的核心是让一个大的任务分成一批子任务,并且子任务会被被系统高效率的调度,实现同步或者异步。在两个子任务之间切换,也就是经常说到的上下文切换。

同步就是让子任务串行,而异步有点影分身之术,但在任意时间点,真身只有一个,子任务并不是真正的并行,而是充分利用了碎片化的时间,让程序不要浪费在等待上。这就是异步,效率杠杆的。

gevent中的上下文切换是通过yield实现。在这个例子中,我们会有两个子任务,互相利用对方等待的时间做自己的事情。这里我们使用gevent.sleep(0)代表程序会在这里停0秒。

import gevent
def foo():
 print('Running in foo')
 gevent.sleep(0)
 print('Explicit context switch to foo again')

def bar():
 print('Explicit context to bar')
 gevent.sleep(0)
 print('Implicit context switch back to bar')

gevent.joinall([
 gevent.spawn(foo),
 gevent.spawn(bar)
 ])

运行的顺序:

Running in foo
Explicit context to bar
Explicit context switch to foo again
Implicit context switch back to bar

同步异步的顺序问题

同步运行就是串行,123456...,但是异步的顺序是随机的任意的(根据子任务消耗的时间而定)

代码

import gevent
import random
def task(pid):
 """
 Some non-deterministic task
 """
 gevent.sleep(random.randint(0,2)*0.001)
 print('Task %s done' % pid)
#同步(结果更像串行)
def synchronous():
 for i in range(1,10):
 task(i)
#异步(结果更像乱步)
def asynchronous():
 threads = [gevent.spawn(task, i) for i in range(10)]
 gevent.joinall(threads)
print('Synchronous同步:')
synchronous()
print('Asynchronous异步:')
asynchronous()

输出

Synchronous同步:
Task 1 done
Task 2 done
Task 3 done
Task 4 done
Task 5 done
Task 6 done
Task 7 done
Task 8 done
Task 9 done
Asynchronous异步:
Task 1 done
Task 5 done
Task 6 done
Task 2 done
Task 4 done
Task 7 done
Task 8 done
Task 9 done
Task 0 done
Task 3 done

同步案例中所有的任务都是按照顺序执行,这导致主程序是阻塞式的(阻塞会暂停主程序的执行)。

gevent.spawn会对传入的任务(子任务集合)进行进行调度,gevent.joinall方法会阻塞当前程序,除非所有的greenlet都执行完毕,程序才会结束。

实战

实现gevent到底怎么用,把异步访问得到的数据提取出来。

在有道词典搜索框输入“hello”按回车。观察数据请求情况 观察有道的url构建。

分析url规律

#url构建只需要传入word即可
url = "http://dict.youdao.com/w/eng/{}/".format(word)

解析网页数据

def fetch_word_info(word):
 url = "http://dict.youdao.com/w/eng/{}/".format(word)
 resp = requests.get(url,headers=headers)
 doc = pq(resp.text)
 pros = ''
 for pro in doc.items('.baav .pronounce'):
  pros+=pro.text()
 description = ''
 for li in doc.items('#phrsListTab .trans-container ul li'):
  description +=li.text()
 return {'word':word,'音标':pros,'注释':description}

因为requests库在任何时候只允许有一个访问结束完全结束后,才能进行下一次访问。无法通过正规途径拓展成异步,因此这里使用了monkey补丁

同步代码

import requests
from pyquery import PyQuery as pq
import gevent
import time
import gevent.monkey
gevent.monkey.patch_all()
words = ['good','bad','cool',
   'hot','nice','better',
   'head','up','down',
   'right','left','east']
def synchronous():
 start = time.time()
 print('同步开始了')
 for word in words:
  print(fetch_word_info(word))
 end = time.time()
 print("同步运行时间: %s 秒" % str(end - start))

#执行同步
synchronous()

异步代码

import requests
from pyquery import PyQuery as pq
import gevent
import time
import gevent.monkey
gevent.monkey.patch_all()
words = ['good','bad','cool',
   'hot','nice','better',
   'head','up','down',
   'right','left','east']
def asynchronous():
 start = time.time()
 print('异步开始了')
 events = [gevent.spawn(fetch_word_info,word) for word in words]
 wordinfos = gevent.joinall(events)
 for wordinfo in wordinfos:
  #获取到数据get方法
  print(wordinfo.get())
 end = time.time()
 print("异步运行时间: %s 秒"%str(end-start))
#执行异步
asynchronous()

我们可以对待爬网站实时异步访问,速度会大大提高。我们现在是爬取12个词语的信息,也就是说一瞬间我们对网站访问了12次,这还没啥问题,假如爬10000+个词语,使用gevent的话,那几秒钟之内就给网站一股脑的发请求,说不定网站就把爬虫封了。

解决办法

将列表等分为若干个子列表,分批爬取。举例我们有一个数字列表(0-19),要均匀的等分为4份,也就是子列表有5个数。下面是我在stackoverflow查找到的列表等分方案:

方法1

seqence = list(range(20))
size = 5 #子列表长度
output = [seqence[i:i+size] for i in range(0, len(seqence), size)]
print(output)

方法2

chunks = lambda seq, size: [seq[i: i+size] for i in range(0, len(seq), size)]
print(chunks(seq, 5))

方法3

def chunks(seq,size):
 for i in range(0,len(seq), size):
  yield seq[i:i+size]
prinT(chunks(seq,5))
 for x in chunks(req,5):
   print(x)

数据量不大的情况下,选哪一种方法都可以。如果特别大,建议使用方法3.

动手实现

import requests
from pyquery import PyQuery as pq
import gevent
import time
import gevent.monkey
gevent.monkey.patch_all()
words = ['good','bad','cool',
   'hot','nice','better',
   'head','up','down',
   'right','left','east']
def fetch_word_info(word):
 url = "http://dict.youdao.com/w/eng/{}/".format(word)
 resp = requests.get(url,headers=headers)
 doc = pq(resp.text)
 pros = ''
 for pro in doc.items('.baav .pronounce'):
  pros+=pro.text()
 description = ''
 for li in doc.items('#phrsListTab .trans-container ul li'):
  description +=li.text()
 return {'word':word,'音标':pros,'注释':description}
def asynchronous(words):
 start = time.time()
 print('异步开始了')
 chunks = lambda seq, size: [seq[i: i + size] for i in range(0, len(seq), size)]
 for subwords in chunks(words,3):
  events = [gevent.spawn(fetch_word_info, word) for word in subwords]
  wordinfos = gevent.joinall(events)
  for wordinfo in wordinfos:
   # 获取到数据get方法
   print(wordinfo.get())
  time.sleep(1)
  end = time.time()
 print("异步运行时间: %s 秒" % str(end - start))
asynchronous(words)

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
Python实现控制台中的进度条功能代码
Dec 22 Python
解决安装python库时windows error5 报错的问题
Oct 21 Python
Python任意字符串转16, 32, 64进制的方法
Jun 12 Python
python+openCV利用摄像头实现人员活动检测
Jun 22 Python
Python学习笔记之文件的读写操作实例分析
Aug 07 Python
pytorch 固定部分参数训练的方法
Aug 17 Python
Tensorflow加载Vgg预训练模型操作
May 26 Python
Python基于execjs运行js过程解析
Nov 27 Python
Python如何实现Paramiko的二次封装
Jan 30 Python
利用Matlab绘制各类特殊图形的实例代码
Jul 16 Python
Python爬虫入门案例之爬取二手房源数据
Oct 16 Python
python多次执行绘制条形图
Apr 20 Python
Python模块文件结构代码详解
Feb 03 #Python
Python处理文本换行符实例代码
Feb 03 #Python
Python断言assert的用法代码解析
Feb 03 #Python
Python下载网络小说实例代码
Feb 03 #Python
JS设计模式之责任链模式实例详解
Feb 03 #Python
numpy使用技巧之数组过滤实例代码
Feb 03 #Python
python验证码识别实例代码
Feb 03 #Python
You might like
php 什么是PEAR?(第二篇)
2009/03/19 PHP
PHP函数shuffle()取数组若干个随机元素的方法分析
2016/04/02 PHP
php实现和c#一致的DES加密解密实例
2017/07/24 PHP
找到一点可怜的关于dojo资料,谢谢作者!
2006/12/06 Javascript
js中的escape及unescape函数的php实现代码
2007/09/04 Javascript
JavaScript 拾碎[三] 使用className属性
2010/10/16 Javascript
NodeJS与Mysql的交互示例代码
2013/08/18 NodeJs
jQuery ui 利用 datepicker插件实现开始日期(minDate)和结束日期(maxDate)
2014/05/22 Javascript
JQuery拖动表头边框线调整表格列宽效果代码
2014/09/10 Javascript
etmvc+jQuery EasyUI+combobox多值操作实现角色授权实例
2016/11/09 Javascript
vue2.0开发实践总结之入门篇
2016/12/06 Javascript
Bootstrap表单控件学习使用
2017/03/07 Javascript
jQuery实现的鼠标响应缓冲动画效果示例
2018/02/13 jQuery
利用chrome浏览器进行js调试并找出元素绑定的点击事件详解
2021/01/30 Javascript
详解js 创建对象的几种方法
2019/03/08 Javascript
JS实现的tab切换并显示相应内容模块功能示例
2019/08/03 Javascript
vue实现侧边栏导航效果
2019/10/21 Javascript
[03:12]完美世界DOTA2联赛PWL DAY7集锦
2020/11/06 DOTA
Python决策树分类算法学习
2017/12/22 Python
unittest+coverage单元测试代码覆盖操作实例详解
2018/04/04 Python
Django自定义用户表+自定义admin后台中的字段实例
2019/11/18 Python
TensorFlow索引与切片的实现方法
2019/11/20 Python
win10安装python3.6的常见问题
2020/07/01 Python
Python requests及aiohttp速度对比代码实例
2020/07/16 Python
Python爬取股票信息,并可视化数据的示例
2020/09/26 Python
澳大利亚在线消费电子产品商店:TobyDeals
2020/01/05 全球购物
老师推荐信
2013/10/28 职场文书
师范学院美术系毕业生自我鉴定
2014/01/29 职场文书
管理学院毕业生自荐信范文
2014/03/10 职场文书
酒店仓管员岗位职责
2014/04/28 职场文书
科级干部群众路线教育实践活动个人对照检查材料
2014/09/19 职场文书
检查机关领导群众路线教育实践活动个人整改措施
2014/10/28 职场文书
教师节大会主持词
2015/07/06 职场文书
导游词之阳朔遇龙河
2019/12/16 职场文书
解析探秘fescar分布式事务实现原理
2022/02/28 Java/Android
Android Studio实现简易进制转换计算器
2022/05/20 Java/Android