进一步探究Python的装饰器的运用


Posted in Python onMay 05, 2015

装饰器在 python 中用的相当广泛,如果你用过 python 的一些 web 框架,那么一定对其中的 “ route() 装饰器” 不陌生,今天咱们再看一个具体的案例。

咱们来模拟一个场景,需要你去抓去一个页面,然后这个页面有好多url也要分别去抓取,而进入这些子url后,还有数据要抓取。简单点,我们就按照三层来看,那我们的代码就是如下:
 

def func_top(url):
  data_dict= {}
 
  #在页面上获取到子url
  sub_urls = xxxx
 
  data_list = []
  for it in sub_urls:
    data_list.append(func_sub(it))
 
  data_dict['data'] = data_list
 
  return data_dict
 
def func_sub(url):
  data_dict= {}
 
  #在页面上获取到子url
  bottom_urls = xxxx
 
  data_list = []
  for it in bottom_urls:
    data_list.append(func_bottom(it))
 
  data_dict['data'] = data_list
 
  return data_dict
 
def func_bottom(url):
  #获取数据
  data = xxxx
  return data

func_top是上层页面的处理函数,func_sub是子页面的处理函数,func_bottom是最深层页面的处理函数,func_top会在取到子页面url后遍历调用func_sub,func_sub也是同样。
如果正常情况下,这样确实已经满足需求了,但是偏偏这个你要抓取的网站可能极不稳定,经常链接不上,导致数据拿不到。
于是这个时候你有两个选择:
1.遇到错误就停止,之后重新从断掉的位置开始重新跑
2.遇到错误继续,但是要在之后重新跑一遍,这个时候已经有的数据不希望再去网站拉一次,而只去拉没有取到的数据
对第一种方案基本无法实现,因为如果别人网站的url调整顺序,那么你记录的位置就无效了。那么只有第二种方案,说白了,就是要把已经拿到的数据cache下来,等需要的时候,直接从cache里面取。
OK,目标已经有了,怎么实现呢?
如果是在C++中的,这是个很麻烦的事情,而且写出来的代码必定丑陋无比,然而庆幸的是,我们用的是python,而python对函数有装饰器。
所以实现方案也就有了:
定义一个装饰器,如果之前取到数据,就直接取cache的数据;如果之前没有取到,那么就从网站拉取,并且存入cache中.
代码如下:
 

import os
import hashlib
 
def deco_args_recent_cache(category='dumps'):
  '''
  装饰器,返回最新cache的数据
  '''
  def deco_recent_cache(func):
    def func_wrapper(*args, **kargs):
      sig = _mk_cache_sig(*args, **kargs)
      data = _get_recent_cache(category, func.__name__, sig)
      if data is not None:
        return data
 
      data = func(*args, **kargs)
      if data is not None:
        _set_recent_cache(category, func.__name__, sig, data)
      return data
 
    return func_wrapper
 
  return deco_recent_cache
 
def _mk_cache_sig(*args, **kargs):
  '''
  通过传入参数,生成唯一标识
  '''
  src_data = repr(args) + repr(kargs)
  m = hashlib.md5(src_data)
  sig = m.hexdigest()
  return sig
 
def _get_recent_cache(category, func_name, sig):
  full_file_path = '%s/%s/%s' % (category, func_name, sig)
  if os.path.isfile(full_file_path):
    return eval(file(full_file_path,'r').read())
  else:
    return None
 
def _set_recent_cache(category, func_name, sig, data):
  full_dir_path = '%s/%s' % (category, func_name)
  if not os.path.isdir(full_dir_path):
    os.makedirs(full_dir_path)
 
  full_file_path = '%s/%s/%s' % (category, func_name, sig)
  f = file(full_file_path, 'w+')
  f.write(repr(data))
  f.close()

然后,我们只需要在每个func_top,func_sub,func_bottom都加上deco_args_recent_cache这个装饰器即可~~
搞定!这样做最大的好处在于,因为top,sub,bottom,每一层都会dump数据,所以比如某个sub层数据dump之后,是根本不会走到他所对应的bottom层的,减少了大量的开销!
OK,就这样~ 人生苦短,我用python!

注:

python3 已经原生支持了这种功能!链接如下:

http://docs.python.org/py3k/whatsnew/3.2.html#functools

推荐阅读:

https://wiki.python.org/moin/PythonDecoratorLibrary#Memoize

Python 相关文章推荐
python 中的列表解析和生成表达式
Mar 10 Python
Eclipse + Python 的安装与配置流程
Mar 05 Python
Python实现的一个自动售饮料程序代码分享
Aug 25 Python
python3.4实现邮件发送功能
May 28 Python
pycharm远程开发项目的实现步骤
Jan 20 Python
Django框架封装外部函数示例
May 28 Python
Django通过dwebsocket实现websocket的例子
Nov 15 Python
python安装mysql的依赖包mysql-python操作
Jan 01 Python
python中super()函数的理解与基本使用
Aug 30 Python
Qt自定义Plot实现曲线绘制的详细过程
Nov 02 Python
Python Matplotlib绘制两个Y轴图像
Apr 13 Python
python读取mat文件生成h5文件的实现
Jul 15 Python
Python获取任意xml节点值的方法
May 05 #Python
Python实现方便使用的级联进度信息实例
May 05 #Python
Python封装shell命令实例分析
May 05 #Python
用Python中的字典来处理索引统计的方法
May 05 #Python
python递归计算N!的方法
May 05 #Python
浅谈Python中数据解析
May 05 #Python
探究Python多进程编程下线程之间变量的共享问题
May 05 #Python
You might like
PHP 数组基础知识小结
2010/08/20 PHP
PHP生成条形图的方法
2014/12/10 PHP
PHP实现动态执行代码的方法
2016/03/25 PHP
thinkPHP的表达式查询用法详解
2016/09/14 PHP
thinkPHP数据查询常用方法总结【select,find,getField,query】
2017/03/15 PHP
PHP设计模式之迭代器模式Iterator实例分析【对象行为型】
2020/04/26 PHP
JavaScript入门教程(6) Window窗口对象
2009/01/31 Javascript
JS解析XML的实现代码
2009/11/12 Javascript
动态加载外部javascript文件的函数代码分享
2011/07/28 Javascript
浅谈javascript中自定义模版
2015/01/29 Javascript
浅谈jQuery的offset()方法及示例分享
2015/07/17 Javascript
js添加绑定事件的方法
2016/05/15 Javascript
jQuery实现简单的抽奖游戏
2017/05/05 jQuery
JS+CSS实现网页加载中的动画效果
2017/10/27 Javascript
Vue的实例、生命周期与Vue脚手架(vue-cli)实例详解
2017/12/27 Javascript
AngularJS实现动态切换样式的方法分析
2018/06/26 Javascript
JavaScript实现的文本框placeholder提示文字功能示例
2018/07/25 Javascript
boostrap模态框二次弹出清空原有内容的方法
2018/08/10 Javascript
原生JavaScript实现弹幕组件的示例代码
2020/10/12 Javascript
[02:37]TI8勇士令状不朽珍藏II视频展示
2018/06/23 DOTA
在Python的Django框架中加载模版的方法
2015/07/16 Python
K-means聚类算法介绍与利用python实现的代码示例
2017/11/13 Python
15行Python代码带你轻松理解令牌桶算法
2018/03/21 Python
python实现linux下抓包并存库功能
2018/07/18 Python
Python函数装饰器实现方法详解
2018/12/22 Python
python实现动态数组的示例代码
2019/07/15 Python
django ajax发送post请求的两种方法
2020/01/05 Python
python用opencv完成图像分割并进行目标物的提取
2020/05/25 Python
Ubuntu权限不足无法创建文件夹解决方案
2020/11/14 Python
python mongo 向数据中的数组类型新增数据操作
2020/12/05 Python
简述Linux文件系统通过i节点把文件的逻辑结构和物理结构转换的工作过程
2016/01/06 面试题
产品设计开发计划书
2014/05/07 职场文书
廉洁自律承诺书范文
2015/04/28 职场文书
2015年学校办公室工作总结
2015/05/26 职场文书
基于Java的MathML转图片的方法(示例代码)
2021/06/23 Java/Android
Android开发手册自定义Switch开关按钮控件
2022/06/10 Java/Android