利用Celery实现Django博客PV统计功能详解


Posted in Python onMay 08, 2017

前言

前几天给网站的文章增加了pv统计,之前只有uv统计。之前没加pv统计是觉得每个用户每访问一次文章,我都需要做一次数据库写操作实在是有损性能,毕竟从用户在the5fire博客的的一次访问来看,只需要从数据库里拿到对应的文章(通常情况下是从缓存中拿),然后返回给浏览器。写操作无意义。之前的uv,也是针对每个用户24小时内只会有一次写操作。

不过话说回来,就对于the5fire博客这么个小站点来说,就算每次访问我写十几次数据库都没啥影响,毕竟量小的可怜。但是咱们码农不是得有颗抗亿级流量的心嘛。

对于不理解的同学,可以出门调研下,看看别人家的网站。对,就是那些访问量上亿,十亿,百亿的网站,看看他们是怎么处理用户写入的,比如留言。

PV的意义

说完原因,再说业务。所有的网站都会有pv,uv这样的统计。甚至是停留时长,各类型页面转换率等等各方各面的统计。我在搜狐的工作,大白话来说就是做网站。关注的业务指标就是流量相关的东西。同时作为站长这么多年,也会参考百度统计里的一些指标来做些调整。

不过这次只说pv,一篇文章的pv。

抛开非正常访问,互联网上的一篇文章,访问他的人越多,那么意味着这篇文章的价值越高。毕竟有价值的东西大家才会点开看嘛。这个访问量就是uv(User View/Visit)。那么pv是什么呢,一篇文章写得很不错,尤其是技术文章,可能会多次访问,比如说我就喜欢把不错的文章收藏起来,有空时回顾一下。每次回顾(刷新页面)都算是一个pv。能做到人读者多次阅读的文章,价值会更高。所以一篇文章的pv/uv比也是衡量文章价值的一个指标。尤其是在标题党遍布的年代。(好吧,这里再歪一句,标题党不是自媒体时代的产物,博客时代就有,只是自媒体时代显得更加集中显现了而已)

单纯的说价值没啥感觉,古人不是说了吗,价值能换几斗米。(我胡诌的)

拿现在的所有新闻网站/媒体平台来说,pv是可以和¥划等号的。流量越大,意味着能够有更多的收入,无论是来自广告的收入,还是把流量释放到其他渠道。有时候我也考虑,一切的目标真的是更好的理解用户,给用户推送他想看的东西吗?或许是吧,但是始终绕不开的一个问题是,构建一个商业模式,让广告主和投资人为用户的停留时长买单。让用户更多的停留在平台上,消费更多的时间。(纯属个人观点,明辨之,慎思之)

再拿另外一个更直接的例子,现在自媒体盛行,多少人想要100000+,一个好的公众号,可以根据以往文章的浏览量(或者粉丝量)来定价广告/软文等各种类型合作的价格。其实你到微播易或者易赞看看就知道了。
这么看来pv是不是变得有吸引力了。

统计的方式

对于网站来说,the5fire了解到的pv,uv的统计方式有这么几种

  • 像the5fire早期的做法:用户每访问一篇文章,文章pv+1,uv+1。傻大粗的做法。
  • the5fire博客现在的做法,写一个分布式的任务服务,然后在业务代码中调用。
  • 页面埋点,标签,或者引用js来发送数据到统计服务器上。
  • 收集nginx access-log(如果是用nginx的话),当然,格式需要自定义,起码得加上user_id,然后做离线统计、汇总。

前两种都是耦合比较重的实现方式,需要在具体页面里插代码。后两种也类似,本质上都是收集nginx日志,但是收集的阶段不同,第三种是页面完全打开之后,nginx才会收到日志。而第四种是只要访问页面,并且upstream返回状态码为200就算成功,那怕最终用户并未看到页面。

总之,各有利弊,可以相互参考。

博客实现的方式

上面也说了,主要也是为了用下celery这个分布式任务队列。在Django中使用是比较简单的事情。

在Django中使用Celery,需要Celery运行时能够使用这个Django项目的各个模块,因此首先要指明settings模块。我用的Django版本为1.11。在wsgi.py同级目录下增加celery.py,代码如下:

# coding:utf-8
from __future__ import absolute_import, unicode_literals
import os
from celery import Celery
PROFILE = os.environ.get('DJANGO_SELFBLOG_PROFILE', 'develop') # 我是把settings.py拆成了:develop.py,product.py
os.environ.setdefault("DJANGO_SETTINGS_MODULE", "django_selfblog.settings.%s" % PROFILE)
app = Celery('selfblog', broker="redis://127.0.0.1:6666/2")
app.config_from_object('django.conf:settings', namespace='CELERY')
# Load task modules from all registered Django app configs.
app.autodiscover_tasks()

这里使用了官方并不建议的redis作为broker,而不是Rabbitmq,主要是缓存用的是Redis,为了不引入更多需要维护的系统。

定义好启动文件之后,就需要定义具体的tasks,在app/tasks.py中写具体的任务:

# coding:utf-8
from __future__ import unicode_literals
from django.db.models import F
from .models import Post
from django_selfblog.celery import app
@app.task
def increase_pv(post_id):
 return Post.objects.filter(id=post_id).update(pv=F('pv')+1)
@app.task
def increase_uv(post_id):
 return Post.objects.filter(id=post_id).update(uv=F('uv')+1)

在访问文章页面的views.py对应位置增加调用:

from .tasks import increase_pv, increase_uv
# ....省略上下文
increase_pv.delay(self.post.id)
increase_uv.delay(self.post.id)

这样,每次用户访问时计算pv和uv的逻辑就放到分布式的任务管理器中去执行了,不会影响本次访问。

如果你想要查看任务的执行状态,比如通过:

r = increase_pv.delay(self.post.id)
print r.ready()

想要这样查看任务是否完成,那就需要引入django-celery-results,使用步骤如下:

  • pip install django-celery-results
  • 把django_celery_results放到INSTALLED_APPS中
  • 配置CELERY_RESULT_BACKEND = 'django-db'或者'django-cache'
  • 如果配置的是django-db,意味着结果需要存储到数据库中,那就要执行python manage.py migrate django_celery_results来建表

这些配置完成之后,剩下的就是部署了,the5fire博客每次更新完代码重新部署时都是通过fabric来做的 fab re_deploy:master 代码就会部署到服务器上。增加celery之后,只需要增加supervisord的配置,现在毕竟celery的代码也是在博客代码里。

supervisord增加配置:

[program:celery]
command=celery -A selfblog worker -P gevent --loglevel=INFO --concurrency=5
directory=/home/the5fire/selfblog/
process_name=%(program_name)s_%(process_num)d
umask=022
startsecs=0
stopwaitsecs=0
redirect_stderr=true
stdout_logfile=/tmp/log/celery_%(process_num)02d.log
numprocs=1
numprocs_start=1
environment=DJANGO_SELFBLOG_PROFILE=product

这样每次重新部署,celery进程也会重新启动。

Django Tips

在Django项目中,性能损耗最多的就是ORM,不熟悉的话很容易被坑。

就拿增加pv来说,用户每次访问一篇文章,pv字段+1,用代码来说就是:

# 绝对不要写这么蠢的代码
post = Post.objects.get(pk=post_id)
post.pv = post.pv + 1
post.save()

这是最简单的做法,但是大部分情况,用户访问一篇文章,这篇文章通常会在缓存中,毕竟不需要每次都去数据库中获取。这样的话应该怎么处理呢,直观的做法还是先获取到post,然后+1,save,如上一样。但这样会存在竞争的问题。

比方说,同时100个人访问一篇文章,我是启动了多个线程/进程来处理请求,有可能出现所有进程在同一时刻执行了 post = Post.objects.get(pk=post_id) 假设现在数据库中这篇文章的pv是100,那么此时post.pv就是100。那所有用户执行完post.save()之后,结果均为101,也就是一百次并发访问,可能出现pv只加1的情况。

要解决这个问题,两个办法。

一、加锁,这个据我的了解Django没有提供,需要自己来实现。但是没人会这么做吧。 二、用mysql来执行自增,也就是我上面用到的。

对于方法二,在Django中怎么实现呢。其实翻译为sql就是

UPDATE `blog_post` SET `pv` = (`blog_post`.`pv` + 1) WHERE `blog_post`.`id` = <post_id>;

Django代码就是: Post.objects.filter(id=post_id).update(pv=F('pv')+1) ,关于F表达式可以参考官方文档:https://docs.djangoproject.com/en/1.11/ref/models/expressions/#django.db.models.F

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
Python使用gensim计算文档相似性
Apr 10 Python
python里使用正则表达式的组嵌套实例详解
Oct 24 Python
mac系统安装Python3初体验
Jan 02 Python
python实现两个文件合并功能
Apr 01 Python
Sanic框架Cookies操作示例
Jul 17 Python
详解python中的Turtle函数库
Nov 19 Python
python提取xml里面的链接源码详解
Oct 15 Python
python实现的多任务版udp聊天器功能案例
Nov 13 Python
python如何将两张图片生成为全景图片
Mar 05 Python
python中os包的用法
Jun 01 Python
基于tensorflow for循环 while循环案例
Jun 30 Python
Python集合的基础操作
Nov 01 Python
浅谈Python生成器generator之next和send的运行流程(详解)
May 08 #Python
python生成式的send()方法(详解)
May 08 #Python
python实时分析日志的一个小脚本分享
May 07 #Python
python分割列表(list)的方法示例
May 07 #Python
Python 常用的安装Module方式汇总
May 06 #Python
python中OrderedDict的使用方法详解
May 05 #Python
Python编程生成随机用户名及密码的方法示例
May 05 #Python
You might like
新版PHP将向Java靠拢
2006/10/09 PHP
php数字转汉字代码(算法)
2011/10/08 PHP
yii2.0整合阿里云oss的示例代码
2017/09/19 PHP
PHP使用Nginx实现反向代理
2017/09/20 PHP
基于JQuery的密码强度验证代码
2010/03/01 Javascript
javascript 得到变量类型的函数
2010/05/19 Javascript
jquery获得页面元素的坐标值实现思路及代码
2013/04/15 Javascript
Jquery显示、隐藏元素以及添加删除样式
2013/08/09 Javascript
使用insertAfter()方法在现有元素后添加一个新元素
2014/05/28 Javascript
自己动手手写jQuery插件总结
2015/01/20 Javascript
JS中prototype的用法实例分析
2015/03/19 Javascript
关于javascript中dataset的问题小结
2015/11/16 Javascript
JavaScript如何动态创建table表格
2020/08/02 Javascript
详解react-router4 异步加载路由两种方法
2017/09/12 Javascript
解决Vue使用mint-ui loadmore实现上拉加载与下拉刷新出现一个页面使用多个上拉加载后冲突问题
2017/11/07 Javascript
Vue使用vue-area-linkage实现地址三级联动效果的示例
2018/06/27 Javascript
uni-app 自定义底部导航栏的实现
2020/12/11 Javascript
python3使用PyMysql连接mysql数据库实例
2017/02/07 Python
python解析xml简单示例
2019/06/21 Python
Python Web框架之Django框架cookie和session用法分析
2019/08/16 Python
pytorch 实现在预训练模型的 input上增减通道
2020/01/06 Python
python opencv根据颜色进行目标检测的方法示例
2020/01/15 Python
浅谈PyTorch中in-place operation的含义
2020/06/27 Python
浅析Python迭代器的高级用法
2020/07/16 Python
通过Django Admin+HttpRunner1.5.6实现简易接口测试平台
2020/11/11 Python
Python爬虫过程解析之多线程获取小米应用商店数据
2020/11/14 Python
美国顶级户外凉鞋品牌:Chacos
2017/03/27 全球购物
介绍一下Python中webbrowser的用法
2013/05/07 面试题
国家助学金获奖感言
2014/01/31 职场文书
2014年党的群众路线整改措施思想汇报
2014/10/12 职场文书
华山导游词
2015/02/03 职场文书
2015年思想品德教学工作总结
2015/07/22 职场文书
总经理年会致辞
2015/07/29 职场文书
优质服务心得体会(共4篇)
2016/01/22 职场文书
python实现图片批量压缩
2021/04/24 Python
Python echarts实现数据可视化实例详解
2022/03/03 Python