Python的Django框架中的select_related函数对QuerySet 查询的优化


Posted in Python onApril 01, 2015

1. 实例的背景说明

假定一个个人信息系统,需要记录系统中各个人的故乡、居住地、以及到过的城市。数据库设计如下:

Python的Django框架中的select_related函数对QuerySet 查询的优化

Models.py 内容如下:

from django.db import models
 
class Province(models.Model):
  name = models.CharField(max_length=10)
  def __unicode__(self):
    return self.name
 
class City(models.Model):
  name = models.CharField(max_length=5)
  province = models.ForeignKey(Province)
  def __unicode__(self):
    return self.name
 
class Person(models.Model):
  firstname = models.CharField(max_length=10)
  lastname  = models.CharField(max_length=10)
  visitation = models.ManyToManyField(City, related_name = "visitor")
  hometown  = models.ForeignKey(City, related_name = "birth")
  living   = models.ForeignKey(City, related_name = "citizen")
  def __unicode__(self):
    return self.firstname + self.lastname

注1:创建的app名为“QSOptimize”

注2:为了简化起见,`qsoptimize_province` 表中只有2条数据:湖北省和广东省,`qsoptimize_city`表中只有三条数据:武汉市、十堰市和广州市
2. select_related()

对于一对一字段(OneToOneField)和外键字段(ForeignKey),可以使用select_related 来对QuerySet进行优化
作用和方法

在对QuerySet使用select_related()函数后,Django会获取相应外键对应的对象,从而在之后需要的时候不必再查询数据库了。以上例说明,如果我们需要打印数据库中的所有市及其所属省份,最直接的做法是:
 

>>> citys = City.objects.all()
>>> for c in citys:
...  print c.province
...

这样会导致线性的SQL查询,如果对象数量n太多,每个对象中有k个外键字段的话,就会导致n*k+1次SQL查询。在本例中,因为有3个city对象就导致了4次SQL查询:
 

SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id`
FROM `QSOptimize_city`
 
SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name`
FROM `QSOptimize_province`
WHERE `QSOptimize_province`.`id` = 1 ;
 
SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name`
FROM `QSOptimize_province`
WHERE `QSOptimize_province`.`id` = 2 ;
 
SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name`
FROM `QSOptimize_province`
WHERE `QSOptimize_province`.`id` = 1 ;

注:这里的SQL语句是直接从Django的logger:‘django.db.backends'输出出来的

如果我们使用select_related()函数:
 

>>> citys = City.objects.select_related().all()
>>> for c in citys:
...  print c.province
...

就只有一次SQL查询,显然大大减少了SQL查询的次数:
 

SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`,
`QSOptimize_city`.`province_id`, `QSOptimize_province`.`id`, `QSOptimize_province`.`name`
FROM`QSOptimize_city`
INNER JOIN `QSOptimize_province` ON (`QSOptimize_city`.`province_id` = `QSOptimize_province`.`id`) ;

这里我们可以看到,Django使用了INNER JOIN来获得省份的信息。顺便一提这条SQL查询得到的结果如下:
 

+----+-----------+-------------+----+-----------+
| id | name   | province_id | id | name   |
+----+-----------+-------------+----+-----------+
| 1 | 武汉市  |      1 | 1 | 湖北省  |
| 2 | 广州市  |      2 | 2 | 广东省  |
| 3 | 十堰市  |      1 | 1 | 湖北省  |
+----+-----------+-------------+----+-----------+
3 rows in set (0.00 sec)

 
使用方法
函数支持如下三种用法:
*fields 参数

select_related() 接受可变长参数,每个参数是需要获取的外键(父表的内容)的字段名,以及外键的外键的字段名、外键的外键的外键…。若要选择外键的外键需要使用两个下划线“__”来连接。

例如我们要获得张三的现居省份,可以用如下方式:
 

>>> zhangs = Person.objects.select_related('living__province').get(firstname=u"张",lastname=u"三")
>>> zhangs.living.province

触发的SQL查询如下:
 

SELECT `QSOptimize_person`.`id`, `QSOptimize_person`.`firstname`,
`QSOptimize_person`.`lastname`, `QSOptimize_person`.`hometown_id`, `QSOptimize_person`.`living_id`,
`QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id`, `QSOptimize_province`.`id`,
`QSOptimize_province`.`name`
FROM `QSOptimize_person`
INNER JOIN `QSOptimize_city` ON (`QSOptimize_person`.`living_id` = `QSOptimize_city`.`id`)
INNER JOIN `QSOptimize_province` ON (`QSOptimize_city`.`province_id` = `QSOptimize_province`.`id`)
WHERE (`QSOptimize_person`.`lastname` = '三' AND `QSOptimize_person`.`firstname` = '张' );

可以看到,Django使用了2次 INNER JOIN 来完成请求,获得了city表和province表的内容并添加到结果表的相应列,这样在调用 zhangs.living的时候也不必再次进行SQL查询。
 

+----+-----------+----------+-------------+-----------+----+-----------+-------------+----+-----------+
| id | firstname | lastname | hometown_id | living_id | id | name   | province_id | id | name   |
+----+-----------+----------+-------------+-----------+----+-----------+-------------+----+-----------+
| 1 | 张    | 三    |      3 |     1 | 1 | 武汉市  |  1     | 1 | 湖北省  |
+----+-----------+----------+-------------+-----------+----+-----------+-------------+----+-----------+
1 row in set (0.00 sec)

然而,未指定的外键则不会被添加到结果中。这时候如果需要获取张三的故乡就会进行SQL查询了:
 

>>> zhangs.hometown.province
 
SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`,
`QSOptimize_city`.`province_id`
FROM `QSOptimize_city`
WHERE `QSOptimize_city`.`id` = 3 ;
 
SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name`
FROM `QSOptimize_province`
WHERE `QSOptimize_province`.`id` = 1

同时,如果不指定外键,就会进行两次查询。如果深度更深,查询的次数更多。

值得一提的是,从Django 1.7开始,select_related()函数的作用方式改变了。在本例中,如果要同时获得张三的故乡和现居地的省份,在1.7以前你只能这样做:
 

>>> zhangs = Person.objects.select_related('hometown__province','living__province').get(firstname=u"张",lastname=u"三")
>>> zhangs.hometown.province
>>> zhangs.living.province

但是1.7及以上版本,你可以像和queryset的其他函数一样进行链式操作:
 

>>> zhangs = Person.objects.select_related('hometown__province').select_related('living__province').get(firstname=u"张",lastname=u"三")
>>> zhangs.hometown.province
>>> zhangs.living.province

如果你在1.7以下版本这样做了,你只会获得最后一个操作的结果,在本例中就是只有现居地而没有故乡。在你打印故乡省份的时候就会造成两次SQL查询。
depth 参数

select_related() 接受depth参数,depth参数可以确定select_related的深度。Django会递归遍历指定深度内的所有的OneToOneField和ForeignKey。以本例说明:
 

>>> zhangs = Person.objects.select_related(depth = d)

d=1  相当于 select_related(‘hometown','living')

d=2  相当于 select_related(‘hometown__province','living__province')
无参数

select_related() 也可以不加参数,这样表示要求Django尽可能深的select_related。例如:zhangs = Person.objects.select_related().get(firstname=u”张”,lastname=u”三”)。但要注意两点:

    Django本身内置一个上限,对于特别复杂的表关系,Django可能在你不知道的某处跳出递归,从而与你想的做法不一样。具体限制是怎么工作的我表示不清楚。
    Django并不知道你实际要用的字段有哪些,所以会把所有的字段都抓进来,从而会造成不必要的浪费而影响性能。

 
小结

  1.     select_related主要针一对一和多对一关系进行优化。
  2.     select_related使用SQL的JOIN语句进行优化,通过减少SQL查询的次数来进行优化、提高性能。
  3.     可以通过可变长参数指定需要select_related的字段名。也可以通过使用双下划线“__”连接字段名来实现指定的递归查询。没有指定的字段不会缓存,没有指定的深度不会缓存,如果要访问的话Django会再次进行SQL查询。
  4.     也可以通过depth参数指定递归的深度,Django会自动缓存指定深度内所有的字段。如果要访问指定深度外的字段,Django会再次进行SQL查询。
  5.     也接受无参数的调用,Django会尽可能深的递归查询所有的字段。但注意有Django递归的限制和性能的浪费。
  6.     Django >= 1.7,链式调用的select_related相当于使用可变长参数。Django < 1.7,链式调用会导致前边的select_related失效,只保留最后一个。

Python 相关文章推荐
使用python实现拉钩网上的FizzBuzzWhizz问题示例
May 05 Python
Python使用修饰器执行函数的参数检查功能示例
Sep 26 Python
对python多线程中互斥锁Threading.Lock的简单应用详解
Jan 11 Python
Python面向对象程序设计构造函数和析构函数用法分析
Apr 12 Python
Python实战之制作天气查询软件
May 14 Python
在Pycharm中使用GitHub的方法步骤
Jun 13 Python
pytorch 修改预训练model实例
Jan 18 Python
Python多线程操作之互斥锁、递归锁、信号量、事件实例详解
Mar 24 Python
jupyter notebook 实现matplotlib图动态刷新
Apr 22 Python
新版Pycharm中Matplotlib不会弹出独立的显示窗口的问题
Jun 02 Python
CentOS 7如何实现定时执行python脚本
Jun 24 Python
linux中nohup和后台运行进程查看及终止
Jun 24 Python
简单的Python2.7编程初学经验总结
Apr 01 #Python
极简的Python入门指引
Apr 01 #Python
分析在Python中何种情况下需要使用断言
Apr 01 #Python
用Python制作简单的朴素基数估计器的教程
Apr 01 #Python
简单的编程0基础下Python入门指引
Apr 01 #Python
python查找目录下指定扩展名的文件实例
Apr 01 #Python
Python利用多进程将大量数据放入有限内存的教程
Apr 01 #Python
You might like
使用PHP模拟HTTP认证
2006/10/09 PHP
在Yii框架中使用PHP模板引擎Twig的例子
2014/06/13 PHP
建议大家看下JavaScript重要知识更新
2007/07/08 Javascript
Extjs学习笔记之九 数据模型(上)
2010/01/11 Javascript
window.location.hash 属性使用说明
2010/03/20 Javascript
如何将一个String和多个String值进行比较思路分析
2013/04/22 Javascript
javascript-简单的日历实现及Date对象语法介绍(附图)
2013/05/30 Javascript
Jquery uploadify图片上传插件无法上传的解决方法
2013/12/16 Javascript
js利用事件的阻止冒泡实现点击空白模态框的隐藏
2014/01/24 Javascript
jquery为页面增加快捷键示例
2014/01/31 Javascript
js加减乘除丢失精度问题解决方法
2014/05/16 Javascript
jquery实现拖动效果
2016/08/10 Javascript
jQuery实现导航滚动到指定内容效果完整实例【附demo源码下载】
2016/09/20 Javascript
JS获取浮动(float)元素的style.left值为空的快速解决办法
2017/02/19 Javascript
JavaScript与JQUERY获取元素的宽、高和位置
2017/02/26 Javascript
关于Node.js的events.EventEmitter用法介绍
2017/04/01 Javascript
详解webpack分离css单独打包
2017/06/21 Javascript
AngularJS路由删除#符号解决的办法
2017/09/28 Javascript
Vue项目自动转换 px 为 rem的实现方法
2018/10/29 Javascript
element ui table(表格)实现点击一行展开功能
2018/12/04 Javascript
用Electron写个带界面的nodejs爬虫的实现方法
2019/01/29 NodeJs
Vue+Element实现动态生成新表单并添加验证功能
2019/05/23 Javascript
微信小程序全选多选效果实现代码解析
2020/01/21 Javascript
JS实现碰撞检测效果
2020/03/12 Javascript
Vue中的nextTick作用和几个简单的使用场景
2021/01/25 Vue.js
修改Python的pyxmpp2中的主循环使其提高性能
2015/04/24 Python
Python 12306抢火车票脚本 Python京东抢手机脚本
2018/02/06 Python
python程序控制NAO机器人行走
2019/04/29 Python
HTML5 Canvas实现放大镜效果示例
2020/03/25 HTML / CSS
Java里面如何把一个Array数组转换成Collection, List
2013/07/26 面试题
高中自我评价分享
2013/12/05 职场文书
爱国卫生月实施方案
2014/02/21 职场文书
学习朴航瑛老师爱岗敬业先进事迹思想汇报
2014/09/17 职场文书
领导干部群众路线个人对照检查材料思想汇报
2014/09/30 职场文书
初三毕业评语
2014/12/26 职场文书
伏羲庙导游词
2015/02/09 职场文书