让Python更加充分的使用Sqlite3


Posted in Python onDecember 11, 2017

我最近在涉及大量数据处理的项目中频繁使用 sqlite3。我最初的尝试根本不涉及任何数据库,所有的数据都将保存在内存中,包括字典查找、迭代和条件等查询。这很好,但可以放入内存的只有那么多,并且将数据从磁盘重新生成或加载到内存是一个繁琐又耗时的过程。

我决定试一试sqlite3。因为只需打开与数据库的连接,这样可以增加可处理的数据量,并将应用程序的加载时间减少到零。此外,我可以通过 SQL 查询替换很多Python逻辑语句。

我想分享一些关于这次经历的心得和发现。

TL;DR

  • 使用大量操作 (又名 executemany)。
  • 你不需要使用光标 (大部分时间)。
  • 光标可被迭代。
  • 使用上下文管理器。
  • 使用编译指示 (当它有意义)。
  • 推迟索引创建。
  • 使用占位符来插入 python 值。

1. 使用大量操作

如果你需要在数据库中一次性插入很多行,那么你真不应该使用 execute。sqlite3 模块提供了批量插入的方式:executemany。

而不是像这样做:

for row in iter_data():
connection.execute('INSERT INTO my_table VALUES (?)', row)

你可以利用这个事实,即 executemany 接受元组的生成器作为参数:

connection.executemany(
 'INSERT INTO my_table VALUE (?)',
  iter_data()
)

这不仅更简洁,而且更高效。实际上,sqlite3 在幕后利用 executemany 实现 execute,但后者插入一行而不是多行。

我写了一个小的基准测试,将一百万行插入空表(数据库在内存中):
executemany: 1.6 秒
execute: 2.7 秒

2. 你不需要游标

一开始我经常搞混的事情就是,光标管理。在线示例和文档中通常如下:

connection = sqlite3.connect(':memory:')
cursor = connection.cursor()
# Do something with cursor

但大多数情况下,你根本不需要光标,你可以直接使用连接对象(本文末尾会提到)。像execute和executemany类似的操作可以直接在连接上调用。以下是一个证明此事的示例:

import sqlite3
connection = sqlite3(':memory:')
# Create a table
connection.execute('CREATE TABLE events(ts, msg)')
# Insert values
connection.executemany(
 'INSERT INTO events VALUES (?,?)',
  [
    (1, 'foo'),
    (2, 'bar'),
    (3, 'baz')
  ]
)
# Print inserted rows
for row in connnection.execute('SELECT * FROM events'):
  print(row)

3. 光标(Cursor)可被用于迭代

你可能经常会看到使用fetchone或fetchall来处理SELECT查询结果的示例。但是我发现处理这些结果的最自然的方式是直接在光标上迭代:

for row in connection.execute('SELECT * FROM events'):
 print(row)

这样一来,只要你得到足够的结果,你就可以终止查询,并且不会引起资源浪费。当然,如果事先知道你需要多少结果,可以改用LIMIT SQL语句,但Python生成器是非常方便的,可以让你将数据生成与数据消耗分离。

4. 使用Context Managers(上下文管理器)

即使在处理SQL事务的中间,也会发生讨厌的事情。为了避免手动处理回滚或提交,你可以简单地使用连接对象作为上下文管理器。 在以下示例中,我们创建了一个表,并错误地插入了重复的值:

import sqlite3
connection = sqlite3.connect(':memory:')
with connection:
  connection.execute(
 'CREATE TABLE events(ts, msg, PRIMARY KEY(ts, msg))')
try:
  with connection:
    connection.executemany('INSERT INTO events VALUES (?, ?)', [
      (1, 'foo'),
      (2, 'bar'),
      (3, 'baz'),
      (1, 'foo'),
    ])
except (sqlite3.OperationalError, sqlite3.IntegrityError) as e:
  print('Could not complete operation:', e)
# No row was inserted because transaction failed
for row in connection.execute('SELECT * FROM events'):
  print(row)
connection.close()

5. 使用Pragmas

…当它真的有用时

在你的程序中有几个 pragma 可用于调整 sqlite3 的行为。特别地,其中一个可以改善性能的是synchronous:

connection.execute('PRAGMA synchronous = OFF')

你应该知道这可能是危险的。如果应用程序在事务中间意外崩溃,数据库可能会处于不一致的状态。所以请小心使用! 但是如果你要更快地插入很多行,那么这可能是一个选择。

6. 推迟索引创建

假设你需要在数据库上创建几个索引,而你需要在插入很多行的同时创建索引。把索引的创建推迟到所有行的插入之后可以导致实质性的性能改善。

7. 使用占位符插入 Python 值

使用 Python 字符串操作将值包含到查询中是很方便的。但是这样做非常不安全,而 sqlite3 给你提供了更好的方法来做到这一点:

# Do not do this!
my_timestamp = 1
c.execute("SELECT * FROM events WHERE ts = '%s'" % my_timestamp)
# Do this instead
my_timestamp = (1,)
c.execute('SELECT * FROM events WHERE ts = ?', my_timestamp)

此外,使用Python%s(或格式或格式的字符串常量)的字符串插值对于executemany来说并不是总是可行。所以在此尝试没有什么真正意义!

请记住,这些小技巧可能会(也可能不会)给你带来好处,具体取决于特定的用例。你应该永远自己去尝试,决定是否值得这么做。

英文:remusao,译文:oschina

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python使用calendar输出指定年份全年日历的方法
Apr 04 Python
Python抓取框架 Scrapy的架构
Aug 12 Python
python:pandas合并csv文件的方法(图书数据集成)
Apr 12 Python
更新修改后的Python模块方法
Mar 03 Python
Django 接收Post请求数据,并保存到数据库的实现方法
Jul 12 Python
PyQtGraph在pyqt中的应用及安装过程
Aug 04 Python
python中对_init_的理解及实例解析
Oct 11 Python
python topk()函数求最大和最小值实例
Apr 02 Python
windows上彻底删除jupyter notebook的实现
Apr 13 Python
TensorFlow使用Graph的基本操作的实现
Apr 22 Python
python连接mongodb数据库操作数据示例
Nov 30 Python
Elasticsearch 数据类型及管理
Apr 19 Python
pandas中Timestamp类用法详解
Dec 11 #Python
Python排序搜索基本算法之插入排序实例分析
Dec 11 #Python
python实现二叉树的遍历
Dec 11 #Python
django上传图片并生成缩略图方法示例
Dec 11 #Python
使用Python的package机制如何简化utils包设计详解
Dec 11 #Python
python timestamp和datetime之间转换详解
Dec 11 #Python
Python时间戳使用和相互转换详解
Dec 11 #Python
You might like
给海燕B411配件机起死回生配上件
2021/03/02 无线电
如何在PHP程序中防止盗链
2008/04/09 PHP
yii分页组件用法实例分析
2015/12/28 PHP
php通过smtp邮件验证登陆的方法
2016/05/11 PHP
PHP基于curl后台远程登录正方教务系统的方法
2016/10/14 PHP
php 微信公众平台开发模式实现多客服的实例代码
2016/11/07 PHP
js中如何复制一个对象并获取其所有属性和属性对应的值
2013/10/24 Javascript
javascript中解析四则运算表达式的算法和示例
2014/08/11 Javascript
15个jquery常用方法、小技巧分享
2015/01/13 Javascript
Javascript获取数组中的最大值和最小值的方法汇总
2016/01/01 Javascript
分享js粘帖屏幕截图到web页面插件screenshot-paste
2020/08/21 Javascript
JS基于构造函数实现的菜单滑动显隐效果【测试可用】
2016/06/21 Javascript
jQuery获取select选中的option的value值实现方法
2016/08/29 Javascript
jquery手机触屏滑动拼音字母城市选择器的实例代码
2017/12/11 jQuery
Angular4.x通过路由守卫进行路由重定向实现根据条件跳转到相应的页面(推荐)
2018/05/10 Javascript
JS中实现浅拷贝和深拷贝的代码详解
2019/06/05 Javascript
解析vue、angular深度作用选择器
2019/09/11 Javascript
Layui Form 自定义验证的实例代码
2019/09/14 Javascript
在vue中使用echarts(折线图的demo,markline用法)
2020/07/20 Javascript
js实现简单的点名器随机色实例代码
2020/09/20 Javascript
[04:13]2018国际邀请赛典藏宝瓶Ⅱ饰品一览
2018/07/21 DOTA
[01:20:47]DOTA2-DPC中国联赛 正赛 Ehome vs Magma BO3 第一场 1月19日
2021/03/11 DOTA
Python matplotlib画图实例之绘制拥有彩条的图表
2017/12/28 Python
由Python编写的MySQL管理工具代码实例
2019/04/09 Python
Python笔记之工厂模式
2019/11/20 Python
使用Python实现分别输出每个数组
2019/12/06 Python
Python 实现opencv所使用的图片格式与 base64 转换
2020/01/09 Python
python 实现一个图形界面的汇率计算器
2020/11/09 Python
python 如何读、写、解析CSV文件
2021/03/03 Python
Linux文件操作命令都有哪些
2016/07/23 面试题
Linux如何修改文件和文件夹的权限
2012/06/27 面试题
活动总结模板大全
2015/05/11 职场文书
运动会通讯稿600字
2015/07/20 职场文书
Nginx tp3.2.3 404问题解决方案
2021/03/31 Servers
postgresql无序uuid性能测试及对数据库的影响
2021/06/11 PostgreSQL
详解Java ES多节点任务的高效分发与收集实现
2021/06/30 Java/Android