让Python更加充分的使用Sqlite3


Posted in Python onDecember 11, 2017

我最近在涉及大量数据处理的项目中频繁使用 sqlite3。我最初的尝试根本不涉及任何数据库,所有的数据都将保存在内存中,包括字典查找、迭代和条件等查询。这很好,但可以放入内存的只有那么多,并且将数据从磁盘重新生成或加载到内存是一个繁琐又耗时的过程。

我决定试一试sqlite3。因为只需打开与数据库的连接,这样可以增加可处理的数据量,并将应用程序的加载时间减少到零。此外,我可以通过 SQL 查询替换很多Python逻辑语句。

我想分享一些关于这次经历的心得和发现。

TL;DR

  • 使用大量操作 (又名 executemany)。
  • 你不需要使用光标 (大部分时间)。
  • 光标可被迭代。
  • 使用上下文管理器。
  • 使用编译指示 (当它有意义)。
  • 推迟索引创建。
  • 使用占位符来插入 python 值。

1. 使用大量操作

如果你需要在数据库中一次性插入很多行,那么你真不应该使用 execute。sqlite3 模块提供了批量插入的方式:executemany。

而不是像这样做:

for row in iter_data():
connection.execute('INSERT INTO my_table VALUES (?)', row)

你可以利用这个事实,即 executemany 接受元组的生成器作为参数:

connection.executemany(
 'INSERT INTO my_table VALUE (?)',
  iter_data()
)

这不仅更简洁,而且更高效。实际上,sqlite3 在幕后利用 executemany 实现 execute,但后者插入一行而不是多行。

我写了一个小的基准测试,将一百万行插入空表(数据库在内存中):
executemany: 1.6 秒
execute: 2.7 秒

2. 你不需要游标

一开始我经常搞混的事情就是,光标管理。在线示例和文档中通常如下:

connection = sqlite3.connect(':memory:')
cursor = connection.cursor()
# Do something with cursor

但大多数情况下,你根本不需要光标,你可以直接使用连接对象(本文末尾会提到)。像execute和executemany类似的操作可以直接在连接上调用。以下是一个证明此事的示例:

import sqlite3
connection = sqlite3(':memory:')
# Create a table
connection.execute('CREATE TABLE events(ts, msg)')
# Insert values
connection.executemany(
 'INSERT INTO events VALUES (?,?)',
  [
    (1, 'foo'),
    (2, 'bar'),
    (3, 'baz')
  ]
)
# Print inserted rows
for row in connnection.execute('SELECT * FROM events'):
  print(row)

3. 光标(Cursor)可被用于迭代

你可能经常会看到使用fetchone或fetchall来处理SELECT查询结果的示例。但是我发现处理这些结果的最自然的方式是直接在光标上迭代:

for row in connection.execute('SELECT * FROM events'):
 print(row)

这样一来,只要你得到足够的结果,你就可以终止查询,并且不会引起资源浪费。当然,如果事先知道你需要多少结果,可以改用LIMIT SQL语句,但Python生成器是非常方便的,可以让你将数据生成与数据消耗分离。

4. 使用Context Managers(上下文管理器)

即使在处理SQL事务的中间,也会发生讨厌的事情。为了避免手动处理回滚或提交,你可以简单地使用连接对象作为上下文管理器。 在以下示例中,我们创建了一个表,并错误地插入了重复的值:

import sqlite3
connection = sqlite3.connect(':memory:')
with connection:
  connection.execute(
 'CREATE TABLE events(ts, msg, PRIMARY KEY(ts, msg))')
try:
  with connection:
    connection.executemany('INSERT INTO events VALUES (?, ?)', [
      (1, 'foo'),
      (2, 'bar'),
      (3, 'baz'),
      (1, 'foo'),
    ])
except (sqlite3.OperationalError, sqlite3.IntegrityError) as e:
  print('Could not complete operation:', e)
# No row was inserted because transaction failed
for row in connection.execute('SELECT * FROM events'):
  print(row)
connection.close()

5. 使用Pragmas

…当它真的有用时

在你的程序中有几个 pragma 可用于调整 sqlite3 的行为。特别地,其中一个可以改善性能的是synchronous:

connection.execute('PRAGMA synchronous = OFF')

你应该知道这可能是危险的。如果应用程序在事务中间意外崩溃,数据库可能会处于不一致的状态。所以请小心使用! 但是如果你要更快地插入很多行,那么这可能是一个选择。

6. 推迟索引创建

假设你需要在数据库上创建几个索引,而你需要在插入很多行的同时创建索引。把索引的创建推迟到所有行的插入之后可以导致实质性的性能改善。

7. 使用占位符插入 Python 值

使用 Python 字符串操作将值包含到查询中是很方便的。但是这样做非常不安全,而 sqlite3 给你提供了更好的方法来做到这一点:

# Do not do this!
my_timestamp = 1
c.execute("SELECT * FROM events WHERE ts = '%s'" % my_timestamp)
# Do this instead
my_timestamp = (1,)
c.execute('SELECT * FROM events WHERE ts = ?', my_timestamp)

此外,使用Python%s(或格式或格式的字符串常量)的字符串插值对于executemany来说并不是总是可行。所以在此尝试没有什么真正意义!

请记住,这些小技巧可能会(也可能不会)给你带来好处,具体取决于特定的用例。你应该永远自己去尝试,决定是否值得这么做。

英文:remusao,译文:oschina

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python使用mysql数据库示例代码
May 21 Python
python实现聊天小程序
Mar 13 Python
Python3使用正则表达式爬取内涵段子示例
Apr 22 Python
Python+pandas计算数据相关系数的实例
Jul 03 Python
老生常谈python中的重载
Nov 11 Python
一百行python代码将图片转成字符画
Feb 19 Python
django模板结构优化的方法
Feb 28 Python
python2.7的flask框架之引用js&css等静态文件的实现方法
Aug 22 Python
PyCharm使用Docker镜像搭建Python开发环境
Dec 26 Python
解决pytorch DataLoader num_workers出现的问题
Jan 14 Python
Python求凸包及多边形面积教程
Apr 12 Python
python实现按键精灵找色点击功能教程,使用pywin32和Pillow库
Jun 04 Python
pandas中Timestamp类用法详解
Dec 11 #Python
Python排序搜索基本算法之插入排序实例分析
Dec 11 #Python
python实现二叉树的遍历
Dec 11 #Python
django上传图片并生成缩略图方法示例
Dec 11 #Python
使用Python的package机制如何简化utils包设计详解
Dec 11 #Python
python timestamp和datetime之间转换详解
Dec 11 #Python
Python时间戳使用和相互转换详解
Dec 11 #Python
You might like
PHILIPS AE3805收音机的分析打磨
2021/03/02 无线电
php中inlcude()性能对比详解
2012/09/16 PHP
PHP中isset()和unset()函数的用法小结
2014/03/11 PHP
php随机获取金山词霸每日一句的方法
2015/07/09 PHP
yii2使用ajax返回json的实现方法
2016/05/14 PHP
PHP进阶学习之依赖注入与Ioc容器详解
2019/06/19 PHP
Nigma vs Liquid BO3 第一场2.13
2021/03/10 DOTA
javascript字符串拼接的效率问题
2010/12/25 Javascript
JavaScript中的16进制字符(改进)
2011/11/21 Javascript
javascript实现单击和双击并存的方法
2014/12/13 Javascript
js如何判断输入字符串长度
2015/12/16 Javascript
简述Matlab中size()函数的用法
2016/03/20 Javascript
微信小程序 列表的上拉加载和下拉刷新的实现
2017/04/01 Javascript
angularJs中datatable实现代码
2017/06/03 Javascript
详解vue2.0+axios+mock+axios-mock+adapter实现登陆
2018/07/19 Javascript
vue实现添加与删除图书功能
2018/10/07 Javascript
浅谈在不使用ssr的情况下解决Vue单页面SEO问题(2)
2018/11/08 Javascript
express express-session的使用小结
2018/12/12 Javascript
vue 项目 iOS WKWebView 加载
2019/04/17 Javascript
vue组件实现移动端九宫格转盘抽奖
2020/10/16 Javascript
[01:14:55]EG vs Spirit Supermajor 败者组 BO3 第三场 6.4
2018/06/05 DOTA
简单了解Python下用于监视文件系统的pyinotify包
2015/11/13 Python
Python使用SQLite和Excel操作进行数据分析
2018/01/20 Python
对python requests的content和text方法的区别详解
2018/10/11 Python
python程序控制NAO机器人行走
2019/04/29 Python
欧洲第一中国智能手机和平板电脑网上商店:CECT-SHOP
2018/01/08 全球购物
《盘古开天地》教学反思
2014/02/28 职场文书
2014组织生活会方案
2014/05/19 职场文书
模具设计与制造专业自荐书
2014/07/01 职场文书
辞旧迎新演讲稿
2014/09/15 职场文书
六查六看剖析材料
2014/10/06 职场文书
酒店人事专员岗位职责
2015/04/07 职场文书
旅行社计调工作总结
2015/08/12 职场文书
关于感恩的作文
2019/08/26 职场文书
创业计划书之孕婴生活馆
2019/11/11 职场文书
Flask搭建一个API服务器的步骤
2021/05/28 Python