11个并不被常用但对开发非常有帮助的Python库


Posted in Python onMarch 31, 2015

近来,越来越多的数据科学家开始使用Python,我不由得想到,尽管他们从pandas、scikit-learn和numpy这些库中得到了不少好处,但是他们也许错过了一些也许较老但同样有帮助的Python库。

在这篇博文里,我将给大家推荐一些鲜为人知的库。即便你是Python高手,也应该看一看,其中的一到两个库可能是你从没见过的。
1)Delores

Dolorean是一个很酷的日期/时间库。除了名字好听之外,也是一个我曾用过的最舒心的日期/时间修改库。它有点像javascript的moment库,每次我导入它的时候都会想笑。文档也很棒,除了有技术指导外,他们还引用了《回到未来》的无数内容(来丰富文档)。
 

from delorean import Delorean
EST = "US/Eastern"
d = Delorean(timezone=EST)

11个并不被常用但对开发非常有帮助的Python库

2)prettytable

这个包被放到了GoogleCode上,所以你可能没听说过。GoogleCode现在就像西伯利亚一样荒凉。

尽管它被流放到了一个冰天雪地、荒无人烟的地方,prettytable仍旧是最棒的结构化输出的库,它能在终端或浏览器里构建良好的输出。因此,如果你正在用 IPython Notebook的新插件,建议你用prettytable来代替__repr__进行HTML输出。
 

from prettytable import PrettyTable
table = PrettyTable(["animal", "ferocity"])
table.add_row(["wolverine", 100])
table.add_row(["grizzly", 87])
table.add_row(["Rabbit of Caerbannog", 110])
table.add_row(["cat", -1])
table.add_row(["platypus", 23])
table.add_row(["dolphin", 63])
table.add_row(["albatross", 44])
table.sort_key("ferocity")
table.reversesort = True
+----------------------+----------+
|  animal  | ferocity |
+----------------------+----------+
| Rabbit of Caerbannog | 110 |
|  wolverine  | 100 |
|  grizzly  | 87 |
|  dolphin  | 63 |
|  albatross  | 44 |
|  platypus  | 23 |
|   cat   | -1 |
+----------------------+----------+

3)snowballstemmer

我当初装snowballstemmer,是因为我觉得这个名字很酷炫。但它的确是一个小巧好使的包。snowballstemmer通过porter stemmer算法来提取15种语言的单词词干。
 
from snowballstemmer import EnglishStemmer, SpanishStemmer
EnglishStemmer().stemWord("Gregory")
# Gregori
SpanishStemmer().stemWord("amarillo")
# amarill
4)wget

还记得你每次都为特定的目标写web爬虫么?以后我们可以用其他办法来完成了,那就是wget.想要以递归的方式下载所有页面?想要抓取页面上的每张图?想要避免cookie追踪?wget可以给你想要的一切。

马克·扎格伯格的电影里它自己都说

    从柯克兰(寝室名)开始,这里的一切公共目录都是公开的,还允许在Apache系统里插入目录。所以用个wget就能下载柯克兰全部的照片库里的图片了。易如反掌!

11个并不被常用但对开发非常有帮助的Python库

    这个页面有你想问的关于这个库的一切问题,而且它很易用。
 

import wget
wget.download("<a href="http://www.cnn.com/">http://www.cnn.com/</a>")
# 100% [............................................................................] 280385 / 280385

linux和osx的用户还会用到另一个选项:from sh import wget。不过Python wget模块还有更好的参数处理。
5)PyMC

我不记得是怎么得到PyMC包的了。scikit-learn似乎是所有人的宠儿(它应得的,它太出色了),但是依我看来,PyMC更有魅力。
 

from pymc.examples import disaster_model
from pymc import MCMC
M = MCMC(disaster_model)
M.sample(iter=10000, burn=1000, thin=10)
[-----------------100%-----------------] 10000 of 10000 complete in 1.4 sec

你还不清楚它是干嘛的?那我告诉你,PyMC主要用来做贝叶斯定理分析。它的特点在Cam Davidson-Pilon的Bayesian Methods for Hackers里着重介绍过,它在许多流行的数据科学/python博客上也是一颗闪耀的钻石,但是它从来没得到过像它的同类scikit-learn一样的狂热追捧。
6)sh

我不能在你还不知道sh库的情况下,就让你离开。sh用来将shell命令导入到Python中。在bash它超有用,但在Python里你可能就不住怎么使用(即递归搜索文件)。
 

from sh import find
find("/tmp")
/tmp/foo
/tmp/foo/file1.json
/tmp/foo/file2.json
/tmp/foo/file3.json
/tmp/foo/bar/file3.json

7)fuzzywuzzy

这是我用过的能排在前十里的最简单的库。(如果你有2、3分钟,你可以读一下这个资源),fuzzywuzzy 是一个字符串模糊匹配的库,它由SeatGeek上的开发者建立。

fuzzywuzzy实现了字符串的相似率,令牌比和许多其他的匹配模式。它也可以用来创建特征向量或者匹配不同数据库的记录。
 

from fuzzywuzzy import fuzz
fuzz.ratio("Hit me with your best shot", "Hit me with your pet shark")
# 85

8)progressbar

在你调用__main__循环的时候,你用过print "still going...” 这样的提示么?你知道么,这样会感觉特别low。想要找东西替代它么?为什么不用progressbar来提升你游戏的档次呢?

如你所想,progressbar在针对精确数据的时候效果很好,它提供了一个文本模式的progressbar。但即便是一个变动的不精确数据,使用它也比用那些很长的脚本好。

唉,这又是一个GoogleCode的牺牲品,它没有受到太多关注(文档有两个空格的缩进)。用pip install可以安装它。
 

from progressbar import ProgressBar
import time
pbar = ProgressBar(maxval=10)
for i in range(1, 11):
 pbar.update(i)
 time.sleep(1)
pbar.finish()
# 60% |########################################################          |

9)colorama

在你用progressbar打印日志时,为什么不给它们加上颜色呢!实际上,当出现重大错误时,它能很快的给你提醒。

colorama很容易使用。只要把它写进你的脚本,添加到想要打印的文本之前:

colorama-red
10)uuid

对于我来说,编程中真正需要的工具只有那么几个:哈希,键值对存储,和通用唯一标识符。uuid就是Python的一个UUID包。它实现了UUID standards标准的1,3,4,5版本。在确保唯一性上真的很方便。

这听起来可能会有点傻,但你有多少次想要给市场营销的(销售货物)加上唯一的促销代码?或着给e-mail收件人加上唯一的id号?

如果你担心耗尽ids,完全不用!UUID的可以生成原子数据。
 

import uuid
print uuid.uuid4()
# e7bafa3d-274e-4b0a-b9cc-d898957b4b61

11个并不被常用但对开发非常有帮助的Python库

如果你是UUID,你可能会这么想~~~~~
11)bashplotlib

不要脸的毛遂自荐一下,bashplotlib是我创建的一个库。它通过标准输入绘制出柱状图和散点图。当然,你不需要考虑用它来替代ggplot或matplotlib来作为你每天绘图的包,只要作为新奇玩意试试就好。但至少,你可以使用它把你的日志文件弄的好看点。
 

$ pip install bashplotlib
$ scatter --file data/texas.txt --pch x

11个并不被常用但对开发非常有帮助的Python库

Python 相关文章推荐
将图片文件嵌入到wxpython代码中的实现方法
Aug 11 Python
跟老齐学Python之眼花缭乱的运算符
Sep 14 Python
使用Python3编写抓取网页和只抓网页图片的脚本
Aug 20 Python
Python抓取框架 Scrapy的架构
Aug 12 Python
python使用fcntl模块实现程序加锁功能示例
Jun 23 Python
200 行python 代码实现 2048 游戏
Jan 12 Python
Laravel+Dingo/Api 自定义响应的实现
Feb 17 Python
Python 使用 Pillow 模块给图片添加文字水印的方法
Aug 30 Python
python mysql 字段与关键字冲突的解决方式
Mar 02 Python
python字典和json.dumps()的遇到的坑分析
Mar 11 Python
python selenium操作cookie的实现
Mar 18 Python
Python利用Faiss库实现ANN近邻搜索的方法详解
Aug 03 Python
Python的Flask框架中@app.route的用法教程
Mar 31 #Python
使用Python的Flask框架实现视频的流媒体传输
Mar 31 #Python
在Python3中初学者应会的一些基本的提升效率的小技巧
Mar 31 #Python
使用IronPython把Python脚本集成到.NET程序中的教程
Mar 31 #Python
提升Python程序运行效率的6个方法
Mar 31 #Python
用Python从零实现贝叶斯分类器的机器学习的教程
Mar 31 #Python
利用Python的Flask框架来构建一个简单的数字商品支付解决方案
Mar 31 #Python
You might like
PHP 编程安全性小结
2010/01/08 PHP
php简单的会话类代码
2011/08/08 PHP
laravel实现分页样式替换示例代码(增加首、尾页)
2017/09/22 PHP
Thinkphp页面跳转设置跳转等待时间的操作
2019/10/16 PHP
php反序列化长度变化尾部字符串逃逸(0CTF-2016-piapiapia)
2020/02/15 PHP
JavaScript 存在陷阱 删除某一区域所有节点
2010/05/10 Javascript
window.open不被拦截的实现代码
2012/08/22 Javascript
jQuery函数的等价原生函数代码示例
2013/05/27 Javascript
JS定时刷新页面及跳转页面的方法
2013/07/04 Javascript
js window.open弹出新的网页窗口
2014/01/16 Javascript
jquery任意位置浮动固定层插件用法实例
2015/05/29 Javascript
JavaScript 封装一个tab效果源码分享
2015/09/15 Javascript
全面解析Bootstrap弹窗的实现方法
2015/12/01 Javascript
javascript中获取class的简单实现
2016/07/12 Javascript
详解微信小程序 通过控制CSS实现view隐藏与显示
2017/05/24 Javascript
JavaScript设计模式之代理模式详解
2017/06/09 Javascript
vue.js过滤器+ajax实现事件监听及后台php数据交互实例
2018/05/22 Javascript
在 Angular-cli 中使用 simple-mock 实现前端开发 API Mock 接口数据模拟功能的方法
2018/11/28 Javascript
element跨分页操作选择详解
2020/06/29 Javascript
addEventListener()和removeEventListener()追加事件和删除追加事件
2020/12/04 Javascript
python网络爬虫采集联想词示例
2014/02/11 Python
python实现文件的备份流程详解
2019/06/18 Python
python实现点击按钮修改数据的方法
2019/07/17 Python
Pycharm使用远程linux服务器conda/python环境在本地运行的方法(图解))
2019/12/09 Python
Python Sphinx使用实例及问题解决
2020/01/17 Python
浅谈keras中的batch_dot,dot方法和TensorFlow的matmul
2020/06/18 Python
HTML5页面嵌入小程序没有返回按钮及返回页面空白的问题
2020/05/28 HTML / CSS
台湾母婴用品限时团购:妈咪爱
2018/08/03 全球购物
税务专业毕业生自荐信
2013/11/10 职场文书
物流管理专业应届生求职信
2013/11/21 职场文书
材料成型及控制工程专业求职信
2014/06/19 职场文书
党员自我剖析材料范文
2014/10/06 职场文书
2014年基建工作总结
2014/12/12 职场文书
写给妈妈的感谢信
2015/01/22 职场文书
新年祝酒词大全
2015/08/11 职场文书
建国70周年的心得体会(2篇)
2019/09/20 职场文书