Python使用filetype精确判断文件类型


Posted in Python onJuly 02, 2017

filetype.py

Small and dependency free Python package to infer file type and MIME type checking the  magic numbers signature of a file or buffer.

This is a Python port from filetype Go package. Works in Python  +3 .

一个小巧自由开放Python开发包,主要用来获得文件类型。包要求Python 3.+

功能特色

•简单友好的API
•支持宽范围文件类型
•提供文件扩展名和MIME类型判断
•文件的MIME类型扩展新增
•通过文件(图像、视频、音频…)简单分析
•可插拔:添加新的自定义类型的匹配
•快,即使处理大文件
•只需要前261个字节表示的最大文件头,这样你就可以通过一个单字节
•依赖自由(只是Python代码,没有C的扩展,没有libmagic绑定)
•跨平台文件识别

安装

pip install filetype

API

详情请查看 annotated API reference .

实例

简单的文件类型识别

import filetype
 
def main():
 kind = filetype.guess('tests/fixtures/sample.jpg')
 if kind is None:
  print('Cannot guess file type!')
  return
 
 print('File extension: %s' % kind.extension)
 print('File MIME type: %s' % kind.mime)
 
if __name__ == '__main__':
 main()

支持类型

图片

• jpg  ?  image/jpeg
• png  ?  image/png
• gif  ?  image/gif
• webp  ?  image/webp
• cr2  ?  image/x-canon-cr2
• tif  ?  image/tiff
• bmp  ?  image/bmp
• jxr  ?  image/vnd.ms-photo
• psd  ?  image/vnd.adobe.photoshop
• ico  ?  image/x-icon

视频

• mp4  ?  video/mp4
• m4v  ?  video/x-m4v
• mkv  ?  video/x-matroska
• webm  ?  video/webm
• mov  ?  video/quicktime
• avi  ?  video/x-msvideo
• wmv  ?  video/x-ms-wmv
• mpg  ?  video/mpeg
• flv  ?  video/x-flv

音频

• mid  ?  audio/midi
• mp3  ?  audio/mpeg
• m4a  ?  audio/m4a
• ogg  ?  audio/ogg
• flac  ?  audio/x-flac
• wav  ?  audio/x-wav
• amr  ?  audio/amr

资料库

• epub  ?  application/epub+zip
• zip  ?  application/zip
• tar  ?  application/x-tar
• rar  ?  application/x-rar-compressed
• gz  ?  application/gzip
• bz2  ?  application/x-bzip2
• 7z  ?  application/x-7z-compressed
• xz  ?  application/x-xz
• pdf  ?  application/pdf
• exe  ?  application/x-msdownload
• swf  ?  application/x-shockwave-flash
• rtf  ?  application/rtf
• eot  ?  application/octet-stream
• ps  ?  application/postscript
• sqlite  ?  application/x-sqlite3
• nes  ?  application/x-nintendo-nes-rom
• crx  ?  application/x-google-chrome-extension
• cab  ?  application/vnd.ms-cab-compressed
• deb  ?  application/x-deb
• ar  ?  application/x-unix-archive
• Z  ?  application/x-compress
• lz  ?  application/x-lzip

字体

• woff  ?  application/font-woff
• woff2  ?  application/font-woff
• ttf  ?  application/font-sfnt
• otf  ?  application/font-sfnt

基准测试

使用链接中的文件进行测试,你可以点击获得到它: real files .

Environment: OSX x64 i7 2.7 Ghz
------------------------------------------------------------------------------------------ benchmark: 7 tests ------------------------------------------------------------------------------------------
Name (time in ns)                       Min                     Max                   Mean                StdDev                 Median                   IQR            Outliers(*)  Rounds  Iterations
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
test_infer_image_from_bytes        357.6279 (1.0)       29,166.5395 (1.0)       1,642.3360 (1.0)        380.9934 (1.0)       1,509.9843 (1.0)        158.9457 (1.0)       9095;13752  102301           6
test_infer_audio_from_bytes        953.6743 (2.67)      96,082.6874 (3.29)     16,534.5880 (10.07)    3,002.1143 (7.88)     15,974.0448 (10.58)      953.6743 (6.00)       4514;6051   41528           1
test_infer_video_from_bytes     13,828.2776 (38.67)    272,989.2731 (9.36)     16,151.3144 (9.83)     3,361.2320 (8.82)     15,020.3705 (9.95)       953.6743 (6.00)       2522;2887   22193           1
test_infer_image_from_disk      15,974.0448 (44.67)    108,957.2906 (3.74)     18,621.0844 (11.34)    3,895.4441 (10.22)    17,166.1377 (11.37)    1,192.0929 (7.50)       1528;1804   10206           1
test_infer_video_from_disk      23,841.8579 (66.67)    229,120.2545 (7.86)     28,691.3476 (17.47)    6,242.9901 (16.39)    25,987.6251 (17.21)    4,053.1158 (25.50)      1987;1247   15651           1
test_infer_zip_from_disk        26,941.2994 (75.33)    230,073.9288 (7.89)     32,123.3861 (19.56)    7,524.4988 (19.75)    29,087.0667 (19.26)    4,768.3716 (30.00)      1349;1292   16132           1
test_infer_tar_from_disk        33,855.4382 (94.67)    164,031.9824 (5.62)     36,884.4401 (22.46)    4,489.4443 (11.78)    36,001.2054 (23.84)      953.6743 (6.00)       1036;1828   14666           1
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Python 相关文章推荐
Python检测QQ在线状态的方法
May 09 Python
python监控文件或目录变化
Jun 07 Python
解决Mac安装scrapy失败的问题
Jun 13 Python
Python字符串通过'+'和join函数拼接新字符串的性能测试比较
Mar 05 Python
python添加菜单图文讲解
Jun 04 Python
Python实现微信中找回好友、群聊用户撤回的消息功能示例
Aug 23 Python
python 对任意数据和曲线进行拟合并求出函数表达式的三种解决方案
Feb 18 Python
浅谈Python中range与Numpy中arange的比较
Mar 11 Python
Python类的动态绑定实现原理
Mar 21 Python
Django import export实现数据库导入导出方式
Apr 03 Python
python UDF 实现对csv批量md5加密操作
Jan 01 Python
Python实战实现爬取天气数据并完成可视化分析详解
Jun 16 Python
使用python实现tcp自动重连
Jul 02 #Python
详解python3中socket套接字的编码问题解决
Jul 01 #Python
详解Python中for循环是如何工作的
Jun 30 #Python
python 连接sqlite及简单操作
Jun 30 #Python
利用Python破解斗地主残局详解
Jun 30 #Python
Python实现的文本编辑器功能示例
Jun 30 #Python
Python构建XML树结构的方法示例
Jun 30 #Python
You might like
PHP实现根据时间戳获取周几的方法
2016/02/26 PHP
PHP7常量数组用法分析
2016/09/26 PHP
php 5.4 全新的代码复用Trait详解
2017/01/05 PHP
关于laravel模板中生成URL的几种模式总结
2019/10/18 PHP
WordPress 照片lightbox效果的运用几点
2009/06/22 Javascript
如何使用jQuery来处理图片坏链具体实现步骤
2013/05/02 Javascript
js实现广告漂浮效果的小例子
2013/07/02 Javascript
js获取控件位置以及不同浏览器中的差别介绍
2013/08/08 Javascript
jQuery标签编辑插件Tagit使用指南
2015/04/21 Javascript
在JS中操作时间之getUTCMilliseconds()方法的使用
2015/06/10 Javascript
第一次动手实现bootstrap table分页效果
2016/09/22 Javascript
浅谈express 中间件机制及实现原理
2017/08/31 Javascript
JS实现移动端在线签协议功能
2019/08/22 Javascript
返回上一个url并刷新界面的js代码
2020/09/12 Javascript
Python中处理字符串之isalpha()方法的使用
2015/05/18 Python
Python命令启动Web服务器实例详解
2017/02/23 Python
pycharm 将django中多个app放到同个文件夹apps的处理方法
2018/05/30 Python
利用Python读取txt文档的方法讲解
2018/06/23 Python
python登录WeChat 实现自动回复实例详解
2019/05/28 Python
利用pyuic5将ui文件转换为py文件的方法
2019/06/19 Python
python3实现微型的web服务器
2019/09/03 Python
Django 自定义权限管理系统详解(通过中间件认证)
2020/03/11 Python
Pytorch上下采样函数--interpolate用法
2020/07/07 Python
python实现图像外边界跟踪操作
2020/07/13 Python
Python+OpenCV图像处理—— 色彩空间转换
2020/10/22 Python
python批量合成bilibili的m4s缓存文件为MP4格式 ver2.5
2020/12/01 Python
英国在线药房:Chemist.co.uk
2019/03/26 全球购物
ECCO英国官网:丹麦鞋履品牌
2019/09/03 全球购物
竞聘副主任科员演讲稿
2014/01/11 职场文书
光信息科学与技术专业职业生涯规划
2014/03/13 职场文书
专业技术职务聘任书
2014/03/29 职场文书
公司市场专员岗位职责
2014/06/29 职场文书
协商一致解除劳动合同协议书
2014/09/14 职场文书
肖申克的救赎观后感
2015/06/02 职场文书
探究Mysql模糊查询是否区分大小写
2021/06/11 MySQL
Pycharm连接远程服务器并远程调试的全过程
2021/06/24 Python