Python读取Word(.docx)正文信息的方法


Posted in Python onMarch 15, 2018

本文介绍用Python简单读取*.docx文件信息,一些python-word库就是对这种方法的扩展。

介绍分两部分:

  • Word(*.docx)文件简述
  • Python提取Word信息

Word(*.docx)文件简述

大约在2008年以前,Office产品中Word用.doc文件格式,这种二进制格式很难与其他软件兼容。
为了跟上时代,微软采用类XML格式标准定义其新版Word文件.docx。
.docx实际上是一个zip的压缩文件,比如我们有一个test.docx的文件:

Python读取Word(.docx)正文信息的方法

其内容如下:

Python读取Word(.docx)正文信息的方法

改变其后缀名为test.zip,然后解压,会得到如下文件:

Python读取Word(.docx)正文信息的方法

其中Word文件的正文内容被保持在word/document.xml中,我们可以打开查看:

Python读取Word(.docx)正文信息的方法

Python提取Word信息

根据Word(.docx)文件格式,我们遵循如下步骤进行正文信息的提取:

1 解压.docx文件
2 用BeautifulSoup解析word/document.xml提取正文信息

具体代码如下:

from zipfile import ZipFile
from bs4 import BeautifulSoup

document=ZipFile('test.docx')
xml=document.read("word/document.xml")
wordObj=BeautifulSoup(xml.decode("utf-8"))
texts=wordObj.findAll("w:t")
for text in texts:
  print(text.text)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现的简单万年历例子分享
Apr 25 Python
Python统计日志中每个IP出现次数的方法
Jul 06 Python
Python求解任意闭区间的所有素数
Jun 10 Python
win7+Python3.5下scrapy的安装方法
Jul 31 Python
示例详解Python3 or Python2 两者之间的差异
Aug 23 Python
浅析python标准库中的glob
Mar 13 Python
Python xlwt模块使用代码实例
Jun 10 Python
keras训练曲线,混淆矩阵,CNN层输出可视化实例
Jun 15 Python
Expected conditions模块使用方法汇总代码解析
Aug 13 Python
python实现在列表中查找某个元素的下标示例
Nov 16 Python
python 获取域名到期时间的方法步骤
Feb 10 Python
python 爬取豆瓣网页的示例
Apr 13 Python
30秒轻松实现TensorFlow物体检测
Mar 14 #Python
tensorflow识别自己手写数字
Mar 14 #Python
磁盘垃圾文件清理器python代码实现
Aug 24 #Python
Django自定义用户认证示例详解
Mar 14 #Python
python如何压缩新文件到已有ZIP文件
Mar 14 #Python
python中format()函数的简单使用教程
Mar 14 #Python
Python批量提取PDF文件中文本的脚本
Mar 14 #Python
You might like
ASP和PHP都是可以删除自身的
2007/04/09 PHP
php下防止单引号,双引号在接受页面转义的设置方法
2008/09/25 PHP
php数组声明、遍历、数组全局变量使用小结
2013/06/05 PHP
PHP中的按位与和按位或操作示例
2014/01/27 PHP
ThinkPHP模板判断输出Empty标签用法详解
2014/06/30 PHP
php中使用PHPExcel读写excel(xls)文件的方法
2014/09/15 PHP
PHP往XML中添加节点的方法
2015/03/12 PHP
php基于openssl的rsa加密解密示例
2016/07/11 PHP
php获取目录中所有文件名及判断文件与目录的简单方法
2017/03/04 PHP
PHP接入支付宝接口失效流程详解
2020/11/10 PHP
javascript函数以及基础写法100多条实用整理
2013/01/13 Javascript
利用JavaScript检测CPU使用率自己写的
2014/03/22 Javascript
使用nodejs开发cli项目实例
2015/06/03 NodeJs
JavaScript轻松创建级联函数的方法示例
2017/02/10 Javascript
vue完成项目后,打包成静态文件的方法
2018/09/03 Javascript
微信小程序点击生成朋友圈分享图(遇到的坑)
2020/06/17 Javascript
深入剖析Python的爬虫框架Scrapy的结构与运作流程
2016/01/20 Python
Python的numpy库中将矩阵转换为列表等函数的方法
2018/04/04 Python
解决Mac安装scrapy失败的问题
2018/06/13 Python
python读取excel指定列数据并写入到新的excel方法
2018/07/10 Python
Python数据可视化:箱线图多种库画法
2019/11/06 Python
Python实现清理微信僵尸粉功能示例【基于itchat模块】
2020/05/29 Python
Python发送邮件实现基础解析
2020/08/14 Python
CSS3 实现侧边栏展开收起动画
2014/12/22 HTML / CSS
英国最大的在线床超市:Bed Star
2019/01/24 全球购物
优秀员工年终发言演讲稿
2014/01/01 职场文书
金融管理毕业生求职信
2014/03/03 职场文书
《搭石》教学反思
2014/04/07 职场文书
《郑和远航》教学反思
2014/04/16 职场文书
教师一帮一活动总结
2014/07/08 职场文书
2014年秋季新学期寄语
2014/08/02 职场文书
党的群众路线教育实践活动个人对照检查材料(乡镇)
2014/11/05 职场文书
2014年销售内勤工作总结
2014/12/01 职场文书
毕业生捐书活动倡议书
2015/04/27 职场文书
django学习之ajax post传参的2种格式实例
2021/05/14 Python
Windows下载并安装MySQL8.0.x 版本的完整教程
2022/04/10 MySQL