Python读取Word(.docx)正文信息的方法


Posted in Python onMarch 15, 2018

本文介绍用Python简单读取*.docx文件信息,一些python-word库就是对这种方法的扩展。

介绍分两部分:

  • Word(*.docx)文件简述
  • Python提取Word信息

Word(*.docx)文件简述

大约在2008年以前,Office产品中Word用.doc文件格式,这种二进制格式很难与其他软件兼容。
为了跟上时代,微软采用类XML格式标准定义其新版Word文件.docx。
.docx实际上是一个zip的压缩文件,比如我们有一个test.docx的文件:

Python读取Word(.docx)正文信息的方法

其内容如下:

Python读取Word(.docx)正文信息的方法

改变其后缀名为test.zip,然后解压,会得到如下文件:

Python读取Word(.docx)正文信息的方法

其中Word文件的正文内容被保持在word/document.xml中,我们可以打开查看:

Python读取Word(.docx)正文信息的方法

Python提取Word信息

根据Word(.docx)文件格式,我们遵循如下步骤进行正文信息的提取:

1 解压.docx文件
2 用BeautifulSoup解析word/document.xml提取正文信息

具体代码如下:

from zipfile import ZipFile
from bs4 import BeautifulSoup

document=ZipFile('test.docx')
xml=document.read("word/document.xml")
wordObj=BeautifulSoup(xml.decode("utf-8"))
texts=wordObj.findAll("w:t")
for text in texts:
  print(text.text)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python3.x 将byte转成字符串的方法
Jul 17 Python
Django ManyToManyField 跨越中间表查询的方法
Dec 18 Python
详解Python中的内建函数,可迭代对象,迭代器
Apr 29 Python
docker-py 用Python调用Docker接口的方法
Aug 30 Python
python如何实现复制目录到指定目录
Feb 13 Python
python GUI库图形界面开发之PyQt5 Qt Designer工具(Qt设计师)详细使用方法及Designer ui文件转py文件方法
Feb 26 Python
浅谈Python程序的错误:变量未定义
Jun 02 Python
Keras自定义IOU方式
Jun 10 Python
sklearn和keras的数据切分与交叉验证的实例详解
Jun 19 Python
python 爬虫爬取京东ps4售卖情况
Dec 18 Python
python反编译教程之2048小游戏实例
Mar 03 Python
实操Python爬取觅知网素材图片示例
Nov 27 Python
30秒轻松实现TensorFlow物体检测
Mar 14 #Python
tensorflow识别自己手写数字
Mar 14 #Python
磁盘垃圾文件清理器python代码实现
Aug 24 #Python
Django自定义用户认证示例详解
Mar 14 #Python
python如何压缩新文件到已有ZIP文件
Mar 14 #Python
python中format()函数的简单使用教程
Mar 14 #Python
Python批量提取PDF文件中文本的脚本
Mar 14 #Python
You might like
使用PHP备份MySQL和网站发送到邮箱实例代码
2013/11/28 PHP
zf框架的registry(注册表)使用示例
2014/03/13 PHP
CI框架学习笔记(一) - 环境安装、基本术语和框架流程
2014/10/26 PHP
PHP超牛逼无限极分类生成树方法
2015/05/11 PHP
PHP实现简单实用的验证码类
2015/07/29 PHP
PHP调用API接口实现天气查询功能的示例
2017/09/21 PHP
PHP配置ZendOpcache插件加速
2019/02/14 PHP
JavaScript toFixed() 方法
2010/04/15 Javascript
cookie 最近浏览记录(中文escape转码)具体实现
2013/06/08 Javascript
setTimeout函数兼容各主流浏览器运行执行效果实例
2013/06/13 Javascript
gridpanel动态加载数据的实例代码
2013/07/18 Javascript
javascript获取url上某个参数的方法
2013/11/08 Javascript
js判断字符是否是汉字的两种方法小结
2014/01/03 Javascript
利用Keydown事件阻止用户输入实现代码
2014/03/11 Javascript
JavaScript实现cookie的写入、读取、删除功能
2015/11/05 Javascript
JS表格组件神器bootstrap table详解(基础版)
2015/12/08 Javascript
Spring Boot+AngularJS+BootStrap实现进度条示例代码
2017/03/02 Javascript
原生JS实现日历组件的示例代码
2017/09/22 Javascript
微信小程序实现简易table表格
2020/06/19 Javascript
微信小程序学习总结(一)项目创建与目录结构分析
2020/06/04 Javascript
[07:38]2014DOTA2国际邀请赛 Newbee顺利挺进胜者组赛后专访
2014/07/15 DOTA
初学Python实用技巧两则
2014/08/29 Python
python基础教程项目四之新闻聚合
2018/04/02 Python
使用Python爬取弹出窗口信息的实例
2020/03/14 Python
Python PyQt5整理介绍
2020/04/01 Python
Python几种常见算法汇总
2020/06/02 Python
卡骆驰英国官网:Crocs英国
2019/08/22 全球购物
馥蕾诗美国官网:Fresh美国
2019/10/09 全球购物
美国办公用品折扣网站:Shoplet.com
2019/11/24 全球购物
本科生求职简历的自我评价
2013/10/21 职场文书
业务副厂长岗位职责
2014/01/03 职场文书
英语演讲稿3分钟
2014/04/29 职场文书
社区矫正工作方案
2014/06/04 职场文书
扶贫办主任查摆“四风”问题个人对照检查材料思想汇报
2014/10/02 职场文书
悬崖上的金鱼姬观后感
2015/06/15 职场文书
党组织结对共建协议书
2016/03/23 职场文书