编程 Python

Python读取Word（.docx）正文信息的方法

Posted in Python onMarch 15, 2018

本文介绍用Python简单读取*.docx文件信息，一些python-word库就是对这种方法的扩展。

介绍分两部分：

Word(*.docx)文件简述
Python提取Word信息

Word(*.docx)文件简述

大约在2008年以前，Office产品中Word用.doc文件格式，这种二进制格式很难与其他软件兼容。
为了跟上时代，微软采用类XML格式标准定义其新版Word文件.docx。
.docx实际上是一个zip的压缩文件，比如我们有一个test.docx的文件：

Python读取Word（.docx）正文信息的方法

其内容如下：

Python读取Word（.docx）正文信息的方法

改变其后缀名为test.zip，然后解压，会得到如下文件：

Python读取Word（.docx）正文信息的方法

其中Word文件的正文内容被保持在word/document.xml中，我们可以打开查看：

Python读取Word（.docx）正文信息的方法

Python提取Word信息

根据Word（.docx）文件格式，我们遵循如下步骤进行正文信息的提取：

1 解压.docx文件
2 用BeautifulSoup解析word/document.xml提取正文信息

具体代码如下：

from zipfile import ZipFile
from bs4 import BeautifulSoup

document=ZipFile('test.docx')
xml=document.read("word/document.xml")
wordObj=BeautifulSoup(xml.decode("utf-8"))
texts=wordObj.findAll("w:t")
for text in texts:
  print(text.text)

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python读取Word（.docx）正文信息的方法

- Author -

0_蜡笔小熊_0

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python3.x 将byte转成字符串的方法

Jul 17 Python

Django ManyToManyField 跨越中间表查询的方法

Dec 18 Python

详解Python中的内建函数,可迭代对象,迭代器

Apr 29 Python

docker-py 用Python调用Docker接口的方法

Aug 30 Python

Feb 13 Python

python GUI库图形界面开发之PyQt5 Qt Designer工具(Qt设计师)详细使用方法及Designer ui文件转py文件方法

Feb 26 Python

浅谈Python程序的错误:变量未定义

Jun 02 Python

Keras自定义IOU方式

Jun 10 Python

sklearn和keras的数据切分与交叉验证的实例详解

Jun 19 Python

python 爬虫爬取京东ps4售卖情况

Dec 18 Python

python反编译教程之2048小游戏实例

Mar 03 Python

实操Python爬取觅知网素材图片示例

Nov 27 Python

30秒轻松实现TensorFlow物体检测

Mar 14 #Python

tensorflow识别自己手写数字

Mar 14 #Python

磁盘垃圾文件清理器python代码实现

Aug 24 #Python

Django自定义用户认证示例详解

Mar 14 #Python

python如何压缩新文件到已有ZIP文件

Mar 14 #Python

python中format()函数的简单使用教程

Mar 14 #Python

Python批量提取PDF文件中文本的脚本

Mar 14 #Python

You might like

使用PHP备份MySQL和网站发送到邮箱实例代码

2013/11/28 PHP

zf框架的registry(注册表)使用示例

2014/03/13 PHP

CI框架学习笔记（一） - 环境安装、基本术语和框架流程

2014/10/26 PHP

PHP超牛逼无限极分类生成树方法

2015/05/11 PHP

PHP实现简单实用的验证码类

2015/07/29 PHP

PHP调用API接口实现天气查询功能的示例

2017/09/21 PHP

PHP配置ZendOpcache插件加速

2019/02/14 PHP

JavaScript toFixed() 方法

2010/04/15 Javascript

cookie 最近浏览记录(中文escape转码)具体实现

2013/06/08 Javascript

setTimeout函数兼容各主流浏览器运行执行效果实例

2013/06/13 Javascript

gridpanel动态加载数据的实例代码

2013/07/18 Javascript

javascript获取url上某个参数的方法

2013/11/08 Javascript

js判断字符是否是汉字的两种方法小结

2014/01/03 Javascript

利用Keydown事件阻止用户输入实现代码

2014/03/11 Javascript

JavaScript实现cookie的写入、读取、删除功能

2015/11/05 Javascript

JS表格组件神器bootstrap table详解（基础版）

2015/12/08 Javascript

Spring Boot+AngularJS+BootStrap实现进度条示例代码

2017/03/02 Javascript

原生JS实现日历组件的示例代码

2017/09/22 Javascript

微信小程序实现简易table表格

2020/06/19 Javascript

微信小程序学习总结（一）项目创建与目录结构分析

2020/06/04 Javascript

[07:38]2014DOTA2国际邀请赛 Newbee顺利挺进胜者组赛后专访

2014/07/15 DOTA

初学Python实用技巧两则

2014/08/29 Python

python基础教程项目四之新闻聚合

2018/04/02 Python

使用Python爬取弹出窗口信息的实例

2020/03/14 Python

Python PyQt5整理介绍

2020/04/01 Python

Python几种常见算法汇总

2020/06/02 Python

卡骆驰英国官网：Crocs英国

2019/08/22 全球购物

馥蕾诗美国官网：Fresh美国

2019/10/09 全球购物

美国办公用品折扣网站：Shoplet.com

2019/11/24 全球购物

本科生求职简历的自我评价

2013/10/21 职场文书

业务副厂长岗位职责

2014/01/03 职场文书

英语演讲稿3分钟

2014/04/29 职场文书

社区矫正工作方案

2014/06/04 职场文书

扶贫办主任查摆“四风”问题个人对照检查材料思想汇报

2014/10/02 职场文书

悬崖上的金鱼姬观后感

2015/06/15 职场文书

党组织结对共建协议书

2016/03/23 职场文书