Python读取Word(.docx)正文信息的方法


Posted in Python onMarch 15, 2018

本文介绍用Python简单读取*.docx文件信息,一些python-word库就是对这种方法的扩展。

介绍分两部分:

  • Word(*.docx)文件简述
  • Python提取Word信息

Word(*.docx)文件简述

大约在2008年以前,Office产品中Word用.doc文件格式,这种二进制格式很难与其他软件兼容。
为了跟上时代,微软采用类XML格式标准定义其新版Word文件.docx。
.docx实际上是一个zip的压缩文件,比如我们有一个test.docx的文件:

Python读取Word(.docx)正文信息的方法

其内容如下:

Python读取Word(.docx)正文信息的方法

改变其后缀名为test.zip,然后解压,会得到如下文件:

Python读取Word(.docx)正文信息的方法

其中Word文件的正文内容被保持在word/document.xml中,我们可以打开查看:

Python读取Word(.docx)正文信息的方法

Python提取Word信息

根据Word(.docx)文件格式,我们遵循如下步骤进行正文信息的提取:

1 解压.docx文件
2 用BeautifulSoup解析word/document.xml提取正文信息

具体代码如下:

from zipfile import ZipFile
from bs4 import BeautifulSoup

document=ZipFile('test.docx')
xml=document.read("word/document.xml")
wordObj=BeautifulSoup(xml.decode("utf-8"))
texts=wordObj.findAll("w:t")
for text in texts:
  print(text.text)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python 3.6 +pyMysql 操作mysql数据库(实例讲解)
Dec 20 Python
Python 元类实例解析
Apr 04 Python
python删除文本中行数标签的方法
May 31 Python
对python 命令的-u参数详解
Dec 03 Python
Python提取转移文件夹内所有.jpg文件并查看每一帧的方法
Jun 27 Python
Python实现滑动平均(Moving Average)的例子
Aug 24 Python
在vscode中配置python环境过程解析
Sep 28 Python
详解python路径拼接os.path.join()函数的用法
Oct 09 Python
Python实现分数序列求和
Feb 25 Python
Python之关于类变量的两种赋值区别详解
Mar 12 Python
Python趣味实例,实现一个简单的抽奖刮刮卡
Jul 18 Python
Python 按比例获取样本数据或执行任务的实现代码
Dec 03 Python
30秒轻松实现TensorFlow物体检测
Mar 14 #Python
tensorflow识别自己手写数字
Mar 14 #Python
磁盘垃圾文件清理器python代码实现
Aug 24 #Python
Django自定义用户认证示例详解
Mar 14 #Python
python如何压缩新文件到已有ZIP文件
Mar 14 #Python
python中format()函数的简单使用教程
Mar 14 #Python
Python批量提取PDF文件中文本的脚本
Mar 14 #Python
You might like
DIY实用性框形天线
2021/03/02 无线电
php在多维数组中根据键名快速查询其父键以及父键值的代码
2011/05/07 PHP
jQuery回车实现登录简单实现
2013/08/20 Javascript
jquery如何获取复选框的值
2013/12/12 Javascript
confirm的用法示例用于按钮操作时确定是否执行
2014/06/19 Javascript
JS建造者模式基本用法实例分析
2015/06/30 Javascript
JS实现三个层重叠点击互相切换的方法
2015/10/06 Javascript
JavaScript实现的简单烟花特效代码
2015/10/20 Javascript
原生js模拟淘宝购物车项目实战
2015/11/18 Javascript
JQuery日历插件My97DatePicker日期范围限制
2016/01/20 Javascript
jQuery链式调用与show知识浅析
2016/05/11 Javascript
BootStrap selectpicker后台动态绑定数据的方法
2017/07/28 Javascript
vue.js 实现图片本地预览 裁剪 压缩 上传功能
2018/03/01 Javascript
vue使用Font Awesome的方法步骤
2019/02/26 Javascript
vue表单验证你真的会了吗?vue表单验证(form)validate
2019/04/07 Javascript
使用jQuery实现购物车
2020/10/29 jQuery
[03:27]最受玩家喜爱奖提名:PZH_Element 致玩家寄语
2016/12/20 DOTA
[43:57]Liquid vs Mineski 2019国际邀请赛小组赛 BO2 第二场 8.16
2019/08/19 DOTA
深入理解Python对Json的解析
2017/02/14 Python
Python使用回溯法子集树模板获取最长公共子序列(LCS)的方法
2017/09/08 Python
Python使用SQLite和Excel操作进行数据分析
2018/01/20 Python
详解PyCharm安装MicroPython插件的教程
2019/06/24 Python
利用python Selenium实现自动登陆京东签到领金币功能
2019/10/31 Python
PyCharm中关于安装第三方包的三个建议
2020/09/17 Python
Becextech新西兰:数码单反相机和手机在线商店
2018/04/27 全球购物
德国内衣、泳装和睡衣网上商店:Bigsize Dessous
2018/07/09 全球购物
农行实习自我鉴定
2013/09/22 职场文书
优秀团支部事迹材料
2014/02/08 职场文书
商务英语广告词大全
2014/03/18 职场文书
学习雷锋活动总结
2014/04/29 职场文书
环卫工人先进事迹材料
2014/06/02 职场文书
大学毕业生求职自荐书
2014/06/05 职场文书
2015年保育员个人工作总结
2015/05/13 职场文书
2019年手机市场的调研报告2篇
2019/10/10 职场文书
漫画「日和酱的要求是绝对的」第3卷封面公开
2022/03/21 日漫
Go语言 详解net的tcp服务
2022/04/14 Golang