python如何实现word批量转HTML


Posted in Python onSeptember 30, 2020

今天我们说一下使用python将word内容转换成html文件。下面一起来看一下。

准备工作

使用python类库PyDocX,安装方法(使用pip进行安装),命令如下:

pip install python-docx

类库介绍

python-docx是用于创建和更新Microsoft Word(.docx)文件的Python库。它可以针对word做很多操作。比如打开文件、写入内容、编写内容样式、解析内容、读取内容等等。主要就是针对word做的一款功能库。

说代码

下面一起来说一下代码。首先是做了一个声明的内容,主要是出现过代码工具被网络上的人给进行贩卖,特此说了注释。

1、通过os类库,获取当前目录下的所有文件信息

# 当前目录下的文件
file_path = os.getcwd()
print("当前位置:%s" % file_path)

2、通过函数进行获取数据,并对目录下文件进行判断,只获取.docx类型文档

data = []
for root, dirs, files in os.walk(files_path, topdown=False):
for name in files:
f_p = os.path.join(root, name).replace("\\", "/")
file_type = os.path.splitext(f_p)
if file_type[1] == '.docx':
if " " in file_type[0]:
os.rename(f_p, f_p.replace(" ", ""))
f_p = f_p.replace(" ", "")
data.append(f_p)
return data

这里呢,我们做了一个判断的操作,主要是防止文件名称上出现空格的问题,因为在测试过程中发现了空格的文档名称是否没有办法找到文件的。

3、判断数据情况

if not file_array:
print("此目录下无docx格式word文件")
# 开始转换
print("开始转换")
for v in file_array:
main(v)

如果当前目录下不含有符合的文档,那么程序直接就跳出了,不再向下执行了。

4、开始转换

这里我们使用的是在3中循环调用方法,下面看一下代码

html = PyDocX.to_html(v)
file_name = os.path.splitext(v)
f = open("%s.html" % file_name[0], 'w', encoding="utf-8")
f.write(html)
f.close()

整体来看转换的方法很简单,在类库中已经帮我们做好的功能,只需要简单的调用就可以了。我采用的是保持原有word文件名称来生成html文件。这样方便进行查找。

其实这里也可以不用生成文件的,可以将获取的内容数据直接存入数据库中,在页面直接作出展示。

以上就是python如何实现word批量转HTML的详细内容,更多关于python word转html的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python的Flask框架中使用Flask-SQLAlchemy管理数据库的教程
Jun 14 Python
Python文件操作,open读写文件,追加文本内容实例
Dec 14 Python
python2.x实现人民币转大写人民币
Jun 20 Python
用Python分析3天破10亿的《我不是药神》到底神在哪?
Jul 12 Python
Python中py文件转换成exe可执行文件的方法
Jun 14 Python
Django自定义用户登录认证示例代码
Jun 30 Python
Django forms表单 select下拉框的传值实例
Jul 19 Python
Django中使用极验Geetest滑动验证码过程解析
Jul 31 Python
Python paramiko模块使用解析(实现ssh)
Aug 30 Python
在python中利用dict转json按输入顺序输出内容方式
Feb 27 Python
Python Django view 两种return的实现方式
Mar 16 Python
Python爬虫之Selenium实现关闭浏览器
Dec 04 Python
Python识别验证码的实现示例
Sep 30 #Python
Python列表嵌套常见坑点及解决方案
Sep 30 #Python
python实现感知机模型的示例
Sep 30 #Python
python 实现关联规则算法Apriori的示例
Sep 30 #Python
Python之字典添加元素的几种方法
Sep 30 #Python
Python之字典对象的几种创建方法
Sep 30 #Python
python 实现朴素贝叶斯算法的示例
Sep 30 #Python
You might like
Protoss热键控制
2020/03/14 星际争霸
教你在PHPStorm中配置Xdebug
2015/07/27 PHP
php微信开发之自定义菜单实现
2016/11/18 PHP
php实现不通过扩展名准确判断文件类型的方法【finfo_file方法与二进制流】
2017/04/18 PHP
Thinkphp5 自定义上传文件名的实现方法
2019/07/23 PHP
url地址自动加#号问题说明
2010/08/21 Javascript
jQuery Tools Dateinput使用介绍
2012/07/14 Javascript
jquery对单选框,多选框,文本框等常见操作小结
2014/01/08 Javascript
JS获取几种URL地址的方法小结
2014/02/26 Javascript
JS实现浏览器状态栏显示时间的方法
2015/10/27 Javascript
jquery插件方式实现table查询功能的简单实例
2016/06/06 Javascript
用js实现博客打赏功能
2016/10/24 Javascript
jQuery实现select下拉框获取当前选中文本、值、索引
2017/05/08 jQuery
vue.js中mint-ui框架的使用方法
2017/05/12 Javascript
关于vue.js发布后路径引用的问题解决
2017/08/15 Javascript
vue组件jsx语法的具体使用
2018/05/21 Javascript
Vue 中axios配置实例详解
2018/07/27 Javascript
在vue项目中引入highcharts图表的方法
2019/01/21 Javascript
elementUI select组件默认选中效果实现的方法
2019/03/25 Javascript
详解一个基于套接字实现长连接的express
2019/03/28 Javascript
vue路由切换之淡入淡出的简单实现
2019/10/31 Javascript
vue-router结合vuex实现用户权限控制功能
2019/11/14 Javascript
js实现无刷新监听URL的变化示例代码详解
2020/06/03 Javascript
python常用函数详解
2016/09/13 Python
分析python动态规划的递归、非递归实现
2018/03/04 Python
python中使用 xlwt 操作excel的常见方法与问题
2019/01/13 Python
git查看、创建、删除、本地、远程分支方法详解
2020/02/18 Python
Python实现仿射密码的思路详解
2020/04/23 Python
Python selenium 加载并保存QQ群成员,去除其群主、管理员信息的示例代码
2020/05/28 Python
Python2.6版本pip安装步骤解析
2020/08/17 Python
selenium如何定位span元素的实现
2021/01/13 Python
工作表现评语
2014/01/19 职场文书
2014最新预备党员思想汇报范文:中国梦,我的梦
2014/10/25 职场文书
教师群众路线学习心得体会
2014/11/04 职场文书
2016见义勇为事迹材料汇总
2016/03/01 职场文书
JS代码编译器Monaco使用方法
2021/06/11 Javascript