python如何实现word批量转HTML


Posted in Python onSeptember 30, 2020

今天我们说一下使用python将word内容转换成html文件。下面一起来看一下。

准备工作

使用python类库PyDocX,安装方法(使用pip进行安装),命令如下:

pip install python-docx

类库介绍

python-docx是用于创建和更新Microsoft Word(.docx)文件的Python库。它可以针对word做很多操作。比如打开文件、写入内容、编写内容样式、解析内容、读取内容等等。主要就是针对word做的一款功能库。

说代码

下面一起来说一下代码。首先是做了一个声明的内容,主要是出现过代码工具被网络上的人给进行贩卖,特此说了注释。

1、通过os类库,获取当前目录下的所有文件信息

# 当前目录下的文件
file_path = os.getcwd()
print("当前位置:%s" % file_path)

2、通过函数进行获取数据,并对目录下文件进行判断,只获取.docx类型文档

data = []
for root, dirs, files in os.walk(files_path, topdown=False):
for name in files:
f_p = os.path.join(root, name).replace("\\", "/")
file_type = os.path.splitext(f_p)
if file_type[1] == '.docx':
if " " in file_type[0]:
os.rename(f_p, f_p.replace(" ", ""))
f_p = f_p.replace(" ", "")
data.append(f_p)
return data

这里呢,我们做了一个判断的操作,主要是防止文件名称上出现空格的问题,因为在测试过程中发现了空格的文档名称是否没有办法找到文件的。

3、判断数据情况

if not file_array:
print("此目录下无docx格式word文件")
# 开始转换
print("开始转换")
for v in file_array:
main(v)

如果当前目录下不含有符合的文档,那么程序直接就跳出了,不再向下执行了。

4、开始转换

这里我们使用的是在3中循环调用方法,下面看一下代码

html = PyDocX.to_html(v)
file_name = os.path.splitext(v)
f = open("%s.html" % file_name[0], 'w', encoding="utf-8")
f.write(html)
f.close()

整体来看转换的方法很简单,在类库中已经帮我们做好的功能,只需要简单的调用就可以了。我采用的是保持原有word文件名称来生成html文件。这样方便进行查找。

其实这里也可以不用生成文件的,可以将获取的内容数据直接存入数据库中,在页面直接作出展示。

以上就是python如何实现word批量转HTML的详细内容,更多关于python word转html的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python中decorator使用实例
Apr 14 Python
Python实现删除当前目录下除当前脚本以外的文件和文件夹实例
Jul 27 Python
python比较两个列表是否相等的方法
Jul 28 Python
Python实现快速傅里叶变换的方法(FFT)
Jul 21 Python
OpenCV2从摄像头获取帧并写入视频文件的方法
Aug 03 Python
Python代码太长换行的实现
Jul 05 Python
Python输出指定字符串的方法
Feb 06 Python
PyCharm2020.1.2社区版安装,配置及使用教程详解(Windows)
Aug 07 Python
如何使用PyCharm引入需要使用的包的方法
Sep 22 Python
Python中使用ipython的详细教程
Jun 22 Python
python开发的自动化运维工具ansible详解
Aug 07 Python
python 多态 协议 鸭子类型详解
Nov 27 Python
Python识别验证码的实现示例
Sep 30 #Python
Python列表嵌套常见坑点及解决方案
Sep 30 #Python
python实现感知机模型的示例
Sep 30 #Python
python 实现关联规则算法Apriori的示例
Sep 30 #Python
Python之字典添加元素的几种方法
Sep 30 #Python
Python之字典对象的几种创建方法
Sep 30 #Python
python 实现朴素贝叶斯算法的示例
Sep 30 #Python
You might like
计算2000年01月01日起到指定日的天数
2006/10/09 PHP
php中将图片gif,jpg或mysql longblob或blob字段值转换成16进制字符串
2011/08/23 PHP
利用php+mcDropdown实现文件路径可在下拉框选择
2013/08/07 PHP
eaglephp使用微信api接口开发微信框架
2014/01/09 PHP
ThinkPHP使用心得分享-分页类Page的用法
2014/05/15 PHP
Thinkphp模板中截取字符串函数简介
2014/06/17 PHP
杨氏矩阵查找的JS代码
2013/03/21 Javascript
js setTimeout 常见问题小结
2013/08/13 Javascript
JS获取select-option-text_value的方法
2013/12/26 Javascript
js常用自定义公共函数汇总
2014/01/15 Javascript
jQuery控制TR显示隐藏的几种方法
2014/06/18 Javascript
简介JavaScript中strike()方法的使用
2015/06/08 Javascript
drag-and-drop实现图片浏览器预览
2015/08/06 Javascript
JavaScript Length 属性的总结
2015/11/02 Javascript
谈谈JavaScript类型系统之Math
2016/01/06 Javascript
angularjs实现首页轮播图效果
2017/04/14 Javascript
Angular 2.x学习教程之结构指令详解
2017/05/25 Javascript
通过示例彻底搞懂js闭包
2017/08/10 Javascript
通过webpack引入第三方库的方法
2018/07/20 Javascript
jQuery实现鼠标移到某个对象时弹出显示层功能
2018/08/23 jQuery
解决vue.js 数据渲染成功仍报错的问题
2018/08/25 Javascript
JQuery搜索框自动补全(模糊匹配)功能实现示例
2019/01/08 jQuery
详解javascript replace高级用法
2019/02/17 Javascript
Vue实现手机扫描二维码预览页面效果
2020/05/28 Javascript
[00:31]DOTA2荣耀之路7:Miracle-空血无敌斩
2018/05/31 DOTA
Python中 map()函数的用法详解
2018/07/10 Python
对tensorflow 的模型保存和调用实例讲解
2018/07/28 Python
python中的decimal类型转换实例详解
2019/06/26 Python
基于Python检测动态物体颜色过程解析
2019/12/04 Python
基于FME使用Python过程图解
2020/05/13 Python
创业计划书的主要内容有哪些
2014/01/29 职场文书
七年级政治教学反思
2014/02/03 职场文书
财务工作犯错检讨书
2014/10/07 职场文书
基石观后感
2015/06/12 职场文书
2016年教师学习廉政准则心得体会
2016/01/20 职场文书
MySQL如何解决幻读问题
2021/08/07 MySQL