python如何实现word批量转HTML


Posted in Python onSeptember 30, 2020

今天我们说一下使用python将word内容转换成html文件。下面一起来看一下。

准备工作

使用python类库PyDocX,安装方法(使用pip进行安装),命令如下:

pip install python-docx

类库介绍

python-docx是用于创建和更新Microsoft Word(.docx)文件的Python库。它可以针对word做很多操作。比如打开文件、写入内容、编写内容样式、解析内容、读取内容等等。主要就是针对word做的一款功能库。

说代码

下面一起来说一下代码。首先是做了一个声明的内容,主要是出现过代码工具被网络上的人给进行贩卖,特此说了注释。

1、通过os类库,获取当前目录下的所有文件信息

# 当前目录下的文件
file_path = os.getcwd()
print("当前位置:%s" % file_path)

2、通过函数进行获取数据,并对目录下文件进行判断,只获取.docx类型文档

data = []
for root, dirs, files in os.walk(files_path, topdown=False):
for name in files:
f_p = os.path.join(root, name).replace("\\", "/")
file_type = os.path.splitext(f_p)
if file_type[1] == '.docx':
if " " in file_type[0]:
os.rename(f_p, f_p.replace(" ", ""))
f_p = f_p.replace(" ", "")
data.append(f_p)
return data

这里呢,我们做了一个判断的操作,主要是防止文件名称上出现空格的问题,因为在测试过程中发现了空格的文档名称是否没有办法找到文件的。

3、判断数据情况

if not file_array:
print("此目录下无docx格式word文件")
# 开始转换
print("开始转换")
for v in file_array:
main(v)

如果当前目录下不含有符合的文档,那么程序直接就跳出了,不再向下执行了。

4、开始转换

这里我们使用的是在3中循环调用方法,下面看一下代码

html = PyDocX.to_html(v)
file_name = os.path.splitext(v)
f = open("%s.html" % file_name[0], 'w', encoding="utf-8")
f.write(html)
f.close()

整体来看转换的方法很简单,在类库中已经帮我们做好的功能,只需要简单的调用就可以了。我采用的是保持原有word文件名称来生成html文件。这样方便进行查找。

其实这里也可以不用生成文件的,可以将获取的内容数据直接存入数据库中,在页面直接作出展示。

以上就是python如何实现word批量转HTML的详细内容,更多关于python word转html的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python实现的生成自我描述脚本分享(很有意思的程序)
Jul 18 Python
python中ConfigParse模块的用法
Sep 29 Python
使用Python实现博客上进行自动翻页
Aug 23 Python
Python2和Python3中print的用法示例总结
Oct 25 Python
Python 批量合并多个txt文件的实例讲解
May 08 Python
如何用python整理附件
May 13 Python
详解Python 数据库的Connection、Cursor两大对象
Jun 25 Python
python3判断url链接是否为404的方法
Aug 10 Python
Python+OpenCV图片局部区域像素值处理改进版详解
Jan 23 Python
Python3实现从排序数组中删除重复项算法分析
Apr 03 Python
Python队列RabbitMQ 使用方法实例记录
Aug 05 Python
Python3实现发送邮件和发送短信验证码功能
Jan 07 Python
Python识别验证码的实现示例
Sep 30 #Python
Python列表嵌套常见坑点及解决方案
Sep 30 #Python
python实现感知机模型的示例
Sep 30 #Python
python 实现关联规则算法Apriori的示例
Sep 30 #Python
Python之字典添加元素的几种方法
Sep 30 #Python
Python之字典对象的几种创建方法
Sep 30 #Python
python 实现朴素贝叶斯算法的示例
Sep 30 #Python
You might like
rrmdir php中递归删除目录及目录下的文件
2011/05/15 PHP
ThinkPHP中ajax使用实例教程
2014/08/22 PHP
php中instanceof 与 is_a()区别分析
2015/03/03 PHP
php简单图像创建入门实例
2015/06/10 PHP
是 WordPress 让 PHP 更流行了 而不是框架
2016/02/03 PHP
PHP MVC框架skymvc支持多文件上传
2016/05/26 PHP
解决Laravel 不能创建 migration 的问题
2019/10/09 PHP
laravel使用数据库测试注意事项
2020/04/10 PHP
网页里控制图片大小的相关代码
2006/06/13 Javascript
javascript String 的扩展方法集合
2008/06/01 Javascript
toString()一个会自动调用的方法
2010/02/08 Javascript
js使用循环清空某个div中的input标签值
2014/09/29 Javascript
13 款最热门的 jQuery 图像 360 度旋转插件推荐
2014/12/09 Javascript
js实现最短的XML格式化工具实例
2015/03/12 Javascript
nodejs中使用多线程编程的方法实例
2015/03/24 NodeJs
js中日期的加减法
2015/05/06 Javascript
JavaScript实现函数返回多个值的方法
2015/06/09 Javascript
深入浅出讲解ES6的解构
2016/08/03 Javascript
jquery移除了live()、die(),新版事件绑定on()、off()的方法
2016/10/26 Javascript
javaScript+turn.js实现图书翻页效果实例代码
2017/02/16 Javascript
js轮播图透明度切换(带上下页和底部圆点切换)
2017/04/27 Javascript
JS/jQuery实现DIV延时几秒后消失或显示的方法
2018/02/12 jQuery
原生JS实现获取及修改CSS样式的方法
2018/09/04 Javascript
Three.JS实现三维场景
2018/12/30 Javascript
使用Vue.observable()进行状态管理的实例代码详解
2019/05/26 Javascript
JavaScript实现滚动加载更多
2020/12/27 Javascript
Python3.5实现的罗马数字转换成整数功能示例
2019/02/25 Python
Python图片的横坐标汉字实例
2019/12/04 Python
Python imutils 填充图片周边为黑色的实现
2020/01/19 Python
Python正则re模块使用步骤及原理解析
2020/08/18 Python
小饰品店的创业计划书范文
2013/12/28 职场文书
优秀通讯员事迹材料
2014/01/28 职场文书
医学生职业生涯规划书范文
2014/03/13 职场文书
民用住房租房协议书
2014/10/29 职场文书
2015年公司新年寄语
2014/12/08 职场文书
2016年党支部公开承诺书
2016/03/25 职场文书