Python word文本自动化操作实现方法解析


Posted in Python onNovember 05, 2020

之前介绍了一个Python包 openpyxl ,用于处理 Excel ;而对于 Word 文本时同样也有对应的 Python库 Python-docx,在日常办公中,如果需要处理多个 word 文本,且操作步骤都是重复单调的,我想这个库就可以帮到你

在了解 Python-docx 常用函数之前,需要知道 在 Python-docx 各命令所对应 word 各部件,下图所示,

  • Document 指的是 word 文档;
  • paragraph 对应段落;
  • run 对应 一句话中的各个字段,样式调整时,一般面向的操作对象都是逐字段进行;

Python word文本自动化操作实现方法解析

1,安装 Python-docx

通过 pip 工具即可进行安装,在命令行中输入 pip install Python-docx 即可

Python word文本自动化操作实现方法解析

2,创建或打开 Document

Python-docx 导入包时是以 docx 命令存在的,与 Opencv 的 Python 版本导入方法相似;创建文件、打开文件以 Document() 命令操作,这里操作时需要注意几个点:

1,Document() 命令是基于默认”模板“创建一个空白文档,随后可对文档进行编辑操作,最后没有用 save() 函数存储的话,文档将伴随程序结束同内存一起

2,Document(path) 命令表示打开一个本地已经存在的 docx 文件,path 表示存放目录若不存在则程序报错;
下面代码中,创建了一个空白 docx,赋值给 document

from docx import Document

document = Document()

3,加入一段落

段落作为 docx 文档正文的主要成分,那怎样在创建好的 Document 中加入一段话呢?官方给出了两种方式

1,在文档后面插入

这种方法是比较常见且简单的,命令如下

paragraph = document.add_paragraph('Lorem ipsum dolor sit amet.')

方法中将创建好的段落引用指向 paragraph ,表明了光标的位置,后面的一些操作可以借助 paragraph 引用变量来作为定位操作

2,在指定地方的前面插入

文档编辑正常顺序是在末尾进行编辑,但有时在编辑时可能失误少输入一段话或文字,这时就用到 在指定位置前面 进行插入操作

prior_paragraph = paragraph.insert_paragraph_before('Lorem ipsum')

此命令常用于 修正文档 ,当需要在一段话前面添加一些别的文字时。

4,标题

docx 中 会用一、二、三级标题将正文分为几部分,让文本主次感更强;Python-docx 有对应的内置函数供我们使用,内置函数中标题分为主标题和子标题

创建标题的函数方法中,有一个参数 level 可进行修改,若不设定时默认为 主标题(leve = 0);

document.add_heading('The REAL meaning of the universe')

子标题分为 1-9 九个等级,修改参数 level 即可

document.add_heading('The role of dolphins', level=2)

5,分页符

在 Word 中进行文本编辑,想在单独的一个新页面编写文本时,就需要加入一个 强制分页符,命令如下

document.add_page_break()

这里需要注意下,加入分页符之后,新页面上编辑的段落样式属性与之前页面段落属性是分隔开的

6,表格

在文档中创建一个 2*2 的 表格

table = document.add_table(rows=2, cols=2)

表格中每个单元格可进行文本编辑,颜色填充;对于特定表格而言可通过 row、column 索引来进行定位,这里借助了操作 Excel 表格的思想

cell = table.cell(0, 1)

赋值其文本内容

cell.text = 'parrot, possibly dead'

对一个一个单元格修改操作太麻烦了,可以一次选中指定列,对其单元格数据进行逐个修改

row = table.rows[1]
row.cells[0].text = 'Foo bar to you.'
row.cells[1].text = 'And a hearty foo bar to you too sir!'

table.rows[index] 返回索引为 index 的指定行,根据 .rows和.cols 表示 表格的全部行或列是可迭代的,因此可通过 for 循环来访问每一个单元格

for row in table.rows:
for cell in row.cells:
print(cell.text)

因为 .rows 和 .cols 是可迭代的,通过 len() 命令来获取行、列数

row_count = len(table.rows)
col_count = len(table.columns)

除了以上操作之外,还可以向 table 中逐渐添加行、列命令

row = table.add_row()
col = table.add_col()

上面提到了 创建表格,单元格修改,创建新行/列,逐行/列迭代,下面用个实例做个简单总结,代码中完成功能如下:

  • 1,item 创建一个 3*3 的元组数据;
  • 2,在 word 中新建一个 table,一行三列;
  • 3,创建好的 table 的表头依次设置为 Qty,SKU,Description;
  • 4,将 item 中的元素,以 table 逐行 3 个的方式创建;
# get table data -------------
items = (
  (7, '1024', 'Plush kittens'),
  (3, '2042', 'Furbees'),
  (1, '1288', 'French Poodle Collars, Deluxe'),
)

# add table ------------------
table = document.add_table(1, 3)

# populate header row --------
heading_cells = table.rows[0].cells
heading_cells[0].text = 'Qty'
heading_cells[1].text = 'SKU'
heading_cells[2].text = 'Description'

# add a data row for each item
for item in items:
  cells = table.add_row().cells
  cells[0].text = str(item.qty)
  cells[1].text = item.sku
  cells[2].text = item.desc

此外,还可修改 表格的样式,word 文档中的表格样式这里都可以设定(样式名称可以通过word 文档自有的样式,将鼠标放到样式的缩略图上即可查看),但需要注意的是,使用样式时需要去掉word软件中样式名字中的空格,例如下面 Office 原样式名字为 Light Shading-Accent1,这里直接把中间空格去掉

table.style = 'LightShading-Accent1'

7,图片

在 python-docx 中添加图片用下面命令即可完成

document.add_picture('image-filename.png')

上面加入的是本地文件 path ,除此之外还可以使用 file-like object,这种格式对于数据库或者网络上的图片读取时时非常方便的

修改图片大小

python-docx 加入图像默认表示的是 native size,正常图片加入时会出现相同图片的一侧出现 4.167 inches 的空白处,大概占比纸张宽度的一半;在获取想要图像大小时,可以指定宽度或高度设为较为方便的单位

from docx.shared import Inches

document.add_picture('image-filename.png', width=Inches(1.0))

8, 应用段落样式

设定段落样式方法有两种,一种创建时就可以设置

document.add_paragraph('Lorem ipsum dolor sit amet.', style='ListBullet')

另一种是创建完之后再再进行设置(这时不需要去掉样式名称中的空格)

paragraph = document.add_paragraph('Lorem ipsum dolor sit amet.')
paragraph.style = 'List Bullet'

9,字体加黑并斜体化

对字体做斜体和加黑操作之前, 需要理解在一个段落中都做了什么事情,简单来说两部分:

1,一个段落具有全部 block-level formatting ,比如制表符、行高、tabs 等;

2,Character-level formatting ,例如粗体、斜体,应用的是 run对象,在段落中的所有内容必须是一个 run ,且不仅包含一个,
Run 对象同时包含一个 .bold 和.italic 属性,可让你来对其值进行设置

paragraph = document.add_paragraph('Lorem ipsum ')
run = paragraph.add_run('dolor')
run.bold = True
paragraph.add_run(' sit amet.')

上面代码中最后创建的文本格式形如:Lorem ipsum dolor sit amet.

需要注意的是设置 bold 或 italic 时,可以把 .add_run() 命令直接放在右边

paragraph.add_run('dolor').bold = True

# is equivalent to:

run = paragraph.add_run('dolor')
run.bold = True

# except you don't have a reference to `run` afterward

10,字符样式

除了上面加黑、斜体之外、还可定义字符样式( character styles ), 定义时加入一行新的 run 对象;例如

paragraph = document.add_paragraph('Normal text, ')
paragraph.add_run('text with emphasis.', 'Emphasis')

上面创建一个文本 ,结果如下

Normal text,text with emphasis. ;text with emphasis. 部分应用 Emphasis(强调) 的字符格式

上面代码也可改为;

paragraph = document.add_paragraph('Normal text, ')
run = paragraph.add_run('text with emphasis.')
run.style = 'Emphasis'

与段落样式一样,样式名字与 Word UI 里的一样,在 Word 样式管理器中都能找得到!

Python word文本自动化操作实现方法解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python基础教程之实现石头剪刀布游戏示例
Feb 11 Python
opencv改变imshow窗口大小,窗口位置的方法
Apr 02 Python
在python win系统下 打开TXT文件的实例
Apr 29 Python
python ddt数据驱动最简实例代码
Feb 22 Python
Python爬取视频(其实是一篇福利)过程解析
Aug 01 Python
python使用writerows写csv文件产生多余空行的处理方法
Aug 01 Python
python numpy 反转 reverse示例
Dec 04 Python
Django 返回json数据的实现示例
Mar 05 Python
详解Ubuntu环境下部署Django+uwsgi+nginx总结
Apr 02 Python
Python如何自动获取目标网站最新通知
Jun 18 Python
Python如何测试stdout输出
Aug 10 Python
解决python打开https出现certificate verify failed的问题
Sep 03 Python
Python自动化办公Excel模块openpyxl原理及用法解析
Nov 05 #Python
Python中用xlwt制作表格实例讲解
Nov 05 #Python
如何利用pycharm进行代码更新比较
Nov 04 #Python
python产生模拟数据faker库的使用详解
Nov 04 #Python
Django配置跨域并开发测试接口
Nov 04 #Python
Python基于Serializer实现字段验证及序列化
Nov 04 #Python
pycharm使用技巧之自动调整代码格式总结
Nov 04 #Python
You might like
PHP_Flame(Version:Progress)的原代码
2006/10/09 PHP
ADODB结合SMARTY使用~超级强
2006/11/25 PHP
服务器端解压缩zip的脚本
2006/12/22 PHP
php一些公用函数的集合
2008/03/27 PHP
php修改上传图片尺寸的方法
2015/04/14 PHP
javaScript同意等待代码实现心得
2011/01/01 Javascript
JQuery for与each性能比较分析
2013/05/14 Javascript
深入理解JSON数据源格式
2014/01/10 Javascript
angularJS 中$attrs方法使用指南
2015/02/09 Javascript
jquery实现华丽的可折角广告代码
2015/09/02 Javascript
详解javascript事件冒泡
2016/01/09 Javascript
简单实现bootstrap选项卡效果
2017/02/08 Javascript
Angular.JS通过指令操作DOM的方法
2017/05/10 Javascript
Vue项目中使用jquery的简单方法
2019/05/16 jQuery
jQuery zTree树插件的使用教程
2019/08/16 jQuery
微信小程序转发事件实现解析
2019/10/22 Javascript
Vue+Element-U实现分页显示效果
2020/11/15 Javascript
python中星号变量的几种特殊用法
2016/09/07 Python
Python cookbook(字符串与文本)在字符串的开头或结尾处进行文本匹配操作
2018/04/20 Python
python解析xml文件方式(解析、更新、写入)
2020/03/05 Python
python怎么对数字进行过滤
2020/07/05 Python
Python日志打印里logging.getLogger源码分析详解
2021/01/17 Python
英国广泛的照明产品网站:Lights4living
2018/01/28 全球购物
Yves Rocher捷克官方网站:植物化妆品的创造者
2019/07/31 全球购物
美国最大最全的亚洲购物网站:美国亚米网(Yamibuy)
2020/05/05 全球购物
在浏览器端如何得到服务器端响应的XML数据
2012/11/24 面试题
小学生操行评语大全
2014/04/22 职场文书
党员创先争优心得体会
2014/09/11 职场文书
党员四风自我剖析材料思想汇报
2014/09/13 职场文书
干部四风问题整改措施思想汇报
2014/10/13 职场文书
结婚喜宴祝酒词
2015/08/10 职场文书
2019奶茶店创业计划书范本!
2019/07/15 职场文书
如何在python中实现ECDSA你知道吗
2021/11/23 Python
Vue实现跑马灯样式文字横向滚动
2021/11/23 Vue.js
Python中使用Opencv开发停车位计数器功能
2022/04/04 Python
win10系统计算机图标怎么调出来?win10调出计算机图标的方法
2022/08/14 数码科技