python使用docx模块读写docx文件的方法与docx模块常用方法详解


Posted in Python onFebruary 17, 2020

一,docx模块

Python可以利用python-docx模块处理word文档,处理方式是面向对象的。也就是说python-docx模块会把word文档,文档中的段落、文本、字体等都看做对象,对对象进行处理就是对word文档的内容处理。

二,相关概念

如果需要读取word文档中的文字(一般来说,程序也只需要认识word文档中的文字信息),需要先了解python-docx模块的几个概念。

1,Document对象,表示一个word文档。

2,Paragraph对象,表示word文档中的一个段落

3,Paragraph对象的text属性,表示段落中的文本内容。

三,模块的安装和导入

需要注意,python-docx模块安装需要在cmd命令行中输入pip install python-docx,如下图表示安装成功(最后那句英文Successfully installed,成功地安装完成)

注意在导入模块时,用的是import docx。

from docx import Document
from docx.enum.text import WD_ALIGN_PARAGRAPH #设置对象居中、对齐等。
from docx.enum.text import WD_TAB_ALIGNMENT,WD_TAB_LEADER #设置制表符等
from docx.shared import Inches #设置图像大小
from docx.shared import Pt #设置像素、缩进等
from docx.shared import RGBColor #设置字体颜色
from docx.shared import Length #设置宽度

四,读取word文本

#-*- conding:utf-8 -*-

import docx


file=docx.Document(r"F:\python从入门到放弃\7\2\wenjian.docx")

print('段落:'+str(len(file.paragraphs)))
# 
# for para in file.paragraphs:
#  print(para.text)
 
for i in range(len(file.paragraphs)): 
 print("第"+str(i)+"段的内容是:"+file.paragraphs[i].text)

五,写word文本

#-*- conding:utf-8 -*-

import sys

from docx import Document
from docx.shared import Inches

def main():
#  reload(sys)
#  sys.setdefaultencoding('utf-8')
 
 # 创建文档对象
 document = Document()
 
 # 设置文档标题,中文要用unicode字符串
 document.add_heading(u'我的一个新文档',0)
 
 # 往文档中添加段落
 p = document.add_paragraph('This is a paragraph having some ')
 p.add_run('bold ').bold = True
 p.add_run('and some ')
 p.add_run('italic.').italic = True
 
 # 添加一级标题
 document.add_heading(u'一级标题, level = 1',level = 1)
 document.add_paragraph('Intense quote',style = 'IntenseQuote')
 
 # 添加无序列表
 document.add_paragraph('first item in unordered list',style = 'ListBullet')
 
 # 添加有序列表
 document.add_paragraph('first item in ordered list',style = 'ListNumber')
 document.add_paragraph('second item in ordered list',style = 'ListNumber')
 document.add_paragraph('third item in ordered list',style = 'ListNumber')
 
 # 添加图片,并指定宽度
 document.add_picture('cat.png',width = Inches(2.25))
 
 # 添加表格: 1行3列
 table = document.add_table(rows = 1,cols = 3)
 # 获取第一行的单元格列表对象
 hdr_cells = table.rows[0].cells
 # 为每一个单元格赋值
 # 注:值都要为字符串类型
 hdr_cells[0].text = 'Name'
 hdr_cells[1].text = 'Age'
 hdr_cells[2].text = 'Tel'
 # 为表格添加一行
 new_cells = table.add_row().cells
 new_cells[0].text = 'Tom'
 new_cells[1].text = '19'
 new_cells[2].text = '12345678'
 
 # 添加分页符
 document.add_page_break()
 
 # 往新的一页中添加段落
 p = document.add_paragraph('This is a paragraph in new page.')
 
 # 保存文档
 document.save('demo1.doc')
 
if __name__ == '__main__':
 main()

六,读取表格

#-*- conding:utf-8 -*-

import docx

doc = docx.Document('wenjian.docx')
for table in doc.tables: # 遍历所有表格
 print('----table------')
 for row in table.rows: # 遍历表格的所有行
  # row_str = '\t'.join([cell.text for cell in row.cells]) # 一行数据
  # print row_str
  for cell in row.cells:
   print(cell.text, '\t',)
  print() #换行

七,添加段落

document=docx.Document() # 创建一个空白文档
document.styles['Normal'].font.name = '宋体' # 设置西文字体
document.styles['Normal']._element.rPr.rFonts.set(qn('w:eastAsia'), '宋体') # 设置中文字体 
p = document.add_paragraph()	# 添加一个段落
p.paragraph_format.alignment = WD_ALIGN_PARAGRAPH.JUSTIFY	#	设置对齐方式
p.paragraph_format.line_spacing_rule = WD_LINE_SPACING.ONE_POINT_FIVE	#	设置行间距
p.paragraph_format.space_after = Pt(0)	#	设置段后间距 
run = p.add_run('content')	#	延长段落
run.font.color.rgb = RGBColor(255, 0, 0)	#	设置字体颜色
run.font.size = Pt(22) # 设置字号
run.font.bold = True #	设置下划线

八,docx模块其它常用方法

字号与磅值的关系

字号 磅值
八号 5
七号 5.5
小六 6.5
六号 7.5
小五 9
五号 10.5
小四 12
四号 14
小三 15
三号 16
小二 18
二号 22
小一 24
一号 26
小初 36
初号 42

新增页眉

section=document.sections[0]
header=section.header
bt1=header.paragraphs[0]
bt1.text='此处是页眉1'

新增头信息

t1=document.add_paragraph('此处Tetle信息','Title')

新增段落 及 向前插入段落

p1=document.add_paragraph('新增段落P1')
pin1=p1.insert_paragraph_before('在p1前插入段落pin1')

段落里设置参数样式 或 指定.style来设置参数

p2=document.add_paragraph('新增段落p2并设置style类型',style='ListBullet')
p3=document.add_paragraph('新增段落p3并指定style类型')
p3.style='ListBullet'

添加标题 可设置标题级别1-9

h1=document.add_heading('此处默认标题1')
h2=document.add_heading('此处添加标题2',level=2)
h3=document.add_heading('此处添加标题3',level=3)

设置字体

通过.add_run来设置字体: 加粗、斜体、大小、颜色、下划线

paragraph=document.add_paragraph()
r1=paragraph.add_run('通过.bold=True来设置粗体')
r1.bold=True
r1.style='Emphasis'
r2=paragraph.add_run('也可以')
r3=paragraph.add_run('\n通过.italic=True来设置斜体,\n通过.font.size来设置字体大小,\n通过.font.color.rgb=RGBColor来设置字体颜色')
r3.italic=True
r3.font.size=Pt(20)
r3.font.color.rgb=RGBColor(200,77,150)
方法 作用
all_caps 全部大写字母
bold 加粗
color 字体颜色
complex_script 是否为“复杂代码”
cs_bold “复杂代码”加粗
cs_italic “复杂代码”斜体
double_strike 双删除线
emboss 文本以凸出页面的方式出现
hidden 隐藏
imprint 印记
italic 斜体
name 字体
no_proof 不验证语法错误
outline 显示字符的轮廓
shadow 阴影
small_caps 小型大写字母
snap_to_grid 定义文档网格时对齐网络
strike 删除线
subscript 下标
superscript 上标
underline 下划线

设置居中、左右对齐、缩进、制表符

p4=document.add_paragraph('准备开始设置居中、左右对齐、缩进等')
p4.paragraph_format.alignment=WD_ALIGN_PARAGRAPH.CENTER
方法 作用
LEFT 左对齐
CENTER 文字居中
RIGHT 右对齐
JUSTIFY 本两端对齐

设置缩进

默认Inches(0.5)等于四个空格

p5=document.add_paragraph('content')
p5.paragraph_format.left_indent=Inches(0.5)

设置首行缩进

p5.paragraph_format.first_line_indent=Inches(0.5)

设置段落间距 分为段落前 和 段落后

p5.paragraph_format.space_before=Pt(30)
p5.paragraph_format.space_after=Pt(12)

设置段落行距当行距为最小值和固定值时,设置值单位是磅,用Pt;当行间距为多倍行距时,设置值为数值。

p5.paragraph_format.line_spacing=Pt(30)
方法 作用
SINGLE 单倍行距(默认)
ONE_POINT_FIVE 1.5倍行距
DOUBLE 2倍行距
AT_LEAST 最小值
EXACTLY 固定值
MULTIPLE 多倍行距
paragraph.line_spacing_rule = WD_LINE_SPACING.EXACTLY #固定值
paragraph_format.line_spacing = Pt(18)     # 固定值18磅
paragraph.line_spacing_rule = WD_LINE_SPACING.MULTIPLE #多倍行距
paragraph_format.line_spacing = 1.75

分页属性

p5.paragraph_format.keep_with_next = True
方法 作用 说明
widow_control 孤行控制 防止在页面顶端单独打印段落末行或在页面底端单独打印段落首行
keep_with_next 与下段同页 防止在选中段落与后面一段间插入分页符
page_break_before 段前分页 在选中段落前插入分页符
keep_together 段中不分页 防止在段落中出现分页符

添加分页符

document.add_page_break()
p5=document.add_paragraph('.add_page_break()硬分页,即使文本未满')

添加表格、设置表格样式

table=document.add_table(rows=2,cols=2) 
table.style='LightShading-Accent1'

选择表格内单元格、单元格赋值添加和改变内容

cell=table.cell(0,1)
cell.text='通过cell.text()来添加内容'

选择表格的行,通过索引,然后索引单元格

row=table.rows[1]
row.cells[0].text='通过.add_table(,)来添加表格'
row.cells[1].text='通过for row in table.rows内嵌套 for cell in row.cells来循环输出表格内容'

for循环逐行输出表格内容

for row in table.rows: 
 for cell in row.cells:
  print(cell.text)

len表格内行列数

row_count=len(table.rows)
col_count=len(table.columns)
print(row_count,col_count,'现表格行列数')
row=table.add_row() #逐步添加行
print(len(table.rows),len(table.columns),'添加后表格行列数')

添加另一个表格 及 指定表格样式

table1=document.add_table(1,3)
table1.style='LightShading-Accent2' #设置表格样式

填充 标题行

heading_cells=table1.rows[0].cells #获取 行列标
heading_cells[0].text='Qtx' #为行列表内的cell单元格 赋值
heading_cells[1].text='Sku'
heading_cells[2].text='Des'

表格数据

items=(
  (7,'1024','plush kitens'),
  (3,'2042','furbees'),
  (1,'1288','french poodle collars,deluxe')
  )

为每个项目添加数据行

for item in items:
 cells=table1.add_row().cells
 cells[0].text=str(item[0]) 
 cells[1].text=str(item[1]) 
 cells[2].text=str(item[2])

添加图片

document.add_picture('002592.png',width=Inches(2))

调整图片大小,如下:

document.add_picture('demo.png', width=Inches(1.0), height=Inches(1.0))

若同时定义宽度和高度,则图片会被拉伸或压缩到指定大小;若仅定义宽度或高度,则图会自适应调整大小。

保存文档

document.save('test.docx')

更多关于python使用docx模块读写docx文件的方法与docx模块常用方法请查看下面的相关链接

Python 相关文章推荐
django开发教程之利用缓存文件进行页面缓存的方法
Nov 10 Python
python分析作业提交情况
Nov 22 Python
详解用python实现简单的遗传算法
Jan 02 Python
Python从使用线程到使用async/await的深入讲解
Sep 16 Python
python实现将文件夹下面的不是以py文件结尾的文件都过滤掉的方法
Oct 21 Python
Pandas DataFrame数据的更改、插入新增的列和行的方法
Jun 25 Python
Pycharm新建模板默认添加个人信息的实例
Jul 15 Python
PyCharm 配置远程python解释器和在本地修改服务器代码
Jul 23 Python
python实现大量图片重命名
Mar 23 Python
解决django FileFIELD的编码问题
Mar 30 Python
python利用tkinter实现图片格式转换的示例
Sep 28 Python
Pycharm 如何一键加引号的方法步骤
Feb 05 Python
python itsdangerous模块的具体使用方法
Feb 17 #Python
django-crontab实现服务端的定时任务的示例代码
Feb 17 #Python
TensorFlow通过文件名/文件夹名获取标签,并加入队列的实现
Feb 17 #Python
Django 项目通过加载不同env文件来区分不同环境
Feb 17 #Python
Python cookie的保存与读取、SSL讲解
Feb 17 #Python
Python中用pyinstaller打包时的图标问题及解决方法
Feb 17 #Python
Python交互环境下打印和输入函数的实例内容
Feb 16 #Python
You might like
PHP5与MySQL数据库操作常用代码 收集
2010/03/21 PHP
fleaphp crud操作之findByField函数的使用方法
2011/04/23 PHP
解析php中获取系统信息的方法
2013/06/25 PHP
php对文件进行hash运算的方法
2015/04/03 PHP
php使用GD实现颜色渐变实例
2015/06/02 PHP
php socket通信(tcp/udp)实例分析
2016/02/14 PHP
YII Framework教程之异常处理详解
2016/03/14 PHP
PHP版微信第三方实现一键登录及获取用户信息的方法
2016/10/14 PHP
jQuery each()小议
2010/03/18 Javascript
JS通过相同的name进行表格求和代码
2013/08/18 Javascript
使用JavaScript+canvas实现图片裁剪
2015/01/30 Javascript
JavaScript焦点事件、鼠标事件和滚轮事件使用详解
2016/01/15 Javascript
Html5+jQuery+CSS制作相册小记录
2016/12/30 Javascript
详谈innerHTML innerText的使用和区别
2017/08/18 Javascript
每周一练 之 数据结构与算法(Stack)
2019/04/16 Javascript
快速对接payjq的个人微信支付接口过程解析
2019/08/15 Javascript
javascript实现抢购倒计时程序
2019/08/26 Javascript
Vuex实现简单购物车
2021/01/10 Vue.js
Python比较2个时间大小的实现方法
2018/04/10 Python
Django 使用logging打印日志的实例
2018/04/28 Python
python使用opencv对图像mask处理的方法
2019/07/05 Python
解决Jupyter Notebook开始菜单栏Anaconda下消失的问题
2020/04/13 Python
Keras 在fit_generator训练方式中加入图像random_crop操作
2020/07/03 Python
浅析Python 条件控制语句
2020/07/15 Python
使用CSS3 制作一个material-design 风格登录界面实例
2016/12/12 HTML / CSS
夏威夷咖啡公司:Hawaii Coffee Company
2019/09/19 全球购物
英国鞋网:Rubber Sole
2020/03/03 全球购物
衰败城市英国官网:Urban Decay英国
2020/04/29 全球购物
几个常见的消息中间件(MOM)
2014/01/08 面试题
师生聚会感言
2014/01/26 职场文书
思想品德自我评价
2014/02/04 职场文书
护理毕业生自我鉴定
2014/02/11 职场文书
安全生产承诺书范文
2014/05/22 职场文书
关于职业道德的心得体会
2016/01/18 职场文书
浅谈Python中的正则表达式
2021/06/28 Python
MySQL深度分页(千万级数据量如何快速分页)
2021/07/25 MySQL