python使用docx模块读写docx文件的方法与docx模块常用方法详解


Posted in Python onFebruary 17, 2020

一,docx模块

Python可以利用python-docx模块处理word文档,处理方式是面向对象的。也就是说python-docx模块会把word文档,文档中的段落、文本、字体等都看做对象,对对象进行处理就是对word文档的内容处理。

二,相关概念

如果需要读取word文档中的文字(一般来说,程序也只需要认识word文档中的文字信息),需要先了解python-docx模块的几个概念。

1,Document对象,表示一个word文档。

2,Paragraph对象,表示word文档中的一个段落

3,Paragraph对象的text属性,表示段落中的文本内容。

三,模块的安装和导入

需要注意,python-docx模块安装需要在cmd命令行中输入pip install python-docx,如下图表示安装成功(最后那句英文Successfully installed,成功地安装完成)

注意在导入模块时,用的是import docx。

from docx import Document
from docx.enum.text import WD_ALIGN_PARAGRAPH #设置对象居中、对齐等。
from docx.enum.text import WD_TAB_ALIGNMENT,WD_TAB_LEADER #设置制表符等
from docx.shared import Inches #设置图像大小
from docx.shared import Pt #设置像素、缩进等
from docx.shared import RGBColor #设置字体颜色
from docx.shared import Length #设置宽度

四,读取word文本

#-*- conding:utf-8 -*-

import docx


file=docx.Document(r"F:\python从入门到放弃\7\2\wenjian.docx")

print('段落:'+str(len(file.paragraphs)))
# 
# for para in file.paragraphs:
#  print(para.text)
 
for i in range(len(file.paragraphs)): 
 print("第"+str(i)+"段的内容是:"+file.paragraphs[i].text)

五,写word文本

#-*- conding:utf-8 -*-

import sys

from docx import Document
from docx.shared import Inches

def main():
#  reload(sys)
#  sys.setdefaultencoding('utf-8')
 
 # 创建文档对象
 document = Document()
 
 # 设置文档标题,中文要用unicode字符串
 document.add_heading(u'我的一个新文档',0)
 
 # 往文档中添加段落
 p = document.add_paragraph('This is a paragraph having some ')
 p.add_run('bold ').bold = True
 p.add_run('and some ')
 p.add_run('italic.').italic = True
 
 # 添加一级标题
 document.add_heading(u'一级标题, level = 1',level = 1)
 document.add_paragraph('Intense quote',style = 'IntenseQuote')
 
 # 添加无序列表
 document.add_paragraph('first item in unordered list',style = 'ListBullet')
 
 # 添加有序列表
 document.add_paragraph('first item in ordered list',style = 'ListNumber')
 document.add_paragraph('second item in ordered list',style = 'ListNumber')
 document.add_paragraph('third item in ordered list',style = 'ListNumber')
 
 # 添加图片,并指定宽度
 document.add_picture('cat.png',width = Inches(2.25))
 
 # 添加表格: 1行3列
 table = document.add_table(rows = 1,cols = 3)
 # 获取第一行的单元格列表对象
 hdr_cells = table.rows[0].cells
 # 为每一个单元格赋值
 # 注:值都要为字符串类型
 hdr_cells[0].text = 'Name'
 hdr_cells[1].text = 'Age'
 hdr_cells[2].text = 'Tel'
 # 为表格添加一行
 new_cells = table.add_row().cells
 new_cells[0].text = 'Tom'
 new_cells[1].text = '19'
 new_cells[2].text = '12345678'
 
 # 添加分页符
 document.add_page_break()
 
 # 往新的一页中添加段落
 p = document.add_paragraph('This is a paragraph in new page.')
 
 # 保存文档
 document.save('demo1.doc')
 
if __name__ == '__main__':
 main()

六,读取表格

#-*- conding:utf-8 -*-

import docx

doc = docx.Document('wenjian.docx')
for table in doc.tables: # 遍历所有表格
 print('----table------')
 for row in table.rows: # 遍历表格的所有行
  # row_str = '\t'.join([cell.text for cell in row.cells]) # 一行数据
  # print row_str
  for cell in row.cells:
   print(cell.text, '\t',)
  print() #换行

七,添加段落

document=docx.Document() # 创建一个空白文档
document.styles['Normal'].font.name = '宋体' # 设置西文字体
document.styles['Normal']._element.rPr.rFonts.set(qn('w:eastAsia'), '宋体') # 设置中文字体 
p = document.add_paragraph()	# 添加一个段落
p.paragraph_format.alignment = WD_ALIGN_PARAGRAPH.JUSTIFY	#	设置对齐方式
p.paragraph_format.line_spacing_rule = WD_LINE_SPACING.ONE_POINT_FIVE	#	设置行间距
p.paragraph_format.space_after = Pt(0)	#	设置段后间距 
run = p.add_run('content')	#	延长段落
run.font.color.rgb = RGBColor(255, 0, 0)	#	设置字体颜色
run.font.size = Pt(22) # 设置字号
run.font.bold = True #	设置下划线

八,docx模块其它常用方法

字号与磅值的关系

字号 磅值
八号 5
七号 5.5
小六 6.5
六号 7.5
小五 9
五号 10.5
小四 12
四号 14
小三 15
三号 16
小二 18
二号 22
小一 24
一号 26
小初 36
初号 42

新增页眉

section=document.sections[0]
header=section.header
bt1=header.paragraphs[0]
bt1.text='此处是页眉1'

新增头信息

t1=document.add_paragraph('此处Tetle信息','Title')

新增段落 及 向前插入段落

p1=document.add_paragraph('新增段落P1')
pin1=p1.insert_paragraph_before('在p1前插入段落pin1')

段落里设置参数样式 或 指定.style来设置参数

p2=document.add_paragraph('新增段落p2并设置style类型',style='ListBullet')
p3=document.add_paragraph('新增段落p3并指定style类型')
p3.style='ListBullet'

添加标题 可设置标题级别1-9

h1=document.add_heading('此处默认标题1')
h2=document.add_heading('此处添加标题2',level=2)
h3=document.add_heading('此处添加标题3',level=3)

设置字体

通过.add_run来设置字体: 加粗、斜体、大小、颜色、下划线

paragraph=document.add_paragraph()
r1=paragraph.add_run('通过.bold=True来设置粗体')
r1.bold=True
r1.style='Emphasis'
r2=paragraph.add_run('也可以')
r3=paragraph.add_run('\n通过.italic=True来设置斜体,\n通过.font.size来设置字体大小,\n通过.font.color.rgb=RGBColor来设置字体颜色')
r3.italic=True
r3.font.size=Pt(20)
r3.font.color.rgb=RGBColor(200,77,150)
方法 作用
all_caps 全部大写字母
bold 加粗
color 字体颜色
complex_script 是否为“复杂代码”
cs_bold “复杂代码”加粗
cs_italic “复杂代码”斜体
double_strike 双删除线
emboss 文本以凸出页面的方式出现
hidden 隐藏
imprint 印记
italic 斜体
name 字体
no_proof 不验证语法错误
outline 显示字符的轮廓
shadow 阴影
small_caps 小型大写字母
snap_to_grid 定义文档网格时对齐网络
strike 删除线
subscript 下标
superscript 上标
underline 下划线

设置居中、左右对齐、缩进、制表符

p4=document.add_paragraph('准备开始设置居中、左右对齐、缩进等')
p4.paragraph_format.alignment=WD_ALIGN_PARAGRAPH.CENTER
方法 作用
LEFT 左对齐
CENTER 文字居中
RIGHT 右对齐
JUSTIFY 本两端对齐

设置缩进

默认Inches(0.5)等于四个空格

p5=document.add_paragraph('content')
p5.paragraph_format.left_indent=Inches(0.5)

设置首行缩进

p5.paragraph_format.first_line_indent=Inches(0.5)

设置段落间距 分为段落前 和 段落后

p5.paragraph_format.space_before=Pt(30)
p5.paragraph_format.space_after=Pt(12)

设置段落行距当行距为最小值和固定值时,设置值单位是磅,用Pt;当行间距为多倍行距时,设置值为数值。

p5.paragraph_format.line_spacing=Pt(30)
方法 作用
SINGLE 单倍行距(默认)
ONE_POINT_FIVE 1.5倍行距
DOUBLE 2倍行距
AT_LEAST 最小值
EXACTLY 固定值
MULTIPLE 多倍行距
paragraph.line_spacing_rule = WD_LINE_SPACING.EXACTLY #固定值
paragraph_format.line_spacing = Pt(18)     # 固定值18磅
paragraph.line_spacing_rule = WD_LINE_SPACING.MULTIPLE #多倍行距
paragraph_format.line_spacing = 1.75

分页属性

p5.paragraph_format.keep_with_next = True
方法 作用 说明
widow_control 孤行控制 防止在页面顶端单独打印段落末行或在页面底端单独打印段落首行
keep_with_next 与下段同页 防止在选中段落与后面一段间插入分页符
page_break_before 段前分页 在选中段落前插入分页符
keep_together 段中不分页 防止在段落中出现分页符

添加分页符

document.add_page_break()
p5=document.add_paragraph('.add_page_break()硬分页,即使文本未满')

添加表格、设置表格样式

table=document.add_table(rows=2,cols=2) 
table.style='LightShading-Accent1'

选择表格内单元格、单元格赋值添加和改变内容

cell=table.cell(0,1)
cell.text='通过cell.text()来添加内容'

选择表格的行,通过索引,然后索引单元格

row=table.rows[1]
row.cells[0].text='通过.add_table(,)来添加表格'
row.cells[1].text='通过for row in table.rows内嵌套 for cell in row.cells来循环输出表格内容'

for循环逐行输出表格内容

for row in table.rows: 
 for cell in row.cells:
  print(cell.text)

len表格内行列数

row_count=len(table.rows)
col_count=len(table.columns)
print(row_count,col_count,'现表格行列数')
row=table.add_row() #逐步添加行
print(len(table.rows),len(table.columns),'添加后表格行列数')

添加另一个表格 及 指定表格样式

table1=document.add_table(1,3)
table1.style='LightShading-Accent2' #设置表格样式

填充 标题行

heading_cells=table1.rows[0].cells #获取 行列标
heading_cells[0].text='Qtx' #为行列表内的cell单元格 赋值
heading_cells[1].text='Sku'
heading_cells[2].text='Des'

表格数据

items=(
  (7,'1024','plush kitens'),
  (3,'2042','furbees'),
  (1,'1288','french poodle collars,deluxe')
  )

为每个项目添加数据行

for item in items:
 cells=table1.add_row().cells
 cells[0].text=str(item[0]) 
 cells[1].text=str(item[1]) 
 cells[2].text=str(item[2])

添加图片

document.add_picture('002592.png',width=Inches(2))

调整图片大小,如下:

document.add_picture('demo.png', width=Inches(1.0), height=Inches(1.0))

若同时定义宽度和高度,则图片会被拉伸或压缩到指定大小;若仅定义宽度或高度,则图会自适应调整大小。

保存文档

document.save('test.docx')

更多关于python使用docx模块读写docx文件的方法与docx模块常用方法请查看下面的相关链接

Python 相关文章推荐
Python中转换角度为弧度的radians()方法
May 18 Python
Python实现的最近最少使用算法
Jul 10 Python
Scrapy爬虫实例讲解_校花网
Oct 23 Python
python2.7无法使用pip的解决方法(安装easy_install)
Apr 03 Python
python高效过滤出文件夹下指定文件名结尾的文件实例
Oct 21 Python
python文字和unicode/ascll相互转换函数及简单加密解密实现代码
Aug 12 Python
python实现微信小程序用户登录、模板推送
Aug 28 Python
Python实现图片识别加翻译功能
Dec 26 Python
python可视化text()函数使用详解
Feb 11 Python
python GUI库图形界面开发之PyQt5窗口类QMainWindow详细使用方法
Feb 26 Python
python工具——Mimesis的简单使用教程
Jan 16 Python
python实现监听键盘
Apr 26 Python
python itsdangerous模块的具体使用方法
Feb 17 #Python
django-crontab实现服务端的定时任务的示例代码
Feb 17 #Python
TensorFlow通过文件名/文件夹名获取标签,并加入队列的实现
Feb 17 #Python
Django 项目通过加载不同env文件来区分不同环境
Feb 17 #Python
Python cookie的保存与读取、SSL讲解
Feb 17 #Python
Python中用pyinstaller打包时的图标问题及解决方法
Feb 17 #Python
Python交互环境下打印和输入函数的实例内容
Feb 16 #Python
You might like
php获取本地图片文件并生成xml文件输出具体思路
2013/04/27 PHP
php循环创建目录示例分享(php创建多级目录)
2014/03/04 PHP
10款实用的PHP开源工具
2015/10/23 PHP
php使用fputcsv实现大数据的导出操作详解
2020/02/27 PHP
PHP实现计算器小功能
2020/08/28 PHP
jquery validate.js表单验证的基本用法入门
2010/05/13 Javascript
使用Javascript接收get传递的值的代码
2011/11/30 Javascript
JS获得URL超链接的参数值实例代码
2013/06/21 Javascript
connect中间件session、cookie的使用方法分享
2014/06/17 Javascript
批量修改标签css样式以input标签为例
2014/07/31 Javascript
angularjs学习笔记之简单介绍
2015/09/26 Javascript
js中字符串编码函数escape()、encodeURI()、encodeURIComponent()区别详解
2016/04/01 Javascript
使用jQuery卸载全部事件的思路详解
2017/04/03 jQuery
jQuery Autocomplete简介_动力节点Java学院整理
2017/07/17 jQuery
用Vue.extend构建消息提示组件的方法实例
2017/08/08 Javascript
React Native 环境搭建的教程
2017/08/19 Javascript
vue+webpack实现异步组件加载的方法
2018/02/03 Javascript
Bootstrap Table中的多选框删除功能
2018/07/15 Javascript
BootStrap table实现表格行拖拽效果
2018/12/01 Javascript
vue实现多个echarts根据屏幕大小变化而变化实例
2020/07/19 Javascript
区分vue-router的hash和history模式
2020/10/03 Javascript
Python双精度浮点数运算并分行显示操作示例
2017/07/21 Python
python3库numpy数组属性的查看方法
2018/04/17 Python
python实现从pdf文件中提取文本,并自动翻译的方法
2018/11/28 Python
在python中,使用scatter绘制散点图的实例
2019/07/03 Python
什么是Python中的匿名函数
2020/06/02 Python
Python 2.6.6升级到Python2.7.15的详细步骤
2020/12/14 Python
python实现控制台输出颜色
2021/03/02 Python
canvas绘制表情包的示例代码
2018/07/09 HTML / CSS
亚历山大·王官网:Alexander Wang
2017/06/23 全球购物
英国最大的在线奢侈手表零售商:Jura Watches
2018/01/29 全球购物
大学生创业计划书的范文
2014/01/07 职场文书
2014副局长群众路线对照检查材料思想汇报
2014/09/22 职场文书
大学生党员批评与自我批评范文
2014/10/14 职场文书
教师工作总结范文2014
2014/11/10 职场文书
小组口号霸气押韵
2015/12/24 职场文书