python处理document文档保留原样式


Posted in Python onSeptember 23, 2019

document文档格式、线段、图片、页眉页脚等都不变,供大家参考,具体内容如下

# -*- coding: utf-8 -*-
# @Time  : 2019/5/6 11:46
# @Author :
"""
# 利用python-docx替换文章中的内容

pip install python-docx
# 格式、线段、图片、页眉页脚等都不变
# python-docx 在处理超链接的问题时,可以参考一下链接对源码进行修改
https://github.com/python-openxml/python-docx/issues/85

# 具体修改操作如下
\site-packages\docx\oxml\__init__.py

# 需要新增的代码
def remove_hyperlink_tags(xml):
  import re
  text = xml.decode('utf-8')
  text = text.replace("</w:hyperlink>","")
  text = re.sub('<w:hyperlink[^>]*>', "", text)
  return text.encode('utf-8')

# 需要修改的源码
def parse_xml(xml):
  root_element = etree.fromstring(remove_hyperlink_tags(xml), oxml_parser)
  return root_element
"""

import os

from docx import Document
from win32com import client

# 自己写的逐句翻译包
import doc_scan


def pre_document(filename):
  """
  由于python_docx(只能读取.docx文件,不能读取.doc文件)
  将对应文件夹下的doc文件转为docx文件
  :param filename: 文件的绝对路径
  :return:
  """

  file_tuple = os.path.splitext(filename)
  if file_tuple[1] == '.doc':
    word = client.Dispatch('Word.Application')
    doc = word.Documents.Open(filename) # 目标路径下的文件
    doc.SaveAs(file_tuple[0] + ".docx", 16) # 转化后路径下的文件
    doc.Close()
    word.Quit()
    # 把源文件删除
    os.remove(filename)


def read_document():
  """
  原文文章为中文,然后将中文逐句翻译成英文,把英文替换原来的中文,保留文章的原样式
  :return:
  """
  # 遍历doc文件下的所有的文件
  path = os.path.dirname(os.path.abspath(__file__)) + '\doc'
  for f in os.listdir(path):
    file = "%s\%s" % (path, f)
    # 对源文件进行预处理
    pre_document(file)
    document = Document(file)
    for num, paragraph in enumerate(document.paragraphs):
      # 获取每段中的文字
      old_text = paragraph.text.strip()
      if old_text:
        inlines = paragraph.runs
        if inlines:
          # 将原有的文章里面的内容为空
          for li, inli in enumerate(inlines):
            inlines[li].text = inlines[li].text.replace(inlines[li].text, '')
          new_text = doc_scan.Scan(old_text)

          # 把翻译好的文章句子 替换到 零号位置上面
          inlines[0].text = new_text
    # 保存文件,覆盖操作
    document.save(file)


# 将document中的图片下载到本地
# document = Document(file)
# for shape in document.inline_shapes:
#   contentID = shape._inline.graphic.graphicData.pic.blipFill.blip.embed
#   contentType = document.part.related_parts[contentID].content_type
#   if not contentType.startswith('image'):
#     continue
#   imgName = basename(document.part.related_parts[contentID].partname)
#   imgData = document.part.related_parts[contentID]._blob
#   with open(imgName,'wb') as fp:
#     fp.write(imgData)

if __name__ == '__main__':
  read_document()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python显示进度条的方法
Sep 20 Python
Python标准异常和异常处理详解
Feb 02 Python
用Python实现一个简单的多线程TCP服务器的教程
May 05 Python
Python实现文件按照日期命名的方法
Jul 09 Python
利用Python中unittest实现简单的单元测试实例详解
Jan 09 Python
Python代码实现KNN算法
Dec 20 Python
浅谈python下tiff图像的读取和保存方法
Dec 04 Python
Python整数与Numpy数据溢出问题解决
Sep 11 Python
解决python gdal投影坐标系转换的问题
Jan 17 Python
python脚本实现mp4中的音频提取并保存在原目录
Feb 27 Python
python3读取autocad图形文件.py实例
Jun 05 Python
Django如何批量创建Model
Sep 01 Python
python 进程间数据共享multiProcess.Manger实现解析
Sep 23 #Python
python程序 线程队列queue使用方法解析
Sep 23 #Python
python程序 创建多线程过程详解
Sep 23 #Python
详解python播放音频的三种方法
Sep 23 #Python
Python进程间通信 multiProcessing Queue队列实现详解
Sep 23 #Python
python程序中的线程操作 concurrent模块使用详解
Sep 23 #Python
Python3 pandas 操作列表实例详解
Sep 23 #Python
You might like
使用Sphinx对索引进行搜索
2013/06/25 PHP
PHP打开和关闭文件操作函数总结
2014/11/18 PHP
PHP面试题之文件目录操作
2015/10/15 PHP
php与c 实现按行读取文件实例代码
2017/01/03 PHP
PHP实现按之字形顺序打印二叉树的方法
2018/01/16 PHP
Laravel 修改验证异常的响应格式实例代码详解
2020/05/25 PHP
关于Jquery操作Cookie取值错误的解决方法
2013/08/26 Javascript
使用iframe window的scroll方法控制iframe页面滚动
2014/03/05 Javascript
jQuery简单设置文本框回车事件的方法
2016/08/01 Javascript
angularjs利用directive实现移动端自定义软键盘的示例
2017/09/20 Javascript
React native ListView 增加顶部下拉刷新和底下点击刷新示例
2018/04/27 Javascript
微信小程序自定义弹出层效果
2020/05/26 Javascript
vue 使用localstorage实现面包屑的操作
2020/11/16 Javascript
Python实现的数据结构与算法之链表详解
2015/04/22 Python
python访问类中docstring注释的实现方法
2015/05/04 Python
微信跳一跳python辅助软件思路及图像识别源码解析
2018/01/04 Python
使用Python微信库itchat获得好友和群组已撤回的消息
2018/06/24 Python
Win10下python 2.7.13 安装配置方法图文教程
2018/09/18 Python
在PyCharm中三步完成PyPy解释器的配置的方法
2018/10/29 Python
在Pycharm terminal中字体大小设置的方法
2019/01/16 Python
详解Python:面向对象编程
2019/04/10 Python
python 批量解压压缩文件的实例代码
2019/06/27 Python
django queryset相加和筛选教程
2020/05/18 Python
python接入支付宝的实例操作
2020/07/20 Python
Python爬虫教程知识点总结
2020/10/19 Python
Pandas DataFrame求差集的示例代码
2020/12/13 Python
印度尼西亚最大的电商平台:Tokopedia(印尼版淘宝)
2017/12/02 全球购物
菲律宾领先的在线时尚商店:Zalora菲律宾
2018/02/08 全球购物
碧欧泉法国官网:Biotherm法国
2019/10/23 全球购物
天游软件面试
2013/11/23 面试题
某公司部分笔试题
2013/11/05 面试题
幼儿园法制宣传日活动总结
2014/11/01 职场文书
2014年信贷员工作总结
2014/11/18 职场文书
贷款收入证明格式
2015/06/24 职场文书
检讨书怎么写?
2019/06/21 职场文书
MutationObserver在页面水印实现起到的作用详解
2022/07/07 Javascript