python实现翻译word表格小程序


Posted in Python onFebruary 27, 2020

背景

原是弱电集成的设计员,纠结很久后参加了python培训机构转职后的一员小白,由于一次工作中需要翻译一份近100页word表格,纯手工翻译大概三个小时,为了解决这种重复又耗时的劳动,并重温python相关知识所以制作了该小程序。

脚本详情

import re
import docx
import time
import pandas as pd
from selenium import webdriver
from selenium.webdriver.chrome.options import Options # 导入chrome选项
from selenium.webdriver.common.keys import Keys
from os import system
'''
seleium爬虫效率很低但胜在不用考虑反爬问题,由于想加快翻译速度并实现转换为exe文件后可在其他无python环境中运行,
添加excel表格充当数据库,excel文件中,一列命名漏洞英文列表,一列命名漏洞翻译列表,由于使用seleeium需在python目
录下添加对应浏览器driver,由于我使用的是chrome所以需下载chromedriver。
'''
def mydoc(doc,table,huan,expath):
 table_contents = []
 table_content_trans = []
 for i in range(0,len(table.rows)):#设定i值极限 行
 data = pd.DataFrame(pd.read_excel(expath))
 datalist_d = data['漏洞英文列表']
 datalist_t = data['漏洞翻译列表']
 i_text = table.cell(i,0).text#表格内i行j列单元格内容赋值给i_text
 zhPattern = re.compile(u'[\u4e00-\u9fa5]+') # 中文字符范围
 szPattern = re.compile(u'[0-9]') # 数字范围
 # spPattern = re.compile(u'[/]+')
 contents = u'{}'.format(i_text) # 表格内单元格文本
 # search整个字符串内查找模式匹配,找到第一个匹配然后返回一个包含匹配信息的对象,无则NONE
 # match匹配字符串第一位,开头位置是否匹配,匹配成功才会返回结果,否则返回None
 #'[^?\\/]'返回指定标点符号
 match_zh = zhPattern.search(contents)
 match_sz = szPattern.match(contents)
 if match_zh or match_sz:
 pass

 else:
 if len(datalist_d) != 0:
 flag_excel = False
 for j in range(len(datalist_d)):
  if datalist_d[j] == i_text:
  table.cell(i,0).text = str(datalist_t[j])
  flag_excel = True
  break
 if flag_excel == False:
  print('漏洞库中未搜索到...')
  table_contents.append(i_text) # 表格内内容
  trans_result = myspider(i_text) # 翻译表格内容
  print('翻译中...')
  if huan == 1:
  trans_result_n = trans_result.replace("\n", "") # 内容去除换行
  table.cell(i, 0).text = trans_result_n # 替换表格内容
  table_content_trans.append(trans_result_n) # 翻译和排版后内容加入表格
  data_t = pd.Series({"漏洞英文列表": i_text,"漏洞翻译列表": trans_result_n}, name='漏洞库') # 添加数据
  data_add_t = data.append(data_t) # 添加数据
  data_add_t.to_excel(expath, index=False) # 存入excel中
  print('存入漏洞库...')
  else:
  table.cell(i, 0).text = trans_result # 替换表格内容
  table_content_trans.append(trans_result) # 翻译和排版后内容加入表格
  data_t = pd.Series({"漏洞英文列表": i_text,"漏洞翻译列表": trans_result}, name='漏洞库') # 添加数据
  data_add_t = data.append(data_t) # 添加数据
  data_add_t.to_excel(expath, index=False) # 存入excel中
  print('存入漏洞库...')

 else:
 print('漏洞库为空')
 table_contents.append(i_text) # 表格内内容
 trans_result = myspider(i_text) # 翻译表格内容
 print('翻译中...')
 if huan == 1:
  trans_result_n = trans_result.replace("\n", "") # 内容去除换行
  table.cell(i, 0).text = trans_result_n # 替换表格内容
  table_content_trans.append(trans_result_n) # 翻译和排版后内容加入表格
  data_t = pd.Series({"漏洞英文列表": i_text,"漏洞翻译列表": trans_result_n}, name='漏洞库') # 添加数据
  data_add_t = data.append(data_t) # 添加数据
  data_add_t.to_excel(expath, index=False) # 存入excel中
  print('存入漏洞库...')
 else:
  table.cell(i, 0).text = trans_result # 替换表格内容
  table_content_trans.append(trans_result) # 翻译和排版后内容加入表格
  data_t = pd.Series({"漏洞英文列表": i_text,"漏洞翻译列表": trans_result}, name='漏洞库') # 添加数据
  data_add_t = data.append(data_t) # 添加数据
  data_add_t.to_excel(expath, index=False) # 存入excel中
  print('存入漏洞库...')

 #判断列表中是否都是空字符串
 flag = False
 for i in table_contents:
 if i.strip() != '':
 flag = True
 # 空列表或者列表中都是空字符串不翻译
 if len(table_contents) == 0 or flag == False:
 return print("此表格无需翻译或漏洞库中已存储")
 else:
 print('表格待翻译内容:',table_contents)
 print('表格翻译后内容:',table_content_trans)

def myspider(text):
 # 设置chrome浏览器无头模式
 chrome_options = Options()
 chrome_options.add_argument('--headless')
 driver = webdriver.Chrome(chrome_options=chrome_options)
 # driver.fullscreen_window() #全屏
 driver.maximize_window() # 屏幕最大化
 # 打开有道翻译页面
 driver.get("http://fanyi.youdao.com/")
 time.sleep(0.5)
 # 获取页面名为inputOriginal的id标签的文本内容
 inputwd = driver.find_element_by_id("inputOriginal") # 搜索输入文本框的id属性值 .text #id="wrapper"的所有文本
 but = driver.find_element_by_id('transMachine') # 搜索提交按钮//*[@id="transMachine"]
 outputwd = driver.find_element_by_xpath('//*[@id="transTarget"]') # 翻译后文本框
 inputwd.clear() # 清除文本框里的内容
 # outputwd.clear() # 清除文本框里的内容
 inputwd.send_keys(text) # 输入翻译内容
 but.send_keys(Keys.RETURN) # 输入回车键 but.click() #点击按钮s
 time.sleep(0.5)
 result = outputwd.text
 # 关闭浏览器
 driver.quit()
 return result

def mymain():
 # urlname = input('输入路径:')
 docname = input('输入文件全名:')
 huan = int(input('翻译内容是否需删除换行(1.是2.否):'))
 # urlname_t = urlname.replace('\\','\\\\')
 # print('转义后路径:',f'{urlname}//{docname}')
 path = f'.\\{docname}' #文件路径
 expath = '.\\漏洞库.xlsx'
 doc = docx.Document(path)
 tables = doc.tables # 获取文件中的表格集
 e1 = time.time()
 print(f'共{len(tables)}个表格')
 n = 1
 try:
 for i in range(0,len(tables)):
 table = tables[i]
 mydoc(doc,table,huan,expath)
 print(f'\n剩余{len(tables)-n}个表格待翻译')
 time.sleep(0.3)
 n += 1
 doc.save(f".\\trans{docname}")
 except Exception as e:
 print('报错:',e)
 e2 = time.time()
 print('耗时:',float(e2 - e1))
 print('转换完毕')
 system('pause')

mymain()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python爬取网站数据保存使用的方法
Nov 20 Python
Python中的jquery PyQuery库使用小结
May 13 Python
Python多进程同步Lock、Semaphore、Event实例
Nov 21 Python
Python中处理字符串之islower()方法的使用简介
May 19 Python
Python的mysql数据库的更新如何实现
Jul 31 Python
Python中常用信号signal类型实例
Jan 25 Python
Python打印“菱形”星号代码方法
Feb 05 Python
Python多线程扫描端口代码示例
Feb 09 Python
python实现Decorator模式实例代码
Feb 09 Python
PyTorch和Keras计算模型参数的例子
Jan 02 Python
Flask中sqlalchemy模块的实例用法
Aug 02 Python
Python中return函数返回值实例用法
Nov 19 Python
Python统计文本词汇出现次数的实例代码
Feb 27 #Python
浅谈python输出列表元素的所有排列形式
Feb 26 #Python
python GUI库图形界面开发之PyQt5 UI主线程与耗时线程分离详细方法实例
Feb 26 #Python
python——全排列数的生成方式
Feb 26 #Python
python GUI库图形界面开发之pyinstaller打包python程序为exe安装文件
Feb 26 #Python
python GUI库图形界面开发之PyQt5中QWebEngineView内嵌网页与Python的数据交互传参详细方法实例
Feb 26 #Python
python自动点赞功能的实现思路
Feb 26 #Python
You might like
用PHP生成静态HTML速度快类库
2007/03/18 PHP
怎样去阅读一份php源代码
2009/08/21 PHP
Codeigniter实现处理用户登录验证后的URL跳转
2014/06/12 PHP
php将字符串转换成16进制的方法
2015/03/17 PHP
php实现粘贴截图并完成上传功能
2015/05/17 PHP
php中smarty区域循环的方法
2015/06/11 PHP
对php 判断http还是https,以及获得当前url的方法详解
2019/01/15 PHP
JS 强制设为首页的代码
2009/01/31 Javascript
HTML颜色选择器实现代码
2010/11/23 Javascript
JS 添加网页桌面快捷方式的代码详细整理
2012/12/27 Javascript
JavaScript 继承详解(六)
2016/10/11 Javascript
nodejs使用express创建一个简单web应用
2017/03/31 NodeJs
JS实现经典的中国地区三级联动下拉菜单功能实例【测试可用】
2017/06/06 Javascript
bootstrap modal+gridview实现弹出框效果
2017/08/15 Javascript
实例详解JSON取值(key是中文或者数字)方式
2017/08/24 Javascript
vue项目中引入Sass实例方法
2019/08/27 Javascript
Vuex的热更替如何实现
2020/06/05 Javascript
bootstrap-closable-tab可实现关闭的tab标签页插件
2020/08/09 Javascript
python3设计模式之简单工厂模式
2017/10/17 Python
Python输出各行命令详解
2018/02/01 Python
python 请求服务器的实现代码(http请求和https请求)
2018/05/25 Python
Numpy中矩阵matrix读取一列的方法及数组和矩阵的相互转换实例
2018/07/02 Python
Flask框架Flask-Principal基本用法实例分析
2018/07/23 Python
有关Python的22个编程技巧
2018/08/29 Python
Python实现拷贝/删除文件夹的方法详解
2018/08/29 Python
Django文件存储 默认存储系统解析
2019/08/02 Python
Python实现微信机器人的方法
2019/09/06 Python
澳大利亚领先的时尚内衣零售商:Bras N Things
2020/07/28 全球购物
总监职责范文
2013/11/09 职场文书
保健品市场营销方案
2014/03/31 职场文书
意外伤害赔偿协议书范本
2014/09/28 职场文书
新郎父亲婚礼致辞
2015/07/27 职场文书
市级三好生竞选稿
2015/11/21 职场文书
background-position百分比原理详解
2021/05/08 HTML / CSS
MySQL一些常用高级SQL语句
2021/07/03 MySQL
使用Python开发贪吃蛇游戏 SnakeGame
2022/04/30 Python