Python 实现的 Google 批量翻译功能


Posted in Python onAugust 26, 2019

首先声明,没有什么不良动机,因为经常会用 translate.google.cn,就想着用 Python 模拟网页提交实现文档的批量翻译。据说有 API,可是要收费。

生成 Token

Google 为防爬虫而生成 token 的代码是 Javascript 的,且是根据网站的 TKK 值和提交的文本动态生成。更新规律未知,只好定时去取一下了。

网上能找到的 Python 代码大部分是去调用 PyExecJS 库,先不说执行效率的高低(大概是差一个数量级),首先是舍近求远,不纯粹,本人不喜欢。

好不容易找到了一段 Python 代码还有点小 Bug,且缺少动态获取 TKK 的步骤。最后还是对照 Javascript 代码自己改成 Python 了。方法很简单,先转成易懂的 Javascript,再转成 Python。Javascript 代码来自C#实现谷歌翻译API。

原始(晦涩) Javascript 代码

var b = function (a, b) {
 for (var d = 0; d < b.length - 2; d += 3) {
 var c = b.charAt(d + 2),
  c = "a" <= c ? c.charCodeAt(0) - 87 : Number(c),
  c = "+" == b.charAt(d + 1) ? a >>> c : a << c;
 a = "+" == b.charAt(d) ? a + c & 4294967295 : a ^ c
 }
 return a
}
var tk = function (a,TKK) {
 for (var e = TKK.split("."), h = Number(e[0]) || 0, g = [], d = 0, f = 0; f < a.length; f++) {
 var c = a.charCodeAt(f);
 128 > c ? g[d++] = c : (2048 > c ? g[d++] = c >> 6 | 192 : (55296 == (c & 64512) && f + 1 < a.length && 56320 == (a.charCodeAt(f + 1) & 64512) ? (c = 65536 + ((c & 1023) << 10) + (a.charCodeAt(++f) & 1023), g[d++] = c >> 18 | 240, g[d++] = c >> 12 & 63 | 128) : g[d++] = c >> 12 | 224, g[d++] = c >> 6 & 63 | 128), g[d++] = c & 63 | 128)
 }
 a = h;
 for (d = 0; d < g.length; d++) a += g[d], a = b(a, "+-a^+6");
 a = b(a, "+-3^+b+-f");
 a ^= Number(e[1]) || 0;
 0 > a && (a = (a & 2147483647) + 2147483648);
 a %= 1E6;
 return a.toString() + "." + (a ^ h)
}

易懂的 Javascript 代码

function RL(a, b) {
 for (var d = 0; d < b.length - 2; d += 3) {
 var c = b.charAt(d + 2);
 c = "a" <= c ? c.charCodeAt(0) - 87 : Number(c);
 c = "+" == b.charAt(d + 1) ? a >>> c : a << c;
 a = "+" == b.charAt(d) ? a + c & 4294967295 : a ^ c;
 }
 return a
}
function TL(a,TKK) {
 var e = TKK.split(".");
 var h = Number(e[0]) || 0;
 var g = [];
 var d = 0;
 for (var f = 0; f < a.length; f++) {
 var c = a.charCodeAt(f);
 if (128 > c)
 {
  g[d++] = c;
 } 
 else
 {
  if (2048 > c)
  {
  g[d++] = c >> 6 | 192;
  }
  else
  {
  if (55296 == (c & 64512) && f + 1 < a.length && 56320 == (a.charCodeAt(f + 1) & 64512))
  {
   c = 65536 + ((c & 1023) << 10) + (a.charCodeAt(++f) & 1023);
   g[d++] = c >> 18 | 240;
   g[d++] = c >> 12 & 63 | 128;
  }
  else
  {
   g[d++] = c >> 12 | 224;
   g[d++] = c >> 6 & 63 | 128;
  }
  }
  g[d++] = c & 63 | 128;
 }
 }
 a = h;
 for (var d = 0; d < g.length; d++) {
 a += g[d];
 a = b(a, "+-a^+6");
 }
 a = b(a, "+-3^+b+-f");
 a ^= Number(e[1]) || 0;
 0 > a && (a = (a & 2147483647) + 2147483648);
 a %= 1E6;
 return a.toString() + "." + (a ^ h)
}

Python 代码

def getGoogleToken(a, TKK):
 def RL(a, b):
 for d in range(0, len(b)-2, 3):
  c = b[d + 2]
  c = ord(c[0]) - 87 if 'a' <= c else int(c)
  c = a >> c if '+' == b[d + 1] else a << c
  a = a + c & 4294967295 if '+' == b[d] else a ^ c
 return a
 g = []
 f = 0
 while f < len(a):
 c = ord(a[f])
 if 128 > c:
  g.append(c)
 else:
  if 2048 > c:
  g.append((c >> 6) | 192)
  else:
  if (55296 == (c & 64512)) and (f + 1 < len(a)) and (56320 == (ord(a[f+1]) & 64512)):
   f += 1
   c = 65536 + ((c & 1023) << 10) + (ord(a[f]) & 1023)
   g.append((c >> 18) | 240)
   g.append((c >> 12) & 63 | 128)
  else:
   g.append((c >> 12) | 224)
   g.append((c >> 6) & 63 | 128)
  g.append((c & 63) | 128)
 f += 1
 e = TKK.split('.')
 h = int(e[0]) or 0
 t = h
 for item in g:
 t += item
 t = RL(t, '+-a^+6')
 t = RL(t, '+-3^+b+-f')
 t ^= int(e[1]) or 0
 if 0 > t:
 t = (t & 2147483647) + 2147483648
 result = t % 1000000
 return str(result) + '.' + str(result ^ h)

获取 Token Key

Google 的 TKK 可以通过访问网站 https://translate.google.cn 获取,里面有段脚本里包含了“tkk:('xxxxxx.xxxxxx')”,用正则表达式截取即可。

res = requests.get('https://translate.google.cn', timeout = 3)
 res.raise_for_status()
 result = re.search(r'tkk\:\'(\d+\.\d+)?\'', res.text).group(1)

划分文章段落

因为常从 PDF 里复制文本翻译,这样就不能依赖换行符来划分段落了。只能判断空行,作为段落的分界。

另外 Google 返回的结果 Json 里,会以英文句点作为分隔符,每一句译文均作为数组的一项分开。所以最后得合并一下,成为一个段落。

完整代码

代码不长,全文黏贴如下。

GoogleTranslator.py:
import requests
import re
import json
import time
class GoogleTranslator ():
 _host = 'translate.google.cn'
 _headers = {
 'Host': _host,
 'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Mobile Safari/537.36',
 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
 'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',
 'Accept-Encoding': 'gzip, deflate, br',
 'Content-Type': 'application/x-www-form-urlencoded;charset=utf-8',
 'Referer': 'https://' + _host,
 'Connection': 'keep-alive',
 'Cache-Control': 'max-age=0'
 }
 _language = {
 'afrikaans': 'af',
 'arabic': 'ar',
 'belarusian': 'be',
 'bulgarian': 'bg',
 'catalan': 'ca',
 'czech': 'cs',
 'welsh': 'cy',
 'danish': 'da',
 'german': 'de',
 'greek': 'el',
 'english': 'en',
 'esperanto': 'eo',
 'spanish': 'es',
 'estonian': 'et',
 'persian': 'fa',
 'finnish': 'fi',
 'french': 'fr',
 'irish': 'ga',
 'galician': 'gl',
 'hindi': 'hi',
 'croatian': 'hr',
 'hungarian': 'hu',
 'indonesian': 'id',
 'icelandic': 'is',
 'italian': 'it',
 'hebrew': 'iw',
 'japanese': 'ja',
 'korean': 'ko',
 'latin': 'la',
 'lithuanian': 'lt',
 'latvian': 'lv',
 'macedonian': 'mk',
 'malay': 'ms',
 'maltese': 'mt',
 'dutch': 'nl',
 'norwegian': 'no',
 'polish': 'pl',
 'portuguese': 'pt',
 'romanian': 'ro',
 'russian': 'ru',
 'slovak': 'sk',
 'slovenian': 'sl',
 'albanian': 'sq',
 'serbian': 'sr',
 'swedish': 'sv',
 'swahili': 'sw',
 'thai': 'th',
 'filipino': 'tl',
 'turkish': 'tr',
 'ukrainian': 'uk',
 'vietnamese': 'vi',
 'yiddish': 'yi',
 'chinese_simplified': 'zh-CN',
 'chinese_traditional': 'zh-TW',
 'auto': 'auto'
 }
 _url = 'https://' + _host + '/translate_a/single'
 _params = {
  'client': 'webapp',
  'sl': 'en',
  'tl': 'zh-CN',
  'hl': 'zh-CN',
  'dt': 'at',
  'dt': 'bd',
  'dt': 'ex',
  'dt': 'ld',
  'dt': 'md',
  'dt': 'qca',
  'dt': 'rw',
  'dt': 'rm',
  'dt': 'ss',
  'dt': 't',
  'otf': '1',
  'ssel': '0',
  'tsel': '0',
  'kc': '1'
 }
 __cookies = None
 __googleTokenKey = '376032.257956'
 __googleTokenKeyUpdataTime = 600.0
 __googleTokenKeyRetireTime = time.time() + 600.0
 def __init__(self, src = 'en', dest = 'zh-CN', tkkUpdataTime = 600.0):
 if src not in self._language and src not in self._language.values():
  src = 'auto'
 if dest not in self._language and dest not in self._language.values():
  dest = 'auto'
 self._params['sl'] = src
 self._params['tl'] = dest
 self.googleTokenKeyUpdataTime = tkkUpdataTime
 self.__updateGoogleTokenKey()
 def __updateGoogleTokenKey(self):
 self.__googleTokenKey = self.__getGoogleTokenKey()
 self.__googleTokenKeyRetireTime = time.time() + self.__googleTokenKeyUpdataTime
 def __getGoogleTokenKey(self):
 """Get the Google TKK from https://translate.google.cn"""
 # TKK example: '435075.3634891900'
 result = ''
 try:
  res = requests.get('https://' + self._host, timeout = 3)
  res.raise_for_status()
  self.__cookies = res.cookies
  result = re.search(r'tkk\:\'(\d+\.\d+)?\'', res.text).group(1)
 except requests.exceptions.ReadTimeout as ex:
  print('ERROR: ' + str(ex))
  time.sleep(1)
 return result
 def __getGoogleToken(self, a, TKK):
 """Calculate Google tk from TKK """
 # https://www.cnblogs.com/chicsky/p/7443830.html
 # if text = 'Tablet Developer' and TKK = '435102.3120524463', then tk = '315066.159012'
 def RL(a, b):
  for d in range(0, len(b)-2, 3):
  c = b[d + 2]
  c = ord(c[0]) - 87 if 'a' <= c else int(c)
  c = a >> c if '+' == b[d + 1] else a << c
  a = a + c & 4294967295 if '+' == b[d] else a ^ c
  return a
 g = []
 f = 0
 while f < len(a):
  c = ord(a[f])
  if 128 > c:
  g.append(c)
  else:
  if 2048 > c:
   g.append((c >> 6) | 192)
  else:
   if (55296 == (c & 64512)) and (f + 1 < len(a)) and (56320 == (ord(a[f+1]) & 64512)):
   f += 1
   c = 65536 + ((c & 1023) << 10) + (ord(a[f]) & 1023)
   g.append((c >> 18) | 240)
   g.append((c >> 12) & 63 | 128)
   else:
   g.append((c >> 12) | 224)
   g.append((c >> 6) & 63 | 128)
  g.append((c & 63) | 128)
  f += 1
 e = TKK.split('.')
 h = int(e[0]) or 0
 t = h
 for item in g:
  t += item
  t = RL(t, '+-a^+6')
 t = RL(t, '+-3^+b+-f')
 t ^= int(e[1]) or 0
 if 0 > t:
  t = (t & 2147483647) + 2147483648
 result = t % 1000000
 return str(result) + '.' + str(result ^ h)
 def translate(self, text):
 if time.time() > self.__googleTokenKeyRetireTime:
  self.__updateGoogleTokenKey()
 data = {'q': text}
 self._params['tk'] = self.__getGoogleToken(text, self.__googleTokenKey)
 result = ''
 try:
  res = requests.post(self._url,
    headers = self._headers,
    cookies = self.__cookies,
    data = data,
    params = self._params,
    timeout = 6)
  res.raise_for_status()
  jsonText = res.text
  if len(jsonText)>0:
  jsonResult = json.loads(jsonText)
  if len(jsonResult[0])>0:
   for item in jsonResult[0]:
   result += item[0]
  return result
 except Exception as ex:
  print('ERROR: ' + str(ex))
  return ''
import time
from GoogleTranslator import GoogleTranslator
def readFile(fileName):
 with open(fileName, 'r') as f:
 paragraph = ''
 for line in f:
  if line[0]!='\n':
  paragraph += line.strip('\n')
  else:
  if len(paragraph)>0:
   yield paragraph
   paragraph = ''
 if len(paragraph)>0:
  yield paragraph
main.py:
def main():
 translator = GoogleTranslator()
 count = 0
 with open('C:\\dx\\python\\d.txt', 'w', encoding='utf-8') as df:
 for line in readFile('C:\\dx\\python\\s.txt'):
  if len(line) > 1:
  count += 1
  print('\r' + str(count), end = '', flush = True)
  df.write(line.strip() + "\n")
  result = translator.translate(line)
  df.write(result.strip() + "\n\n")
if __name__ == "__main__":
 startTime = time.time()
 main()
 print()
 print('%.2f seconds' % (time.time() - startTime))

总结

以上所述是小编给大家介绍的Python 实现的 Google 批量翻译功能,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

Python 相关文章推荐
Python3中常用的处理时间和实现定时任务的方法的介绍
Apr 07 Python
python实现百度语音识别api
Apr 10 Python
Python3利用Dlib实现摄像头实时人脸检测和平铺显示示例
Feb 21 Python
django中ORM模型常用的字段的使用方法
Mar 05 Python
python适合人工智能的理由和优势
Jun 28 Python
python 利用浏览器 Cookie 模拟登录的用户访问知乎的方法
Jul 11 Python
python并发爬虫实用工具tomorrow实用解析
Sep 25 Python
python将字母转化为数字实例方法
Oct 04 Python
Python中低维数组填充高维数组的实现
Dec 02 Python
解决pycharm同一目录下无法import其他文件
Feb 12 Python
基于Python数据分析之pandas统计分析
Mar 03 Python
Pycharm创建文件时自动生成文件头注释(自定义设置作者日期)
Nov 24 Python
python自动化工具之pywinauto实例详解
Aug 26 #Python
Python3简单爬虫抓取网页图片代码实例
Aug 26 #Python
python 数据提取及拆分的实现代码
Aug 26 #Python
Python3 使用pillow库生成随机验证码
Aug 26 #Python
python excel转换csv代码实例
Aug 26 #Python
对YOLOv3模型调用时候的python接口详解
Aug 26 #Python
pandas条件组合筛选和按范围筛选的示例代码
Aug 26 #Python
You might like
PHP4实际应用经验篇(7)
2006/10/09 PHP
php笔记之常用文件操作
2010/10/12 PHP
php中判断字符串是否全是中文或含有中文的实现代码
2011/09/16 PHP
在WordPress中使用wp_count_posts函数来统计文章数量
2016/01/05 PHP
简单的pgsql pdo php操作类实现代码
2016/08/25 PHP
PHP levenshtein()函数用法讲解
2019/03/08 PHP
asp.net下使用jquery 的ajax+WebService+json 实现无刷新取后台值的实现代码
2010/09/19 Javascript
jquery的index方法实现tab效果
2011/02/16 Javascript
jquery图片延迟加载 前端开发技能必备系列
2012/06/18 Javascript
网站如何做到完全不需要jQuery也可以满足简单需求
2013/06/27 Javascript
单元选择合并变色示例代码
2014/05/26 Javascript
微信小程序之小豆瓣图书实例
2016/11/30 Javascript
Vue.js tab实现选项卡切换
2017/05/16 Javascript
浅谈vue实现数据监听的函数 Object.defineProperty
2017/06/08 Javascript
原JS实现banner图的常用功能
2017/06/12 Javascript
bootstrap可编辑下拉框jquery.editable-select
2017/10/12 jQuery
layui关闭层级、简单监听的实例
2019/09/06 Javascript
JavaScript前端实现压缩图片功能
2020/03/06 Javascript
[40:03]DOTA2上海特级锦标赛主赛事日 - 1 败者组第一轮#1EHOME VS Archon
2016/03/02 DOTA
python制作websocket服务器实例分享
2016/11/20 Python
python strip() 函数和 split() 函数的详解及实例
2017/02/03 Python
python使用ddt过程中遇到的问题及解决方案【推荐】
2018/10/29 Python
python定时复制远程文件夹中所有文件
2019/04/30 Python
pandas DataFrame 行列索引及值的获取的方法
2019/07/02 Python
PYTHON实现SIGN签名的过程解析
2019/10/28 Python
python 消除 futureWarning问题的解决
2019/12/25 Python
python GUI库图形界面开发之PyQt5滚动条控件QScrollBar详细使用方法与实例
2020/03/06 Python
python3爬虫中多线程进行解锁操作实例
2020/11/25 Python
建筑个人求职信范文
2014/01/25 职场文书
小学生秋游活动方案
2014/02/23 职场文书
公司年会抽奖活动主持词
2014/03/31 职场文书
小学安全汇报材料
2014/08/14 职场文书
初中生300字旷课检讨书
2014/11/19 职场文书
Python图像处理之图像拼接
2021/04/28 Python
Django与数据库交互的实现
2021/06/03 Python
Win11控制面板快捷键是什么?Win11打开控制面板的方法汇总
2022/07/07 数码科技