利用Python实现翻译HTML中的文本字符串


Posted in Python onJune 21, 2022

相信大家都用过浏览器的翻译网页功能,例如对于下图这个英文网页:

利用Python实现翻译HTML中的文本字符串

一键翻译成中文以后是这样的:

利用Python实现翻译HTML中的文本字符串

你可能会觉得这个功能很简单,不就是字符串替换吗?那你可以试一试把下面这个HTML片段中的<p>标签下面的英文翻译成中文。其它标签中的不要改动:

<div>
 <p>if you want to parse date and time, your could use <em>datetime</em>, by use this library, you can generate now time by one line code <span>datetime.datetime.now()</span> this is so easy.</p>
</div>

<em>标签中的datetime<span>标签中的datetime.datetime.now()不需要翻译。

你一拍脑袋,马上写出了下面这几行代码(假设你已经有了一个现成的translate()函数,传入英文,输出中文):

from lxml.html import fromstring
source = '''<div>
 <p>if you want to parse date and time, your could use <em>datetime</em>, by use this library, you can generate now time by one line code <span>datetime.datetime.now()</span> this is so easy.</p>
</div>
'''

selector = fromstring(source)
text_list = selector.xpath('//p/text()')
for text in text_list:
    chinese = translate(text)
    ...

当你写到这里,你应该会愣一下。因为你突然发现一个问题,怎么把中文替换回去?

不用尝试去百度了。在今天(2022-06-20)之前,整个中文网络里面,你找不到解决方法。

一个比较笨的办法是直接对原始的HTML字符串进行文本替换:

for text in text_list:
    chinese = translate(text)
    source = source.replace(text, chinese)

但这样做,效率非常低。因为你要不停扫描整个HTML字符串。一般一个中型网站的HTML就有几千上万行,十几二十万个字符。你每翻译一小段就全文替换一次,这个时间会非常漫长。

那有没有办法只对当前这一个<p>标签里面的文本进行替换呢?关键的问题来了,你替换可以,但是怎么才能不影响这个<p>标签下面的两个子标签?要保证文本和子标签的相对位置不改变。

如果<p>标签下面只有一段文本,没有子标签,那么非常简单,如下图所示:

利用Python实现翻译HTML中的文本字符串

但现在的问题是,<p>标签下面有三段文本。每段文本之间还插入了其它的子标签。我们怎么样对每一段文本进行替换,但是又保持文本的相对顺序,并且还不能影响子标签?

利用Python实现翻译HTML中的文本字符串

p.text这种写法首先就可以排除了,因为它没有办法指定替换第几段文本。

你之所以会觉得这个问题很难解决,是因为你有一个错觉,请看上面这张截图,我打印了text_list。打印出来是一个包含字符串的列表。所以你可能会觉得。使用lxml写Xpath的时候,/text()返回的总是包含字符串的列表。

但实际上,返回的列表里面的元素并不是字符串,而是_ElementUnicodeResult对象。如下图所示:

利用Python实现翻译HTML中的文本字符串

不是字符串就简单了,那么我们可以获取每一个文本对象的父标签。然后修改父标签下面的文本就可以了。

看到这里,你肯定会问,这三个文本节点的父标签,不都是同一个<p>吗?如果你觉得是,那你就犯了想当然的错误。我们用代码来看看:

利用Python实现翻译HTML中的文本字符串

其实只有第一段文本的父标签是<p>。第二段文本的父标签,竟然是<p>的子标签<em>。第三段文本的父标签,是<span>

等等,如果第二段文本的父标签是<em>,那么<em>datetime</em>里面的datetime的父标签是什么?它的父标签也是<em>!那么问题来了,<em>text()文本节点,怎么可能又是datetime,又是<p>下面的第二段文本呢?

实际上,<em>text()始终都是datetime。如下图所示:

利用Python实现翻译HTML中的文本字符串

那么,<p>的第二段文本跟这个<em>标签是什么关系?实际上,这个关系叫做tail。如下图所示:

利用Python实现翻译HTML中的文本字符串

在一个标签里面,只有第一段text是它真正的text(),如果这个标签有子标签,那么位于子标签后面的文本,是这个子标签的tail。只不过当我们在正则表达式里面写/text()的时候,lxml会帮我们把所有子标签的tail都算作当前标签的text。

我们可以使用文本节点的.is_text.is_tail来判断它属于哪种文本。最终运行效果如下图所示:

利用Python实现翻译HTML中的文本字符串

以上就是利用Python实现翻译HTML中的文本字符串的详细内容,更多关于Python翻译HTML中字符串的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python中使用select模块实现非阻塞的IO
Feb 03 Python
python通过get,post方式发送http请求和接收http响应的方法
May 26 Python
Pycharm编辑器技巧之自动导入模块详解
Jul 18 Python
Python 多线程的实例详解
Sep 07 Python
Python多重继承的方法解析执行顺序实例分析
May 26 Python
如何通过雪花算法用Python实现一个简单的发号器
Jul 03 Python
python列表每个元素同增同减和列表元素去空格的实例
Jul 20 Python
python使用HTMLTestRunner导出饼图分析报告的方法
Dec 30 Python
什么是Python中的顺序表
Jun 02 Python
通过实例解析Python文件操作实现步骤
Sep 21 Python
Python 实现绘制子图及子图刻度的变换等问题
May 31 Python
python 镜像环境搭建总结
Sep 23 Python
使用scrapy实现增量式爬取方式
Jun 21 #Python
python+opencv实现目标跟踪过程
Jun 21 #Python
使用opencv-python如何打开USB或者笔记本前置摄像头
Python+DeOldify实现老照片上色功能
Python使用Opencv打开笔记本电脑摄像头报错解问题及解决
Jun 21 #Python
virtualenv隔离Python环境的问题解析
Jun 21 #Python
pd.drop_duplicates删除重复行的方法实现
Jun 16 #Python
You might like
用js进行url编码后用php反解以及用php实现js的escape功能函数总结
2010/02/08 PHP
php安装ssh2扩展的方法【Linux平台】
2016/07/20 PHP
phpStudy中升级MySQL版本到5.7.17的方法步骤
2017/08/03 PHP
PHP+redis实现的限制抢购防止商品超发功能详解
2019/09/19 PHP
PHP获取真实IP及IP模拟方法解析
2020/11/24 PHP
使用Sticker.js实现贴纸效果
2015/01/28 Javascript
实例讲解使用原生JavaScript处理AJAX请求的方法
2016/05/10 Javascript
jQuery的 $.ajax防止重复提交的两种方法(推荐)
2016/10/14 Javascript
整理关于Bootstrap警示框的慕课笔记
2017/03/29 Javascript
node实现定时发送邮件的示例代码
2017/08/26 Javascript
vue自定义filters过滤器
2018/04/26 Javascript
Angularjs Ng_repeat中实现复选框选中并显示不同的样式方法
2018/09/12 Javascript
JavaScript 实现下雪特效的示例代码
2020/09/09 Javascript
[46:00]Ti4 冒泡赛第二轮LGD vs C9 2
2014/07/14 DOTA
[42:32]完美世界DOTA2联赛循环赛 Magma vs PXG BO2第二场 10.28
2020/10/28 DOTA
理解Python中的类与实例
2015/04/27 Python
Python求算数平方根和约数的方法汇总
2016/03/09 Python
PYTHON 中使用 GLOBAL引发的一系列问题
2016/10/12 Python
获取python文件扩展名和文件名方法
2018/02/02 Python
对命令行模式与python交互模式介绍
2018/05/12 Python
Python多重继承的方法解析执行顺序实例分析
2018/05/26 Python
python编程使用协程并发的优缺点
2018/09/20 Python
python找出一个列表中相同元素的多个索引实例
2019/06/11 Python
一行python实现树形结构的方法
2019/08/09 Python
Python异常原理及异常捕捉实现过程解析
2020/03/25 Python
解决pycharm下pyuic工具使用的问题
2020/04/08 Python
移动端HTML5 input常见问题(小结)
2020/09/28 HTML / CSS
Hobbs官方网站:英国奢华女性时尚服装
2020/02/22 全球购物
TecoBuy澳大利亚:在线电子和小工具商店
2020/06/25 全球购物
品学兼优的大学生自我评价
2013/09/20 职场文书
银行学习十八大感想
2014/01/11 职场文书
一年级班主任感言
2014/03/08 职场文书
岗位安全生产责任书
2014/07/28 职场文书
购房协议书范本
2014/10/02 职场文书
交通运输局四风问题对照检查材料思想汇报
2014/10/09 职场文书
创业计划书之餐饮馄饨店
2019/07/18 职场文书