编程 Python

Python使用BeautifulSoup4修改网页内容

Posted in Python onMay 20, 2022

最近有个小项目，需要爬取页面上相应的资源数据后，保存到本地，然后将原始的HTML源文件保存下来，对HTML页面的内容进行修改将某些标签整个给替换掉。

对于这类需要对HTML进行操作的需求，最方便的莫过于 BeautifulSoup4 的库了。

样例的HTML代码如下：

<html>
<body>
    <a class="videoslide" href="http://www.test.com/wp-content/uploads/1020/1381824922.JPG" rel="external nofollow"  rel="external nofollow" >
       <img src="http://www.test.com/wp-content/uploads/1020/1381824922_zy_compress.JPG" data-zy-media-id="zy_location_201310151613422786"/>
    </a>
    <a href="http://www.test.com/wp-content/uploads/1020/第一张_1381824798.JPG" rel="external nofollow"  rel="external nofollow" >
       <img data-zy-media-id="zy_image_201310151613169945" src="http://www.test.com/wp-content/uploads/1020/第一张_1381824798_zy_compress.JPG"/></a>
    <a href="http://www.test.com/wp-content/uploads/1020/第二张_1381824796.jpg" rel="external nofollow"  rel="external nofollow" >
       <img data-zy-media-id="zy_image_201310151613163009" src="http://www.test.com/wp-content/uploads/1020/第二张_1381824796_zy_compress.jpg"/>
    </a>
    <a href="http://www.test.com/wp-content/uploads/1020/第三张.jpg" rel="external nofollow"  rel="external nofollow" >
       <img data-zy-media-id="zy_image_201312311838584446" src="http://www.test.com/wp-content/uploads/1020/第三张_zy_compress.jpg"/>
    </a>
</body>
</html>

这里主要包括了 <a > 标签， <a > 标签里面嵌入了 <img > 标签，其中有 <a class="videoslide"> 的标识该标签实际是可以播放动画的。需要根据 class="videoslide" 来判断将整个 <a > 标签换成播放器的 <video > 标签，将没有 class="videoslide" 的 <a > 标签换成 <figure> 标签。

也就是将带有的 <a class="videoslide" ...><img ... /></a> 标签换成

<div class="video">
<video controls width="100%" poster="视频链接的图片地址.jpg">
    <source src="视频文件的静态地址.mp4" type="video/mp4" />
    您的浏览器不支持H5视频，请使用Chrome/Firefox/Edge浏览器。
</video>
</div>

将 <a ....><img .../></a> 标签换成

<figure>
    < img src="图片地址_compressed.jpg" data-zy-media-id="图片地址.jpg">
    <figcaption>文字说明（如果有）</figcaption>
</figure>

这里通过BeautifulSoup4 的select()方法找到标签，通过get()方法获取标签及标签属性值，通过replaceWith来替换标签，具体代码如下：

首先安装BeautifulSoup4的库，BeautifulSoup4库依赖于lxml库，所以也需要安装lxml库。

pip install bs4
pip install lxml

具体代码实现如下：

import os
from bs4 import BeautifulSoup
htmlstr='<html><body>' \
        '<a class="videoslide" href="http://www.test.com/wp-content/uploads/1020/1381824922.JPG" rel="external nofollow"  rel="external nofollow" >' \
        '<img src="http://www.test.com/wp-content/uploads/1020/1381824922_zy_compress.JPG" data-zy-media-id="zy_location_201310151613422786"/></a>' \
        '<a href="http://www.test.com/wp-content/uploads/1020/第一张_1381824798.JPG" rel="external nofollow"  rel="external nofollow" >' \
        '<img data-zy-media-id="zy_image_201310151613169945" src="http://www.test.com/wp-content/uploads/1020/第一张_1381824798_zy_compress.JPG"/></a>' \
        '<a href="http://www.test.com/wp-content/uploads/1020/第二张_1381824796.jpg" rel="external nofollow"  rel="external nofollow" >' \
        '<img data-zy-media-id="zy_image_201310151613163009" src="http://www.test.com/wp-content/uploads/1020/第二张_1381824796_zy_compress.jpg"/></a>' \
        '<a href="http://www.test.com/wp-content/uploads/1020/第三张.jpg" rel="external nofollow"  rel="external nofollow" >' \
        '<img data-zy-media-id="zy_image_201312311838584446" src="http://www.test.com/wp-content/uploads/1020/第三张_zy_compress.jpg"/></a>' \
        '</body></html>'

def procHtml(htmlstr):
    soup = BeautifulSoup(htmlstr, 'lxml')
    a_tags=soup.select('a')
    for a_tag in a_tags:
        a_tag_src = a_tag.get('href')
        a_tag_filename = os.path.basename(a_tag_src)
        a_tag_path = os.path.join('src', a_tag_filename)
        a_tag['href']=a_tag_path
        next_tag=a_tag.next
        #判断是视频还是图片，如果a标签带了class="videoslide" 是视频否则是图片
        if a_tag.get('class') and 'videoslide'==a_tag.get('class')[0]:
            # 处理视频文件
            media_id = next_tag.get('data-zy-media-id')
            if media_id:
                media_url = 'http://www.test.com/travel/show_media/' + str(media_id)+'.mp4'
                media_filename = os.path.basename(media_url)
                media_path = os.path.join('src', media_filename)
                # 将div.video标签替换a标签
                video_html = '<div class=\"video\"><video controls width = \"100%\" poster = \"' + a_tag_path + '\" ><source src = \"' + media_path + '\" type = \"video/mp4\" /> 您的浏览器不支持H5视频，请使用Chrome / Firefox / Edge浏览器。 </video></div>'
                video_soup = BeautifulSoup(video_html, 'lxml')
                a_tag.replaceWith(video_soup.div)
        else:
            #获取图片信息
            if 'img'==next_tag.name:
                img_src=next_tag.get('src')
                # 判断是否路径是否为本地资源 data:image和file:
                if img_src.find('data:image') == -1 and img_src.find('file:') == -1:
                    img_filename = os.path.basename(img_src)
                    img_path = os.path.join('src', img_filename)
                    # 将<figure><img>标签替换a标签
                    figcaption=''
                    figure_html='<figure><img src=\"'+img_path+'\" data-zy-media-id=\"'+a_tag_path+'\"><figcaption>'+figcaption+'</figcaption></figure>'
                    figure_soup = BeautifulSoup(figure_html, 'lxml')
                    a_tag.replaceWith(figure_soup.figure)
    html_content = soup.contents[0]
    return html_content

if __name__ == '__main__':
    pro_html_str=procHtml(htmlstr)
    print(pro_html_str)

结果:

<html>
<body>
<div class="video">
<video controls="" poster="src\1381824922.JPG" width="100%">
<source src="src\zy_location_201310151613422786.mp4" type="video/mp4"/> 您的浏览器不支持H5视频，请使用Chrome / Firefox / Edge浏览器。 
</video>
</div>
<figure>
<img data-zy-media-id="src\第一张_1381824798.JPG" src="src\第一张_1381824798_zy_compress.JPG"/>
<figcaption></figcaption>
</figure>
<figure>
<img data-zy-media-id="src\第二张_1381824796.jpg" src="src\第二张_1381824796_zy_compress.jpg"/>
<figcaption></figcaption></figure>
<figure>
<img data-zy-media-id="src\第三张.jpg" src="src\第三张_zy_compress.jpg"/>
<figcaption></figcaption>
</figure>
</body>
</html>

总结

到此这篇关于Python使用BeautifulSoup4修改网页内容的文章就介绍到这了！

Python使用BeautifulSoup4修改网页内容

- Author -

XieJava's blog

- Original Sources -

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Tags in this post...

BeautifulSoup4(2)

Python 相关文章推荐

使用Python的Django框架结合jQuery实现AJAX购物车页面

Apr 11 Python

Python实现的爬虫功能代码

Jun 24 Python

Python基于tkinter模块实现的改名小工具示例

Jul 27 Python

python图书管理系统

Apr 05 Python

Python实现获取nginx服务器ip及流量统计信息功能示例

May 18 Python

Python requests发送post请求的一些疑点

May 20 Python

用python标准库difflib比较两份文件的异同详解

Nov 16 Python

python的xpath获取div标签内html内容,实现innerhtml功能的方法

Jan 02 Python

python实现可逆简单的加密算法

Mar 22 Python

Python函数参数类型及排序原理总结

Dec 19 Python

Python3批量创建Crowd用户并分配组

May 20 Python

基于python计算滚动方差(标准差)talib和pd.rolling函数差异详解

Jun 08 Python

python标准库ElementTree处理xml

May 20 #Python

Python中使用tkFileDialog实现文件选择、保存和路径选择

May 20 #Python

Python Flask实现进度条

May 11 #Python

Python PIL按比例裁剪图片

May 11 #Python

python 学习GCN图卷积神经网络

May 11 #Python

Python+Pillow+Pytesseract实现验证码识别

May 11 #Python

Python 绘制多因子柱状图

D1835(1) ICF-SW55(1) 德生PL330(2) 飞利浦(2) ICF-SW7600GR(1) 德劲1103(3) PHILIPS(3) 德生9700DX(1) L4X25T(1) Panasonic(1)

You might like

丧钟首部独立剧集《丧钟：骑士与龙》北美正式开播，场面血腥

2020/04/09 欧美动漫

php pack与unpack 摸板字符字符含义

2009/10/29 PHP

PHP实现采集抓取淘宝网单个商品信息

2015/01/08 PHP

Yii2.0 模态弹出框+ajax提交表单

2016/05/22 PHP

php 解决扫描二维码下载跳转问题

2017/01/13 PHP

php学习笔记之mb_strstr的基本使用

2018/02/03 PHP

php无限级评论嵌套实现代码

2018/04/18 PHP

PHP聊天室简单实现方法详解

2018/12/08 PHP

prototype 1.5 & scriptaculous 1.6.1 学习笔记

2006/09/07 Javascript

javascript新手语法小结

2008/06/15 Javascript

javascript 动态设置已知select的option的value值的代码

2009/12/16 Javascript

3分钟写出来的Jquery版checkbox全选反选功能

2013/10/23 Javascript

JS简单操作select和dropdownlist实例

2014/11/26 Javascript

不使用ajax实现无刷新提交表单

2014/12/21 Javascript

jQuery图片特效插件Revealing实现拉伸放大

2015/04/22 Javascript

JavaScript计算某一天是星期几的方法

2015/08/05 Javascript

Bootstrap中的Panel和Table全面解析

2016/06/13 Javascript

BootStrap下拉框在firefox浏览器界面不友好的解决方案

2016/08/18 Javascript

Js获取当前日期时间及格式化代码

2016/09/17 Javascript

CheckBox多选取值及判断CheckBox选中是否为空的实例

2017/10/31 Javascript

小程序视频列表中视频的播放与停止的示例代码

2018/07/20 Javascript

vue项目前端埋点的实现

2019/03/06 Javascript

[06:38]DOTA2怒掀电竞风暴 2013Chinajoy

2013/07/27 DOTA

Python 创建子进程模块subprocess详解

2015/04/08 Python

Python中文竖排显示的方法

2015/07/28 Python

Flask 让jsonify返回的json串支持中文显示的方法

2018/03/26 Python

Python使用requests提交HTTP表单的方法

2018/12/26 Python

python实践项目之监控当前联网状态详情

2019/05/23 Python

django创建最简单HTML页面跳转方法

2019/08/16 Python

Python序列化pickle模块使用详解

2020/03/05 Python

使用css3绘制出各种几何图形

2016/08/17 HTML / CSS

建筑结构施工求职信

2014/07/11 职场文书

电子商务专业求职信范文

2015/03/19 职场文书

2015年农村党员干部主题教育活动总结

2015/03/25 职场文书

学校食堂管理制度

2015/08/04 职场文书

Java9新特性之Module模块化编程示例演绎

2022/03/16 Java/Android