python 3利用BeautifulSoup抓取div标签的方法示例


Posted in Python onMay 28, 2017

前言

本文主要介绍的是关于python 3用BeautifulSoup抓取div标签的方法示例,分享出来供大家参考学习,下面来看看详细的介绍:

示例代码:

# -*- coding:utf-8 -*-
#python 2.7
#XiaoDeng
#http://tieba.baidu.com/p/2460150866
#标签操作


from bs4 import BeautifulSoup
import urllib.request
import re


#如果是网址,可以用这个办法来读取网页
#html_doc = "http://tieba.baidu.com/p/2460150866"
#req = urllib.request.Request(html_doc) 
#webpage = urllib.request.urlopen(req) 
#html = webpage.read()



html="""
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" rel="external nofollow" class="sister" id="xiaodeng"><!-- Elsie --></a>,
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" rel="external nofollow" class="sister" id="link3">Tillie</a>;
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng">Lacie</a>
and they lived at the bottom of a well.</p>
<div class="ntopbar_loading"><img src="http://simg.sinajs.cn/blog7style/images/common/loading.gif">加载中…</div>

<div class="SG_connHead">
   <span class="title" comp_title="个人资料">个人资料</span>
   <span class="edit">
      </span>
<div class="info_list">  
         <ul class="info_list1">
     <li><span class="SG_txtc">博客等级:</span><span id="comp_901_grade"><img src="http://simg.sinajs.cn/blog7style/images/common/sg_trans.gif" real_src="http://simg.sinajs.cn/blog7style/images/common/number/9.gif" /></span></li>
     <li><span class="SG_txtc">博客积分:</span><span id="comp_901_score"><strong>0</strong></span></li>
     </ul>
     <ul class="info_list2">
     <li><span class="SG_txtc">博客访问:</span><span id="comp_901_pv"><strong>3,971</strong></span></li>
     <li><span class="SG_txtc">关注人气:</span><span id="comp_901_attention"><strong>0</strong></span></li>
     <li><span class="SG_txtc">获赠金笔:</span><strong id="comp_901_d_goldpen">0支</strong></li>
     <li><span class="SG_txtc">赠出金笔:</span><strong id="comp_901_r_goldpen">0支</strong></li>
     <li class="lisp" id="comp_901_badge"><span class="SG_txtc">荣誉徽章:</span></li>
     </ul>
     </div>
<div class="atcTit_more"><span class="SG_more"><a href="http://blog.sina.com.cn/" rel="external nofollow" rel="external nofollow" target="_blank">更多>></a></span></div>     
<p class="story">...</p>
"""
soup = BeautifulSoup(html, 'html.parser') #文档对象



# 类名为xxx而且文本内容为hahaha的div
for k in soup.find_all('div',class_='atcTit_more'):#,string='更多'
 print(k)
 #<div class="atcTit_more"><span class="SG_more"><a href="http://blog.sina.com.cn/" rel="external nofollow" rel="external nofollow" target="_blank">更多>></a></span></div>

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家三水点靠木的支持。

Python 相关文章推荐
解读Python中degrees()方法的使用
May 18 Python
python3.5 + PyQt5 +Eric6 实现的一个计算器代码
Mar 11 Python
Python 转义字符详细介绍
Mar 21 Python
Sublime开发python程序的示例代码
Jan 24 Python
python实现在遍历列表时,直接对dict元素增加字段的方法
Jan 15 Python
在python中实现同行输入/接收多个数据的示例
Jul 20 Python
Python使用__new__()方法为对象分配内存及返回对象的引用示例
Sep 20 Python
python 实现保存最新的三份文件,其余的都删掉
Dec 22 Python
Tensorflow轻松实现XOR运算的方式
Feb 03 Python
pytorch实现seq2seq时对loss进行mask的方式
Feb 18 Python
Django 构建模板form表单的两种方法
Jun 14 Python
使用pandas实现筛选出指定列值所对应的行
Dec 13 Python
Python虚拟环境virtualenv的安装与使用详解
May 28 #Python
python 调用win32pai 操作cmd的方法
May 28 #Python
Python 稀疏矩阵-sparse 存储和转换
May 27 #Python
Django基础之Model操作步骤(介绍)
May 27 #Python
python之PyMongo使用总结
May 26 #Python
Python3安装Pymongo详细步骤
May 26 #Python
Python计时相关操作详解【time,datetime】
May 26 #Python
You might like
PHP zlib扩展实现页面GZIP压缩输出
2010/06/17 PHP
PHP判断一个gif图片是否为动态图片的方法
2014/11/19 PHP
9个比较实用的php代码片段
2016/03/15 PHP
使用php实现从身份证中提取生日
2016/05/09 PHP
利用js获取服务器时间的两个简单方法
2010/01/08 Javascript
JavaScript 面向对象编程(2) 定义类
2010/05/18 Javascript
Jqyery中同等与js中windows.onload的应用
2011/05/10 Javascript
基于jquery的跟随屏幕滚动代码
2012/07/24 Javascript
纯jquery实现模仿淘宝购物车结算
2015/08/20 Javascript
JavaScript实现Fly Bird小游戏
2016/12/15 Javascript
JavaScript中Require调用js的实例分享
2017/10/27 Javascript
webpack引入eslint配置详解
2018/01/22 Javascript
AjaxUpLoad.js实现文件上传
2018/03/05 Javascript
vue-router history模式下的微信分享小结
2018/07/05 Javascript
vue倒计时刷新页面不会从头开始的解决方法
2020/03/03 Javascript
详解vue路由
2020/08/05 Javascript
element-plus一个vue3.xUI框架(element-ui的3.x 版初体验)
2020/12/02 Vue.js
在Python中使用全局日志时需要注意的问题
2015/05/06 Python
PHP网页抓取之抓取百度贴吧邮箱数据代码分享
2016/04/13 Python
python3.7.0的安装步骤
2018/08/27 Python
python 使用poster模块进行http方式的文件传输到服务器的方法
2019/01/15 Python
python实现自动解数独小程序
2019/01/21 Python
python retrying模块的使用方法详解
2019/09/25 Python
美国和加拿大计算机和电子产品购物网站:TigerDirect.com
2019/09/13 全球购物
加拿大服装和鞋类零售商:Mark’s
2021/01/04 全球购物
机电专业毕业生推荐信
2013/11/10 职场文书
实习自我鉴定
2013/12/15 职场文书
银行员工辞职信范文
2014/01/20 职场文书
建筑系毕业生自我鉴定
2014/01/24 职场文书
市场开发与营销专业求职信范文
2014/05/01 职场文书
2015年大学生党员承诺书
2015/04/27 职场文书
2016年助残日旅游活动总结
2016/04/01 职场文书
Pytest实现setup和teardown的详细使用详解
2021/04/17 Python
教你怎么用Python实现GIF动图的提取及合成
2021/06/15 Python
Python创建SQL数据库流程逐步讲解
2022/09/23 Python
postgresql如何找到表中重复数据的行并删除
2023/05/08 MySQL