python 3利用BeautifulSoup抓取div标签的方法示例


Posted in Python onMay 28, 2017

前言

本文主要介绍的是关于python 3用BeautifulSoup抓取div标签的方法示例,分享出来供大家参考学习,下面来看看详细的介绍:

示例代码:

# -*- coding:utf-8 -*-
#python 2.7
#XiaoDeng
#http://tieba.baidu.com/p/2460150866
#标签操作


from bs4 import BeautifulSoup
import urllib.request
import re


#如果是网址,可以用这个办法来读取网页
#html_doc = "http://tieba.baidu.com/p/2460150866"
#req = urllib.request.Request(html_doc) 
#webpage = urllib.request.urlopen(req) 
#html = webpage.read()



html="""
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" rel="external nofollow" class="sister" id="xiaodeng"><!-- Elsie --></a>,
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" rel="external nofollow" class="sister" id="link3">Tillie</a>;
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng">Lacie</a>
and they lived at the bottom of a well.</p>
<div class="ntopbar_loading"><img src="http://simg.sinajs.cn/blog7style/images/common/loading.gif">加载中…</div>

<div class="SG_connHead">
   <span class="title" comp_title="个人资料">个人资料</span>
   <span class="edit">
      </span>
<div class="info_list">  
         <ul class="info_list1">
     <li><span class="SG_txtc">博客等级:</span><span id="comp_901_grade"><img src="http://simg.sinajs.cn/blog7style/images/common/sg_trans.gif" real_src="http://simg.sinajs.cn/blog7style/images/common/number/9.gif" /></span></li>
     <li><span class="SG_txtc">博客积分:</span><span id="comp_901_score"><strong>0</strong></span></li>
     </ul>
     <ul class="info_list2">
     <li><span class="SG_txtc">博客访问:</span><span id="comp_901_pv"><strong>3,971</strong></span></li>
     <li><span class="SG_txtc">关注人气:</span><span id="comp_901_attention"><strong>0</strong></span></li>
     <li><span class="SG_txtc">获赠金笔:</span><strong id="comp_901_d_goldpen">0支</strong></li>
     <li><span class="SG_txtc">赠出金笔:</span><strong id="comp_901_r_goldpen">0支</strong></li>
     <li class="lisp" id="comp_901_badge"><span class="SG_txtc">荣誉徽章:</span></li>
     </ul>
     </div>
<div class="atcTit_more"><span class="SG_more"><a href="http://blog.sina.com.cn/" rel="external nofollow" rel="external nofollow" target="_blank">更多>></a></span></div>     
<p class="story">...</p>
"""
soup = BeautifulSoup(html, 'html.parser') #文档对象



# 类名为xxx而且文本内容为hahaha的div
for k in soup.find_all('div',class_='atcTit_more'):#,string='更多'
 print(k)
 #<div class="atcTit_more"><span class="SG_more"><a href="http://blog.sina.com.cn/" rel="external nofollow" rel="external nofollow" target="_blank">更多>></a></span></div>

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家三水点靠木的支持。

Python 相关文章推荐
python 实现文件的递归拷贝实现代码
Aug 02 Python
python算法学习之计数排序实例
Dec 18 Python
Python中处理字符串的相关的len()方法的使用简介
May 19 Python
Python的语言类型(详解)
Jun 24 Python
python十进制和二进制的转换方法(含浮点数)
Jul 07 Python
python3 cvs将数据读取为字典的方法
Dec 22 Python
Python中捕获键盘的方式详解
Mar 28 Python
使用Python操作FTP实现上传和下载的方法
Apr 01 Python
Python批量生成幻影坦克图片实例代码
Jun 04 Python
python 非线性规划方式(scipy.optimize.minimize)
Feb 11 Python
详解Python中__new__方法的作用
Mar 31 Python
Python捕获、播放和保存摄像头视频并提高视频清晰度和对比度
Apr 14 Python
Python虚拟环境virtualenv的安装与使用详解
May 28 #Python
python 调用win32pai 操作cmd的方法
May 28 #Python
Python 稀疏矩阵-sparse 存储和转换
May 27 #Python
Django基础之Model操作步骤(介绍)
May 27 #Python
python之PyMongo使用总结
May 26 #Python
Python3安装Pymongo详细步骤
May 26 #Python
Python计时相关操作详解【time,datetime】
May 26 #Python
You might like
php遍历数组的方法分享
2012/03/22 PHP
php获取qq用户昵称和在线状态(实例分析)
2013/10/27 PHP
TP3.2.3框架文件上传操作实例详解
2020/01/23 PHP
php设计模式之享元模式分析【星际争霸游戏案例】
2020/03/23 PHP
PHP网站常见安全漏洞,及相应防范措施总结
2021/03/01 PHP
javascript 子窗体父窗体相互传值方法
2010/05/31 Javascript
js跨域问题之跨域iframe自适应大小实现代码
2010/07/17 Javascript
js getBoundingClientRect() 来获取页面元素的位置
2010/11/25 Javascript
Javascript调用C#代码
2011/01/17 Javascript
js日期时间补零的小例子
2013/03/05 Javascript
深入浅析JavaScript中对事件的三种监听方式
2015/09/29 Javascript
理解javascript中的严格模式
2016/02/01 Javascript
BootStrap实现带关闭按钮功能
2017/02/15 Javascript
vue-router 中router-view不能渲染的解决方法
2017/05/23 Javascript
vue、react等单页面项目应该这样子部署到服务器
2018/01/03 Javascript
JavaScript实现随机点名器实例详解
2019/05/07 Javascript
JavaScript原型式继承实现方法
2019/11/06 Javascript
使用vue-cli3+typescript的项目模板创建工程的教程
2020/02/28 Javascript
[01:46]TI4西雅图DOTA2前线报道 中国选手抱团调时差
2014/07/08 DOTA
python中使用百度音乐搜索的api下载指定歌曲的lrc歌词
2014/07/18 Python
Python列表切片用法示例
2017/04/19 Python
Python3实现发送QQ邮件功能(文本)
2017/12/15 Python
利用pandas将numpy数组导出生成excel的实例
2018/06/14 Python
Python使用sklearn库实现的各种分类算法简单应用小结
2019/07/04 Python
Python csv模块使用方法代码实例
2019/08/29 Python
详解CSS3伸缩布局盒模型Flex布局
2018/08/20 HTML / CSS
CSS3实现文字描边的2种方法(小结)
2020/02/14 HTML / CSS
HTML5中5个简单实用的API
2014/04/28 HTML / CSS
太阳镜仓库,售价20美元或更少:Sunglass Warehouse
2016/09/28 全球购物
意大利时尚精品店:Nugnes 1920
2020/02/10 全球购物
非功能性需求都包括哪些方面
2013/10/29 面试题
金额转换,阿拉伯数字的金额转换成中国传统的形式如:(¥1011)-> (一千零一拾一元整)输出
2015/05/29 面试题
小学二年级评语
2014/04/21 职场文书
乡镇党委书记个人整改措施
2014/09/15 职场文书
求职信内容一般写什么?
2015/03/20 职场文书
工程资料员岗位职责
2015/04/13 职场文书