python 3利用BeautifulSoup抓取div标签的方法示例


Posted in Python onMay 28, 2017

前言

本文主要介绍的是关于python 3用BeautifulSoup抓取div标签的方法示例,分享出来供大家参考学习,下面来看看详细的介绍:

示例代码:

# -*- coding:utf-8 -*-
#python 2.7
#XiaoDeng
#http://tieba.baidu.com/p/2460150866
#标签操作


from bs4 import BeautifulSoup
import urllib.request
import re


#如果是网址,可以用这个办法来读取网页
#html_doc = "http://tieba.baidu.com/p/2460150866"
#req = urllib.request.Request(html_doc) 
#webpage = urllib.request.urlopen(req) 
#html = webpage.read()



html="""
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" rel="external nofollow" class="sister" id="xiaodeng"><!-- Elsie --></a>,
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" rel="external nofollow" class="sister" id="link3">Tillie</a>;
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng">Lacie</a>
and they lived at the bottom of a well.</p>
<div class="ntopbar_loading"><img src="http://simg.sinajs.cn/blog7style/images/common/loading.gif">加载中…</div>

<div class="SG_connHead">
   <span class="title" comp_title="个人资料">个人资料</span>
   <span class="edit">
      </span>
<div class="info_list">  
         <ul class="info_list1">
     <li><span class="SG_txtc">博客等级:</span><span id="comp_901_grade"><img src="http://simg.sinajs.cn/blog7style/images/common/sg_trans.gif" real_src="http://simg.sinajs.cn/blog7style/images/common/number/9.gif" /></span></li>
     <li><span class="SG_txtc">博客积分:</span><span id="comp_901_score"><strong>0</strong></span></li>
     </ul>
     <ul class="info_list2">
     <li><span class="SG_txtc">博客访问:</span><span id="comp_901_pv"><strong>3,971</strong></span></li>
     <li><span class="SG_txtc">关注人气:</span><span id="comp_901_attention"><strong>0</strong></span></li>
     <li><span class="SG_txtc">获赠金笔:</span><strong id="comp_901_d_goldpen">0支</strong></li>
     <li><span class="SG_txtc">赠出金笔:</span><strong id="comp_901_r_goldpen">0支</strong></li>
     <li class="lisp" id="comp_901_badge"><span class="SG_txtc">荣誉徽章:</span></li>
     </ul>
     </div>
<div class="atcTit_more"><span class="SG_more"><a href="http://blog.sina.com.cn/" rel="external nofollow" rel="external nofollow" target="_blank">更多>></a></span></div>     
<p class="story">...</p>
"""
soup = BeautifulSoup(html, 'html.parser') #文档对象



# 类名为xxx而且文本内容为hahaha的div
for k in soup.find_all('div',class_='atcTit_more'):#,string='更多'
 print(k)
 #<div class="atcTit_more"><span class="SG_more"><a href="http://blog.sina.com.cn/" rel="external nofollow" rel="external nofollow" target="_blank">更多>></a></span></div>

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家三水点靠木的支持。

Python 相关文章推荐
python中文乱码的解决方法
Nov 04 Python
Python实现抓取HTML网页并以PDF文件形式保存的方法
May 08 Python
Python编程中flask的简介与简单使用
Dec 28 Python
Python字符串通过'+'和join函数拼接新字符串的性能测试比较
Mar 05 Python
15行Python代码实现网易云热门歌单实例教程
Mar 10 Python
Python3模拟curl发送post请求操作示例
May 03 Python
python识别图像并提取文字的实现方法
Jun 28 Python
Python configparser模块配置文件过程解析
Mar 03 Python
python实现贪吃蛇游戏源码
Mar 21 Python
解决jupyter notebook显示不全出现框框或者乱码问题
Apr 09 Python
python装饰器三种装饰模式的简单分析
Sep 04 Python
Python extract及contains方法代码实例
Sep 11 Python
Python虚拟环境virtualenv的安装与使用详解
May 28 #Python
python 调用win32pai 操作cmd的方法
May 28 #Python
Python 稀疏矩阵-sparse 存储和转换
May 27 #Python
Django基础之Model操作步骤(介绍)
May 27 #Python
python之PyMongo使用总结
May 26 #Python
Python3安装Pymongo详细步骤
May 26 #Python
Python计时相关操作详解【time,datetime】
May 26 #Python
You might like
给apache2.2加上mod_encoding模块後 php5.2.0 处理url出现bug
2007/04/12 PHP
CodeIgniter表单验证方法实例详解
2016/03/03 PHP
PHP中session跨子域的三种实现方法
2016/07/25 PHP
Dojo 学习笔记入门篇 First Dojo Example
2009/11/15 Javascript
JavaScript获取多个数组的交集简单实例
2013/11/11 Javascript
javascript面向对象之定义成员方法实例分析
2015/01/13 Javascript
js实现图片点击左右轮播
2015/07/08 Javascript
JavaScript实现窗口抖动效果
2016/10/19 Javascript
浅谈jQuery中事情的动态绑定
2017/02/12 Javascript
前端构建工具之gulp的配置与搭建详解
2017/06/12 Javascript
Vue中render函数的使用方法
2018/01/31 Javascript
Python常用正则表达式符号浅析
2014/08/13 Python
Python设计足球联赛赛程表程序的思路与简单实现示例
2016/06/28 Python
Python 实现12306登录功能实例代码
2018/02/09 Python
python opencv之分水岭算法示例
2018/02/24 Python
Python 查找字符在字符串中的位置实例
2018/05/02 Python
Python TCP通信客户端服务端代码实例
2019/11/21 Python
Python使用Turtle库绘制一棵西兰花
2019/11/23 Python
Python之Django自动实现html代码(下拉框,数据选择)
2020/03/13 Python
使用matlab 判断两个矩阵是否相等的实例
2020/05/11 Python
python matlab库简单用法讲解
2020/12/31 Python
Python图像处理之膨胀与腐蚀的操作
2021/02/07 Python
详解如何解决canvas图片getImageData,toDataURL跨域问题
2018/09/17 HTML / CSS
巴西宠物店在线:Geração Pet
2017/05/31 全球购物
能否解释一下XSS cookie盗窃是什么意思
2012/06/02 面试题
大学生新闻专业个人自我评价
2013/11/12 职场文书
美德好少年事迹材料
2014/01/19 职场文书
说明书格式及范文
2014/05/07 职场文书
开展读书活动总结
2014/06/30 职场文书
2015年大学生工作总结
2015/04/21 职场文书
学校勤俭节约倡议书
2015/04/29 职场文书
工作后的感想
2015/08/07 职场文书
争做文明公民倡议书
2019/06/24 职场文书
创业计划书之o2o水果店
2019/08/30 职场文书
Nginx进程管理和重载原理详解
2021/04/22 Servers
Django项目如何获得SSL证书与配置HTTPS
2021/04/30 Python