python 3利用BeautifulSoup抓取div标签的方法示例


Posted in Python onMay 28, 2017

前言

本文主要介绍的是关于python 3用BeautifulSoup抓取div标签的方法示例,分享出来供大家参考学习,下面来看看详细的介绍:

示例代码:

# -*- coding:utf-8 -*-
#python 2.7
#XiaoDeng
#http://tieba.baidu.com/p/2460150866
#标签操作


from bs4 import BeautifulSoup
import urllib.request
import re


#如果是网址,可以用这个办法来读取网页
#html_doc = "http://tieba.baidu.com/p/2460150866"
#req = urllib.request.Request(html_doc) 
#webpage = urllib.request.urlopen(req) 
#html = webpage.read()



html="""
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" rel="external nofollow" class="sister" id="xiaodeng"><!-- Elsie --></a>,
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" rel="external nofollow" class="sister" id="link3">Tillie</a>;
<a href="http://example.com/lacie" rel="external nofollow" rel="external nofollow" class="sister" id="xiaodeng">Lacie</a>
and they lived at the bottom of a well.</p>
<div class="ntopbar_loading"><img src="http://simg.sinajs.cn/blog7style/images/common/loading.gif">加载中…</div>

<div class="SG_connHead">
   <span class="title" comp_title="个人资料">个人资料</span>
   <span class="edit">
      </span>
<div class="info_list">  
         <ul class="info_list1">
     <li><span class="SG_txtc">博客等级:</span><span id="comp_901_grade"><img src="http://simg.sinajs.cn/blog7style/images/common/sg_trans.gif" real_src="http://simg.sinajs.cn/blog7style/images/common/number/9.gif" /></span></li>
     <li><span class="SG_txtc">博客积分:</span><span id="comp_901_score"><strong>0</strong></span></li>
     </ul>
     <ul class="info_list2">
     <li><span class="SG_txtc">博客访问:</span><span id="comp_901_pv"><strong>3,971</strong></span></li>
     <li><span class="SG_txtc">关注人气:</span><span id="comp_901_attention"><strong>0</strong></span></li>
     <li><span class="SG_txtc">获赠金笔:</span><strong id="comp_901_d_goldpen">0支</strong></li>
     <li><span class="SG_txtc">赠出金笔:</span><strong id="comp_901_r_goldpen">0支</strong></li>
     <li class="lisp" id="comp_901_badge"><span class="SG_txtc">荣誉徽章:</span></li>
     </ul>
     </div>
<div class="atcTit_more"><span class="SG_more"><a href="http://blog.sina.com.cn/" rel="external nofollow" rel="external nofollow" target="_blank">更多>></a></span></div>     
<p class="story">...</p>
"""
soup = BeautifulSoup(html, 'html.parser') #文档对象



# 类名为xxx而且文本内容为hahaha的div
for k in soup.find_all('div',class_='atcTit_more'):#,string='更多'
 print(k)
 #<div class="atcTit_more"><span class="SG_more"><a href="http://blog.sina.com.cn/" rel="external nofollow" rel="external nofollow" target="_blank">更多>></a></span></div>

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家三水点靠木的支持。

Python 相关文章推荐
使用Python写一个小游戏
Apr 02 Python
Python3.4学习笔记之列表、数组操作示例
Mar 01 Python
创建Django项目图文实例详解
Jun 06 Python
python多进程间通信代码实例
Sep 30 Python
python实现获取单向链表倒数第k个结点的值示例
Oct 24 Python
Python列表切片常用操作实例解析
Mar 10 Python
Ubuntu18.04安装 PyCharm并使用 Anaconda 管理的Python环境
Apr 08 Python
基于Python中random.sample()的替代方案
May 23 Python
python如何调用字典的key
May 25 Python
python 高阶函数简单介绍
Feb 19 Python
Django drf请求模块源码解析
Jun 08 Python
python使用torch随机初始化参数
Mar 22 Python
Python虚拟环境virtualenv的安装与使用详解
May 28 #Python
python 调用win32pai 操作cmd的方法
May 28 #Python
Python 稀疏矩阵-sparse 存储和转换
May 27 #Python
Django基础之Model操作步骤(介绍)
May 27 #Python
python之PyMongo使用总结
May 26 #Python
Python3安装Pymongo详细步骤
May 26 #Python
Python计时相关操作详解【time,datetime】
May 26 #Python
You might like
php面向对象全攻略 (六)__set() __get() __isset() __unset()的用法
2009/09/30 PHP
php 仿Comsenz安装效果代码打包提供下载
2010/05/09 PHP
在SAE上搭建最新wordpress的方法
2014/12/21 PHP
PHP利用Mysql锁解决高并发的方法
2018/09/04 PHP
国外Lightbox v2.03.3 最新版 下载
2007/10/17 Javascript
一个js写的日历(代码部分网摘)
2009/09/20 Javascript
jquery 获取自定义属性(attr和prop)的实现代码
2012/06/27 Javascript
jQuery动态添加删除select项(实现代码)
2013/09/03 Javascript
JS 仿腾讯发表微博的效果代码
2013/12/25 Javascript
抛弃Nginx使用nodejs做反向代理服务器
2014/07/17 NodeJs
JavaScript forEach()遍历函数使用及介绍
2015/07/08 Javascript
JS添加或修改控件的样式(Class)实现方法
2016/10/15 Javascript
jQuery.Form上传文件操作
2017/02/05 Javascript
nodejs项目windows下开机自启动的方法
2017/11/22 NodeJs
详解vue-cli快速构建vue应用并实现webpack打包
2017/12/13 Javascript
jQuery EasyUI 折叠面板accordion的使用实例(分享)
2017/12/25 jQuery
vue 引用自定义ttf、otf、在线字体的方法
2019/05/09 Javascript
vue + typescript + video.js实现 流媒体播放 视频监控功能
2019/07/07 Javascript
JavaScript字符和ASCII实现互相转换
2020/06/03 Javascript
使用Django Form解决表单数据无法动态刷新的两种方法
2017/07/14 Python
利用Python进行数据可视化常见的9种方法!超实用!
2018/07/11 Python
浅谈numpy生成数组的零值问题
2018/11/12 Python
django drf框架中的user验证以及JWT拓展的介绍
2019/08/12 Python
如何在python中实现随机选择
2019/11/02 Python
Matplotlib animation模块实现动态图
2021/02/25 Python
浅谈css3中的渐进增强和优雅降级
2017/12/01 HTML / CSS
印尼穆斯林时尚购物网站:Hijabenka
2016/12/10 全球购物
美国一家主打母婴用品的团购网站:zulily
2017/09/19 全球购物
英国露营设备和户外服装购物网站:Simply Hike
2019/05/05 全球购物
介绍一下JNDI的基本概念
2013/07/26 面试题
建筑施工员岗位职责
2013/11/26 职场文书
铁路安全事故反思
2014/04/26 职场文书
2014组织生活会方案
2014/05/19 职场文书
2014年校长工作总结
2014/12/11 职场文书
JavaScript 对象创建的3种方法
2021/11/17 Javascript
mysql如何查询连续记录
2022/05/11 MySQL