Python读取本地文件并解析网页元素的方法


Posted in Python onMay 21, 2018

如下所示:

from bs4 import BeautifulSoup
path = './web/new_index.html'
with open(path, 'r') as f:
 Soup = BeautifulSoup(f.read(), 'lxml')
 titles = Soup.select('ul > li > div.article-info > h3 > a')
for title in titles:
 print(title.text)

输出:
Sardinia's top 10 beaches
How to get tanned
How to be an Aussie beach bum
Summer's cheat sheet
#其中
titles = Soup.select('ul > li > div.article-info > h3 > a')
#等效
titles = Soup.select('h3 a')
print(title.text)
#等效
print(title.get_text())
print(title.string)

也可以使用以下代码

import bs4 
 
path = './web/new_index.html' 
 
with open(path, 'r') as f: 
 Soup = bs4.BeautifulSoup(f.read(), 'lxml') 
 
 titles = Soup.select('h3 a') 
for title in titles: 
 print(title.string)

Html原文:

<html>
<head>
 <link rel="stylesheet" type="text/css" href="new_blah.css" rel="external nofollow" >
</head>
<body>
 <div class="header">
  <img src="images/blah.png">
  <ul class="nav">
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Home</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Site</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Other</a></li>
  </ul>
 </div>
 <div class="main-content">
  <h2>Article</h2>
  <ul class="articles">
   <li>
    <img src="images/0001.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Sardinia's top 10 beaches</a></h3>
     <p class="meta-info">
      <span class="meta-cate">fun</span>
      <span class="meta-cate">Wow</span>
     </p>
     <p class="description">white sands and turquoise waters</p>
    </div>
    <div class="rate">
     <span class="rate-score">4.5</span>
    </div>
   </li>
   <li>
    <img src="images/0002.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to get tanned</a></h3>
     <p class="meta-info">
      <span class="meta-cate">butt</span><span class="meta-cate">NSFW</span>
     </p>
     <p class="description">hot bikini girls on beach</p>
    </div>
    <div class="rate">
     <img src="images/Fire.png" width="18" height="18">
     <span class="rate-score">5.0</span>
    </div>
   </li>
   <li>
    <img src="images/0003.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to be an Aussie beach bum</a></h3>
     <p class="meta-info">
      <span class="meta-cate">sea</span>
     </p>
     <p class="description">To make the most of your visit</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.5</span>
    </div>
   </li>
   <li>
    <img src="images/0004.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Summer's cheat sheet</a></h3>
     <p class="meta-info">
      <span class="meta-cate">bay</span>
      <span class="meta-cate">boat</span>
      <span class="meta-cate">beach</span>
     </p>
     <p class="description">choosing a beach in Cape Cod</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.0</span>
    </div>
   </li>
  </ul>
 </div>
 <div class="footer">
  <p>© Mugglecoding</p>
 </div>
</body>
</html>

以上这篇Python读取本地文件并解析网页元素的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python语言实现获取主机名根据端口杀死进程
Mar 31 Python
matplotlib在python上绘制3D散点图实例详解
Dec 09 Python
python使用itchat库实现微信机器人(好友聊天、群聊天)
Jan 04 Python
Python3.6笔记之将程序运行结果输出到文件的方法
Apr 22 Python
python 信息同时输出到控制台与文件的实例讲解
May 11 Python
Python3.6.0+opencv3.3.0人脸检测示例
May 25 Python
django echarts饼图数据动态加载的实例
Aug 12 Python
Django中自定义查询对象的具体使用
Oct 13 Python
python识别验证码图片实例详解
Feb 17 Python
解决ROC曲线画出来只有一个点的问题
Feb 28 Python
Python并发concurrent.futures和asyncio实例
May 04 Python
Python 没有main函数的原因
Jul 10 Python
详解Python中的四种队列
May 21 #Python
Python实现的当前时间多加一天、一小时、一分钟操作示例
May 21 #Python
Python自定义函数实现求两个数最大公约数、最小公倍数示例
May 21 #Python
Python基于递归和非递归算法求两个数最大公约数、最小公倍数示例
May 21 #Python
Python常用字符串替换函数strip、replace及sub用法示例
May 21 #Python
Python下使用Scrapy爬取网页内容的实例
May 21 #Python
python 每天如何定时启动爬虫任务(实现方法分享)
May 21 #Python
You might like
纯php打造的tab选项卡效果代码(不用js)
2010/12/29 PHP
PHP7正式版测试,性能惊艳!
2015/12/08 PHP
jquery模拟按下回车实现代码
2011/09/20 Javascript
用js获取电脑信息(是使用与IE浏览器)
2013/01/15 Javascript
jquery左右滚动焦点图banner图片鼠标经过显示上下页按钮
2013/10/11 Javascript
原生js和jquery中有关透明度设置的相关问题
2014/01/08 Javascript
js中document.write的那点事
2014/12/12 Javascript
jQuery实现分章节锚点“回到顶部”动画特效代码
2015/10/23 Javascript
vue.js动态数据绑定学习笔记
2017/05/19 Javascript
微信小程序使用toast消息对话框提示用户忘记输入用户名或密码功能【附源码下载】
2017/12/09 Javascript
Vue.js单向绑定和双向绑定实例分析
2018/08/14 Javascript
js canvas实现5张图片合成一张图片
2019/07/15 Javascript
vue cli3 调用百度翻译API翻译页面的实现示例
2019/09/13 Javascript
JavaScript ES6 Class类实现原理详解
2020/05/08 Javascript
Python写的服务监控程序实例
2015/01/31 Python
Python通用函数实现数组计算的方法
2019/06/13 Python
python+opencv实现摄像头调用的方法
2019/06/22 Python
Python学习笔记之错误和异常及访问错误消息详解
2019/08/08 Python
浅谈Python2之汉字编码为unicode的问题(即类似\xc3\xa4)
2019/08/12 Python
Python 使用 docopt 解析json参数文件过程讲解
2019/08/13 Python
使用Python求解带约束的最优化问题详解
2020/02/11 Python
Python中sys模块功能与用法实例详解
2020/02/26 Python
Python描述符descriptor使用原理解析
2020/03/21 Python
python让函数不返回结果的方法
2020/06/22 Python
详解基于python的全局与局部序列比对的实现(DNA)
2020/10/07 Python
使用Django的JsonResponse返回数据的实现
2021/01/15 Python
新秀丽拉杆箱美国官方网站:Samsonite美国
2016/07/25 全球购物
维多利亚的秘密官方网站:Victoria’s Secret
2018/10/24 全球购物
医生自荐信
2013/10/11 职场文书
新闻编辑自荐书范文
2014/02/12 职场文书
《草虫的村落》教学反思
2014/02/16 职场文书
教师节促销方案
2014/03/22 职场文书
县委班子四风对照检查材料思想汇报
2014/09/29 职场文书
工会文体活动总结
2015/05/07 职场文书
2016年春季开学典礼新闻稿
2015/11/25 职场文书
HTML中实现音乐或视频自动播放案例详解
2022/05/30 HTML / CSS