Python读取本地文件并解析网页元素的方法


Posted in Python onMay 21, 2018

如下所示:

from bs4 import BeautifulSoup
path = './web/new_index.html'
with open(path, 'r') as f:
 Soup = BeautifulSoup(f.read(), 'lxml')
 titles = Soup.select('ul > li > div.article-info > h3 > a')
for title in titles:
 print(title.text)

输出:
Sardinia's top 10 beaches
How to get tanned
How to be an Aussie beach bum
Summer's cheat sheet
#其中
titles = Soup.select('ul > li > div.article-info > h3 > a')
#等效
titles = Soup.select('h3 a')
print(title.text)
#等效
print(title.get_text())
print(title.string)

也可以使用以下代码

import bs4 
 
path = './web/new_index.html' 
 
with open(path, 'r') as f: 
 Soup = bs4.BeautifulSoup(f.read(), 'lxml') 
 
 titles = Soup.select('h3 a') 
for title in titles: 
 print(title.string)

Html原文:

<html>
<head>
 <link rel="stylesheet" type="text/css" href="new_blah.css" rel="external nofollow" >
</head>
<body>
 <div class="header">
  <img src="images/blah.png">
  <ul class="nav">
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Home</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Site</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Other</a></li>
  </ul>
 </div>
 <div class="main-content">
  <h2>Article</h2>
  <ul class="articles">
   <li>
    <img src="images/0001.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Sardinia's top 10 beaches</a></h3>
     <p class="meta-info">
      <span class="meta-cate">fun</span>
      <span class="meta-cate">Wow</span>
     </p>
     <p class="description">white sands and turquoise waters</p>
    </div>
    <div class="rate">
     <span class="rate-score">4.5</span>
    </div>
   </li>
   <li>
    <img src="images/0002.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to get tanned</a></h3>
     <p class="meta-info">
      <span class="meta-cate">butt</span><span class="meta-cate">NSFW</span>
     </p>
     <p class="description">hot bikini girls on beach</p>
    </div>
    <div class="rate">
     <img src="images/Fire.png" width="18" height="18">
     <span class="rate-score">5.0</span>
    </div>
   </li>
   <li>
    <img src="images/0003.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to be an Aussie beach bum</a></h3>
     <p class="meta-info">
      <span class="meta-cate">sea</span>
     </p>
     <p class="description">To make the most of your visit</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.5</span>
    </div>
   </li>
   <li>
    <img src="images/0004.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Summer's cheat sheet</a></h3>
     <p class="meta-info">
      <span class="meta-cate">bay</span>
      <span class="meta-cate">boat</span>
      <span class="meta-cate">beach</span>
     </p>
     <p class="description">choosing a beach in Cape Cod</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.0</span>
    </div>
   </li>
  </ul>
 </div>
 <div class="footer">
  <p>© Mugglecoding</p>
 </div>
</body>
</html>

以上这篇Python读取本地文件并解析网页元素的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python对列表排序的方法实例分析
May 16 Python
Python字符串、元组、列表、字典互相转换的方法
Jan 23 Python
Linux上安装Python的PIL和Pillow库处理图片的实例教程
Jun 23 Python
使用python调用zxing库生成二维码图片详解
Jan 10 Python
Python断言assert的用法代码解析
Feb 03 Python
Windows环境下python环境安装使用图文教程
Mar 13 Python
python获取当前目录路径和上级路径的实例
Apr 26 Python
利用Python绘制有趣的万圣节南瓜怪效果
Oct 31 Python
python数据类型可变不可变知识点总结
Mar 06 Python
对python中return与yield的区别详解
Mar 12 Python
pandas中的ExcelWriter和ExcelFile的实现方法
Apr 24 Python
django中ImageField的使用详解
Dec 21 Python
详解Python中的四种队列
May 21 #Python
Python实现的当前时间多加一天、一小时、一分钟操作示例
May 21 #Python
Python自定义函数实现求两个数最大公约数、最小公倍数示例
May 21 #Python
Python基于递归和非递归算法求两个数最大公约数、最小公倍数示例
May 21 #Python
Python常用字符串替换函数strip、replace及sub用法示例
May 21 #Python
Python下使用Scrapy爬取网页内容的实例
May 21 #Python
python 每天如何定时启动爬虫任务(实现方法分享)
May 21 #Python
You might like
phplock(php进程锁) v1.0 beta1
2009/11/24 PHP
基础的WordPress插件制作教程
2015/11/24 PHP
WordPress开发中用于获取近期文章的PHP函数使用解析
2016/01/05 PHP
在Laravel5.6中使用Swoole的协程数据库查询
2018/06/15 PHP
IE不出现Flash激活框的小发现的js实现方法
2007/09/07 Javascript
犀利的js 函数集合
2009/06/11 Javascript
jquery 分页控件实现代码
2009/11/30 Javascript
Jquery 实现Tab效果 思路是js思路
2010/03/02 Javascript
Jquery时间验证和转换工具小例子
2013/07/01 Javascript
Microsfot .NET Framework4.0框架 安装失败的解决方法
2013/08/14 Javascript
DOM基础教程之模型中的模型节点
2015/01/19 Javascript
利用React-router+Webpack快速构建react程序
2016/10/27 Javascript
js构造函数创建对象是否加new问题
2018/01/22 Javascript
30分钟快速入门掌握ES6/ES2015的核心内容(上)
2018/04/18 Javascript
Vue之mixin全局的用法详解
2018/08/22 Javascript
微信小程序实现保存图片到相册功能
2018/11/30 Javascript
解决layui页面按钮点击无反应,也不报错的问题
2019/09/29 Javascript
[48:32]VGJ.T vs Fnatic 2018国际邀请赛小组赛BO2 第一场 8.16
2018/08/17 DOTA
python中sleep函数用法实例分析
2015/04/29 Python
Python基于贪心算法解决背包问题示例
2017/11/27 Python
详谈python中冒号与逗号的区别
2018/04/18 Python
tensorflow之变量初始化(tf.Variable)使用详解
2020/02/06 Python
Python日期格式和字符串格式相互转换的方法
2020/02/18 Python
python GUI库图形界面开发之PyQt5拖放控件实例详解
2020/02/25 Python
python 如何停止一个死循环的线程
2020/11/24 Python
Python WebSocket长连接心跳与短连接的示例
2020/11/24 Python
css3实现椭圆轨迹旋转的示例代码
2018/10/29 HTML / CSS
Html5应用程序缓存(Cache manifest)
2018/06/04 HTML / CSS
中国旅游网站:途牛旅游网
2019/09/29 全球购物
金属材料工程个人求职的自我评价
2013/12/04 职场文书
家长写给老师的建议书
2014/03/13 职场文书
廉洁自律个人总结
2015/02/14 职场文书
大学生求职自荐信
2015/03/24 职场文书
讲座通知范文
2015/04/23 职场文书
员工拾金不昧表扬稿
2015/05/05 职场文书
使用Python开发冰球小游戏
2022/04/30 Python