Python读取本地文件并解析网页元素的方法


Posted in Python onMay 21, 2018

如下所示:

from bs4 import BeautifulSoup
path = './web/new_index.html'
with open(path, 'r') as f:
 Soup = BeautifulSoup(f.read(), 'lxml')
 titles = Soup.select('ul > li > div.article-info > h3 > a')
for title in titles:
 print(title.text)

输出:
Sardinia's top 10 beaches
How to get tanned
How to be an Aussie beach bum
Summer's cheat sheet
#其中
titles = Soup.select('ul > li > div.article-info > h3 > a')
#等效
titles = Soup.select('h3 a')
print(title.text)
#等效
print(title.get_text())
print(title.string)

也可以使用以下代码

import bs4 
 
path = './web/new_index.html' 
 
with open(path, 'r') as f: 
 Soup = bs4.BeautifulSoup(f.read(), 'lxml') 
 
 titles = Soup.select('h3 a') 
for title in titles: 
 print(title.string)

Html原文:

<html>
<head>
 <link rel="stylesheet" type="text/css" href="new_blah.css" rel="external nofollow" >
</head>
<body>
 <div class="header">
  <img src="images/blah.png">
  <ul class="nav">
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Home</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Site</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Other</a></li>
  </ul>
 </div>
 <div class="main-content">
  <h2>Article</h2>
  <ul class="articles">
   <li>
    <img src="images/0001.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Sardinia's top 10 beaches</a></h3>
     <p class="meta-info">
      <span class="meta-cate">fun</span>
      <span class="meta-cate">Wow</span>
     </p>
     <p class="description">white sands and turquoise waters</p>
    </div>
    <div class="rate">
     <span class="rate-score">4.5</span>
    </div>
   </li>
   <li>
    <img src="images/0002.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to get tanned</a></h3>
     <p class="meta-info">
      <span class="meta-cate">butt</span><span class="meta-cate">NSFW</span>
     </p>
     <p class="description">hot bikini girls on beach</p>
    </div>
    <div class="rate">
     <img src="images/Fire.png" width="18" height="18">
     <span class="rate-score">5.0</span>
    </div>
   </li>
   <li>
    <img src="images/0003.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to be an Aussie beach bum</a></h3>
     <p class="meta-info">
      <span class="meta-cate">sea</span>
     </p>
     <p class="description">To make the most of your visit</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.5</span>
    </div>
   </li>
   <li>
    <img src="images/0004.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Summer's cheat sheet</a></h3>
     <p class="meta-info">
      <span class="meta-cate">bay</span>
      <span class="meta-cate">boat</span>
      <span class="meta-cate">beach</span>
     </p>
     <p class="description">choosing a beach in Cape Cod</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.0</span>
    </div>
   </li>
  </ul>
 </div>
 <div class="footer">
  <p>© Mugglecoding</p>
 </div>
</body>
</html>

以上这篇Python读取本地文件并解析网页元素的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
如何将python中的List转化成dictionary
Aug 15 Python
python使用电子邮件模块smtplib的方法
Aug 28 Python
Python基于高斯消元法计算线性方程组示例
Jan 17 Python
python文件写入write()的操作
May 14 Python
python和mysql交互操作实例详解【基于pymysql库】
Jun 04 Python
在windows下使用python进行串口通讯的方法
Jul 02 Python
使用Python实现图像标记点的坐标输出功能
Aug 14 Python
对Pytorch中nn.ModuleList 和 nn.Sequential详解
Aug 18 Python
python shutil文件操作工具使用实例分析
Dec 25 Python
Pytorch释放显存占用方式
Jan 13 Python
浅谈pandas.cut与pandas.qcut的使用方法及区别
Mar 03 Python
Python数据可视化之Seaborn的安装及使用
Apr 19 Python
详解Python中的四种队列
May 21 #Python
Python实现的当前时间多加一天、一小时、一分钟操作示例
May 21 #Python
Python自定义函数实现求两个数最大公约数、最小公倍数示例
May 21 #Python
Python基于递归和非递归算法求两个数最大公约数、最小公倍数示例
May 21 #Python
Python常用字符串替换函数strip、replace及sub用法示例
May 21 #Python
Python下使用Scrapy爬取网页内容的实例
May 21 #Python
python 每天如何定时启动爬虫任务(实现方法分享)
May 21 #Python
You might like
咖啡豆要不要放冰箱的原因
2021/03/04 冲泡冲煮
简单的过滤字符串中的HTML标记
2006/12/25 PHP
php安全开发 添加随机字符串验证,防止伪造跨站请求
2013/02/14 PHP
解决ajax+php中文乱码的方法详解
2013/06/09 PHP
PHP读取大文件的类SplFileObject使用介绍
2014/04/09 PHP
CI框架(ajax分页,全选,反选,不选,批量删除)完整代码详解
2016/11/01 PHP
Yii2框架实现登陆添加验证码功能示例
2018/07/12 PHP
javascript入门·图片对象(无刷新变换图片)\滚动图像
2007/10/01 Javascript
Jquery树插件zTree用法入门教程
2015/02/17 Javascript
jQuery实现的纵向下拉菜单实例详解【附demo源码下载】
2016/07/09 Javascript
利用Angularjs和原生JS分别实现动态效果的输入框
2016/09/01 Javascript
解析预加载显示图片艺术
2016/12/05 Javascript
AngularJS控制器controller给模型数据赋初始值的方法
2017/01/04 Javascript
详解vue2.0 transition 多个元素嵌套使用过渡
2017/06/19 Javascript
JS实现的合并多个数组去重算法示例
2018/04/11 Javascript
生产制造追溯系统之在线打印功能
2019/06/03 Javascript
使用vue打包进行云服务器上传的问题
2020/03/02 Javascript
js实现文章目录索引导航(table of content)
2020/05/10 Javascript
通过高德地图API获得某条道路上的所有坐标用于描绘道路的方法
2020/08/24 Javascript
Vertx基于EventBus发送接受自定义对象
2020/11/16 Javascript
[00:31]DOTA2上海特级锦标赛 Fnatic战队宣传片
2016/03/04 DOTA
python3.6.3转化为win-exe文件发布的方法
2018/10/31 Python
python中数组和矩阵乘法及使用总结(推荐)
2019/05/18 Python
用CSS3实现瀑布流布局的示例代码
2017/11/10 HTML / CSS
css3 仿写阿里云水纹效果的示例代码
2018/02/10 HTML / CSS
Html5踩坑记之mandMobile使用小记
2020/04/02 HTML / CSS
国际金融专业大学生职业生涯规划书
2013/12/28 职场文书
写给女朋友的检讨书
2014/01/28 职场文书
《我的伯父鲁迅先生》教学反思
2014/02/12 职场文书
给全校老师的建议书
2014/03/13 职场文书
晚会闭幕词
2015/01/28 职场文书
张丽莉观后感
2015/06/16 职场文书
2019年英语版感谢信(8篇)
2019/09/29 职场文书
2019年幼儿园家长接送责任书
2019/10/29 职场文书
教你如何让spark sql写mysql的时候支持update操作
2022/02/15 MySQL
Tomcat弱口令复现及利用
2022/05/06 Servers