Python读取本地文件并解析网页元素的方法


Posted in Python onMay 21, 2018

如下所示:

from bs4 import BeautifulSoup
path = './web/new_index.html'
with open(path, 'r') as f:
 Soup = BeautifulSoup(f.read(), 'lxml')
 titles = Soup.select('ul > li > div.article-info > h3 > a')
for title in titles:
 print(title.text)

输出:
Sardinia's top 10 beaches
How to get tanned
How to be an Aussie beach bum
Summer's cheat sheet
#其中
titles = Soup.select('ul > li > div.article-info > h3 > a')
#等效
titles = Soup.select('h3 a')
print(title.text)
#等效
print(title.get_text())
print(title.string)

也可以使用以下代码

import bs4 
 
path = './web/new_index.html' 
 
with open(path, 'r') as f: 
 Soup = bs4.BeautifulSoup(f.read(), 'lxml') 
 
 titles = Soup.select('h3 a') 
for title in titles: 
 print(title.string)

Html原文:

<html>
<head>
 <link rel="stylesheet" type="text/css" href="new_blah.css" rel="external nofollow" >
</head>
<body>
 <div class="header">
  <img src="images/blah.png">
  <ul class="nav">
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Home</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Site</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Other</a></li>
  </ul>
 </div>
 <div class="main-content">
  <h2>Article</h2>
  <ul class="articles">
   <li>
    <img src="images/0001.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Sardinia's top 10 beaches</a></h3>
     <p class="meta-info">
      <span class="meta-cate">fun</span>
      <span class="meta-cate">Wow</span>
     </p>
     <p class="description">white sands and turquoise waters</p>
    </div>
    <div class="rate">
     <span class="rate-score">4.5</span>
    </div>
   </li>
   <li>
    <img src="images/0002.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to get tanned</a></h3>
     <p class="meta-info">
      <span class="meta-cate">butt</span><span class="meta-cate">NSFW</span>
     </p>
     <p class="description">hot bikini girls on beach</p>
    </div>
    <div class="rate">
     <img src="images/Fire.png" width="18" height="18">
     <span class="rate-score">5.0</span>
    </div>
   </li>
   <li>
    <img src="images/0003.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to be an Aussie beach bum</a></h3>
     <p class="meta-info">
      <span class="meta-cate">sea</span>
     </p>
     <p class="description">To make the most of your visit</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.5</span>
    </div>
   </li>
   <li>
    <img src="images/0004.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Summer's cheat sheet</a></h3>
     <p class="meta-info">
      <span class="meta-cate">bay</span>
      <span class="meta-cate">boat</span>
      <span class="meta-cate">beach</span>
     </p>
     <p class="description">choosing a beach in Cape Cod</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.0</span>
    </div>
   </li>
  </ul>
 </div>
 <div class="footer">
  <p>© Mugglecoding</p>
 </div>
</body>
</html>

以上这篇Python读取本地文件并解析网页元素的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
使用Python中的cookielib模拟登录网站
Apr 09 Python
python实现连接mongodb的方法
May 08 Python
Python读写配置文件的方法
Jun 03 Python
关于Python中浮点数精度处理的技巧总结
Aug 10 Python
python 寻找优化使成本函数最小的最优解的方法
Dec 28 Python
python用pandas数据加载、存储与文件格式的实例
Dec 07 Python
Python基础之文件读取的讲解
Feb 16 Python
python 字典操作提取key,value的方法
Jun 26 Python
python如何获取列表中每个元素的下标位置
Jul 01 Python
使用APScheduler3.0.1 实现定时任务的方法
Jul 22 Python
Python facenet进行人脸识别测试过程解析
Aug 16 Python
Django基于客户端下载文件实现方法
Apr 21 Python
详解Python中的四种队列
May 21 #Python
Python实现的当前时间多加一天、一小时、一分钟操作示例
May 21 #Python
Python自定义函数实现求两个数最大公约数、最小公倍数示例
May 21 #Python
Python基于递归和非递归算法求两个数最大公约数、最小公倍数示例
May 21 #Python
Python常用字符串替换函数strip、replace及sub用法示例
May 21 #Python
Python下使用Scrapy爬取网页内容的实例
May 21 #Python
python 每天如何定时启动爬虫任务(实现方法分享)
May 21 #Python
You might like
PHP4实际应用经验篇(5)
2006/10/09 PHP
THINKPHP2.0到3.0有哪些改进之处
2015/01/04 PHP
PHP保存session到memcache服务器的方法
2016/01/19 PHP
PHP使用PDO创建MySQL数据库、表及插入多条数据操作示例
2019/05/30 PHP
贴一个在Mozilla中常用的Javascript代码
2007/01/09 Javascript
js 学习笔记(三)
2009/12/29 Javascript
某人初学javascript的时候写的学习笔记
2010/12/30 Javascript
jquery 为a标签绑定click事件示例代码
2014/06/23 Javascript
js判断手机和pc端选择不同执行事件的方法
2015/01/30 Javascript
JavaScript汉诺塔问题解决方法
2015/04/21 Javascript
BootStrap制作导航条实例代码
2016/05/06 Javascript
Bootstrap的fileinput插件实现多文件上传的方法
2016/09/05 Javascript
js获取腾讯视频ID的方法
2016/10/03 Javascript
jquery根据td给相同tr下其他td赋值的实现方法
2016/10/05 Javascript
原生js实现五子棋游戏
2020/05/28 Javascript
JavaScript DOM常用操作代码汇总
2020/07/03 Javascript
vue实现简单全选和反选功能
2020/09/15 Javascript
多个Vue项目部署到服务器的步骤记录
2020/10/22 Javascript
[02:43]2018DOTA2亚洲邀请赛主赛事首日TOP5
2018/04/04 DOTA
[01:04:39]OG vs Mineski 2018国际邀请赛小组赛BO2 第二场 8.17
2018/08/18 DOTA
[43:32]Winstrike vs VGJ.S 2018国际邀请赛淘汰赛BO3 第一场 8.23
2018/08/24 DOTA
python3实现多线程聊天室
2018/12/12 Python
python面试题Python2.x和Python3.x的区别
2019/05/28 Python
Python类中的装饰器在当前类中的声明与调用详解
2020/04/15 Python
Pycharm 解决自动格式化冲突的设置操作
2021/01/15 Python
利用Canvas模仿百度贴吧客户端loading小球的方法示例
2017/08/13 HTML / CSS
Bonprix法国:时尚、鞋子、家居
2020/12/29 全球购物
护士求职推荐信范文
2013/11/23 职场文书
《玩具柜台前的孩子》教学反思
2014/02/13 职场文书
小学德育工作经验交流材料
2014/05/22 职场文书
应届本科毕业生求职信
2014/07/23 职场文书
小学班主任个人总结
2015/03/03 职场文书
企业计划生育责任书
2015/05/09 职场文书
初中体育教学随笔
2015/08/15 职场文书
公务员的复习计划书,请收下!
2019/07/15 职场文书
Django数据库(SQlite)基本入门使用教程
2022/07/07 Python