Python读取本地文件并解析网页元素的方法


Posted in Python onMay 21, 2018

如下所示:

from bs4 import BeautifulSoup
path = './web/new_index.html'
with open(path, 'r') as f:
 Soup = BeautifulSoup(f.read(), 'lxml')
 titles = Soup.select('ul > li > div.article-info > h3 > a')
for title in titles:
 print(title.text)

输出:
Sardinia's top 10 beaches
How to get tanned
How to be an Aussie beach bum
Summer's cheat sheet
#其中
titles = Soup.select('ul > li > div.article-info > h3 > a')
#等效
titles = Soup.select('h3 a')
print(title.text)
#等效
print(title.get_text())
print(title.string)

也可以使用以下代码

import bs4 
 
path = './web/new_index.html' 
 
with open(path, 'r') as f: 
 Soup = bs4.BeautifulSoup(f.read(), 'lxml') 
 
 titles = Soup.select('h3 a') 
for title in titles: 
 print(title.string)

Html原文:

<html>
<head>
 <link rel="stylesheet" type="text/css" href="new_blah.css" rel="external nofollow" >
</head>
<body>
 <div class="header">
  <img src="images/blah.png">
  <ul class="nav">
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Home</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Site</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Other</a></li>
  </ul>
 </div>
 <div class="main-content">
  <h2>Article</h2>
  <ul class="articles">
   <li>
    <img src="images/0001.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Sardinia's top 10 beaches</a></h3>
     <p class="meta-info">
      <span class="meta-cate">fun</span>
      <span class="meta-cate">Wow</span>
     </p>
     <p class="description">white sands and turquoise waters</p>
    </div>
    <div class="rate">
     <span class="rate-score">4.5</span>
    </div>
   </li>
   <li>
    <img src="images/0002.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to get tanned</a></h3>
     <p class="meta-info">
      <span class="meta-cate">butt</span><span class="meta-cate">NSFW</span>
     </p>
     <p class="description">hot bikini girls on beach</p>
    </div>
    <div class="rate">
     <img src="images/Fire.png" width="18" height="18">
     <span class="rate-score">5.0</span>
    </div>
   </li>
   <li>
    <img src="images/0003.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to be an Aussie beach bum</a></h3>
     <p class="meta-info">
      <span class="meta-cate">sea</span>
     </p>
     <p class="description">To make the most of your visit</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.5</span>
    </div>
   </li>
   <li>
    <img src="images/0004.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Summer's cheat sheet</a></h3>
     <p class="meta-info">
      <span class="meta-cate">bay</span>
      <span class="meta-cate">boat</span>
      <span class="meta-cate">beach</span>
     </p>
     <p class="description">choosing a beach in Cape Cod</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.0</span>
    </div>
   </li>
  </ul>
 </div>
 <div class="footer">
  <p>© Mugglecoding</p>
 </div>
</body>
</html>

以上这篇Python读取本地文件并解析网页元素的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Pycharm技巧之代码跳转该如何回退
Jul 16 Python
django中的HTML控件及参数传递方法
Mar 20 Python
在Pandas中DataFrame数据合并,连接(concat,merge,join)的实例
Jan 29 Python
网易有道2017内推编程题 洗牌(python)
Jun 19 Python
使用python分析统计自己微信朋友的信息
Jul 19 Python
python3实现高效的端口扫描
Aug 31 Python
Python concurrent.futures模块使用实例
Dec 24 Python
python topk()函数求最大和最小值实例
Apr 02 Python
python操作yaml说明
Apr 08 Python
Python+redis通过限流保护高并发系统
Apr 15 Python
基于python代码批量处理图片resize
Jun 04 Python
Python中Qslider控件实操详解
Feb 20 Python
详解Python中的四种队列
May 21 #Python
Python实现的当前时间多加一天、一小时、一分钟操作示例
May 21 #Python
Python自定义函数实现求两个数最大公约数、最小公倍数示例
May 21 #Python
Python基于递归和非递归算法求两个数最大公约数、最小公倍数示例
May 21 #Python
Python常用字符串替换函数strip、replace及sub用法示例
May 21 #Python
Python下使用Scrapy爬取网页内容的实例
May 21 #Python
python 每天如何定时启动爬虫任务(实现方法分享)
May 21 #Python
You might like
PHP获取http请求的头信息实现步骤
2012/12/16 PHP
CodeIgniter针对数据库的连接、配置及使用方法
2016/03/03 PHP
php微信开发之关键词回复功能
2018/06/13 PHP
PHP 7.4中使用预加载的方法详解
2019/07/08 PHP
数理公式,也可以这么唯美
2021/03/10 无线电
用一段js程序来实现动画功能
2007/03/06 Javascript
批量实现面向对象的实例代码
2013/07/01 Javascript
教你用jquery实现iframe自适应高度
2014/06/11 Javascript
nodejs基础应用
2017/02/03 NodeJs
Easyui Tree获取当前选择节点的所有顶级父节点
2017/02/14 Javascript
vue代理和跨域问题的解决
2018/07/18 Javascript
详解Angular Forms中自定义ngModel绑定值的方式
2018/12/10 Javascript
使用Node.js实现base64和png文件相互转换的方法
2020/03/11 Javascript
js校验开始时间和结束时间
2020/05/26 Javascript
浅谈vue在html中出现{{}}的原因及解决方式
2020/11/16 Javascript
解决vue项目本地启动时无法携带cookie的问题
2021/02/06 Vue.js
[09:43]DOTA2每周TOP10 精彩击杀集锦vol.5
2014/06/25 DOTA
Python异常学习笔记
2015/02/03 Python
Python HTTP客户端自定义Cookie实现实例
2017/04/28 Python
numpy.array 操作使用简单总结
2019/11/08 Python
详解python内置常用高阶函数(列出了5个常用的)
2020/02/21 Python
使用Python matplotlib作图时,设置横纵坐标轴数值以百分比(%)显示
2020/05/16 Python
python 负数取模运算实例
2020/06/03 Python
浅析Python 抽象工厂模式的优缺点
2020/07/13 Python
Scrapy项目实战之爬取某社区用户详情
2020/09/17 Python
python 爬取小说并下载的示例
2020/12/07 Python
CSS3对图片照片进行边缘模糊处理的实现
2018/08/08 HTML / CSS
阻止移动设备(手机、pad)浏览器双击放大网页的方法
2014/06/03 HTML / CSS
Europcar葡萄牙:葡萄牙汽车和货车租赁
2017/10/13 全球购物
C#如何允许一个类被继承但是避免这个类的方法被重载?
2015/02/24 面试题
中医临床专业自我鉴定范文
2014/01/15 职场文书
环保倡议书50字
2014/05/15 职场文书
抗震救灾标语
2014/06/26 职场文书
中学生检讨书范文
2014/11/03 职场文书
五一晚会主持词
2015/07/01 职场文书
JavaScript实现贪吃蛇游戏
2021/06/16 Javascript