Python读取本地文件并解析网页元素的方法


Posted in Python onMay 21, 2018

如下所示:

from bs4 import BeautifulSoup
path = './web/new_index.html'
with open(path, 'r') as f:
 Soup = BeautifulSoup(f.read(), 'lxml')
 titles = Soup.select('ul > li > div.article-info > h3 > a')
for title in titles:
 print(title.text)

输出:
Sardinia's top 10 beaches
How to get tanned
How to be an Aussie beach bum
Summer's cheat sheet
#其中
titles = Soup.select('ul > li > div.article-info > h3 > a')
#等效
titles = Soup.select('h3 a')
print(title.text)
#等效
print(title.get_text())
print(title.string)

也可以使用以下代码

import bs4 
 
path = './web/new_index.html' 
 
with open(path, 'r') as f: 
 Soup = bs4.BeautifulSoup(f.read(), 'lxml') 
 
 titles = Soup.select('h3 a') 
for title in titles: 
 print(title.string)

Html原文:

<html>
<head>
 <link rel="stylesheet" type="text/css" href="new_blah.css" rel="external nofollow" >
</head>
<body>
 <div class="header">
  <img src="images/blah.png">
  <ul class="nav">
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Home</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Site</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Other</a></li>
  </ul>
 </div>
 <div class="main-content">
  <h2>Article</h2>
  <ul class="articles">
   <li>
    <img src="images/0001.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Sardinia's top 10 beaches</a></h3>
     <p class="meta-info">
      <span class="meta-cate">fun</span>
      <span class="meta-cate">Wow</span>
     </p>
     <p class="description">white sands and turquoise waters</p>
    </div>
    <div class="rate">
     <span class="rate-score">4.5</span>
    </div>
   </li>
   <li>
    <img src="images/0002.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to get tanned</a></h3>
     <p class="meta-info">
      <span class="meta-cate">butt</span><span class="meta-cate">NSFW</span>
     </p>
     <p class="description">hot bikini girls on beach</p>
    </div>
    <div class="rate">
     <img src="images/Fire.png" width="18" height="18">
     <span class="rate-score">5.0</span>
    </div>
   </li>
   <li>
    <img src="images/0003.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to be an Aussie beach bum</a></h3>
     <p class="meta-info">
      <span class="meta-cate">sea</span>
     </p>
     <p class="description">To make the most of your visit</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.5</span>
    </div>
   </li>
   <li>
    <img src="images/0004.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Summer's cheat sheet</a></h3>
     <p class="meta-info">
      <span class="meta-cate">bay</span>
      <span class="meta-cate">boat</span>
      <span class="meta-cate">beach</span>
     </p>
     <p class="description">choosing a beach in Cape Cod</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.0</span>
    </div>
   </li>
  </ul>
 </div>
 <div class="footer">
  <p>© Mugglecoding</p>
 </div>
</body>
</html>

以上这篇Python读取本地文件并解析网页元素的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python解析html开发库pyquery使用方法
Feb 07 Python
Python中设置变量访问权限的方法
Apr 27 Python
实例Python处理XML文件的方法
Aug 31 Python
python中reduce()函数的使用方法示例
Sep 29 Python
深入浅析Python的类
Jun 22 Python
Python文件读写常见用法总结
Feb 22 Python
Django如何自定义model创建数据库索引的顺序
Jun 20 Python
python调用接口的4种方式代码实例
Nov 19 Python
python安装和pycharm环境搭建设置方法
May 27 Python
Python依赖包迁移到断网环境操作
Jul 13 Python
Python csv文件记录流程代码解析
Jul 16 Python
PySwarms(Python粒子群优化工具包)的使用:GlobalBestPSO例子解析
Apr 05 Python
详解Python中的四种队列
May 21 #Python
Python实现的当前时间多加一天、一小时、一分钟操作示例
May 21 #Python
Python自定义函数实现求两个数最大公约数、最小公倍数示例
May 21 #Python
Python基于递归和非递归算法求两个数最大公约数、最小公倍数示例
May 21 #Python
Python常用字符串替换函数strip、replace及sub用法示例
May 21 #Python
Python下使用Scrapy爬取网页内容的实例
May 21 #Python
python 每天如何定时启动爬虫任务(实现方法分享)
May 21 #Python
You might like
php str_pad() 将字符串填充成指定长度的字符串
2010/02/23 PHP
PHPMYADMIN 简明安装教程 推荐
2010/03/07 PHP
php中的常用魔术方法总结
2013/08/02 PHP
php+redis实现多台服务器内网存储session并读取示例
2017/01/12 PHP
Yii2中hasOne、hasMany及多对多关联查询的用法详解
2017/02/15 PHP
nodejs 后缀名判断限制代码
2011/03/31 NodeJs
Jquery 模板数据绑定插件的使用方法详解
2013/07/08 Javascript
JavaScript实现找出字符串中第一个不重复的字符
2014/09/03 Javascript
js+HTML5实现canvas多种颜色渐变效果的方法
2015/06/05 Javascript
JavaScript模块化开发之SeaJS
2015/12/13 Javascript
JS中type=&quot;button&quot;和type=&quot;submit&quot;的区别
2017/07/04 Javascript
JS简单实现数组去重的方法分析
2017/10/14 Javascript
浅析vue中的provide / inject 有什么用处
2019/11/10 Javascript
24个解决实际问题的ES6代码片段(小结)
2020/02/02 Javascript
vue实现简单学生信息管理
2020/05/30 Javascript
node.js文件的复制、创建文件夹等相关操作
2021/02/05 Javascript
python求素数示例分享
2014/02/16 Python
python对数组进行反转的方法
2015/05/20 Python
浅谈Python的Django框架中的缓存控制
2015/07/24 Python
利用 python 对目录下的文件进行过滤删除
2017/12/27 Python
启动Atom并运行python文件的步骤
2018/11/09 Python
Python解析、提取url关键字的实例详解
2018/12/17 Python
Windows10下 python3.7 安装 facenet的教程
2019/09/10 Python
关于Python turtle库使用时坐标的确定方法
2020/03/19 Python
浅析Python面向对象编程
2020/07/10 Python
Python中过滤字符串列表的方法
2020/12/22 Python
CSS3属性box-sizing使用指南
2014/12/09 HTML / CSS
CSS3制作轮播图的一种方法
2019/11/11 HTML / CSS
青年教师培训方案
2014/02/06 职场文书
学校班班通实施方案
2014/06/11 职场文书
酒店总经理岗位职责范本
2014/08/08 职场文书
就业协议书盖章的注意事项
2014/09/28 职场文书
2015年思想品德教学工作总结
2015/07/22 职场文书
小学大队长竞选稿
2015/11/20 职场文书
合同补充协议书
2016/03/24 职场文书
Python读取和写入Excel数据
2022/04/20 Python