Python读取本地文件并解析网页元素的方法


Posted in Python onMay 21, 2018

如下所示:

from bs4 import BeautifulSoup
path = './web/new_index.html'
with open(path, 'r') as f:
 Soup = BeautifulSoup(f.read(), 'lxml')
 titles = Soup.select('ul > li > div.article-info > h3 > a')
for title in titles:
 print(title.text)

输出:
Sardinia's top 10 beaches
How to get tanned
How to be an Aussie beach bum
Summer's cheat sheet
#其中
titles = Soup.select('ul > li > div.article-info > h3 > a')
#等效
titles = Soup.select('h3 a')
print(title.text)
#等效
print(title.get_text())
print(title.string)

也可以使用以下代码

import bs4 
 
path = './web/new_index.html' 
 
with open(path, 'r') as f: 
 Soup = bs4.BeautifulSoup(f.read(), 'lxml') 
 
 titles = Soup.select('h3 a') 
for title in titles: 
 print(title.string)

Html原文:

<html>
<head>
 <link rel="stylesheet" type="text/css" href="new_blah.css" rel="external nofollow" >
</head>
<body>
 <div class="header">
  <img src="images/blah.png">
  <ul class="nav">
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Home</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Site</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Other</a></li>
  </ul>
 </div>
 <div class="main-content">
  <h2>Article</h2>
  <ul class="articles">
   <li>
    <img src="images/0001.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Sardinia's top 10 beaches</a></h3>
     <p class="meta-info">
      <span class="meta-cate">fun</span>
      <span class="meta-cate">Wow</span>
     </p>
     <p class="description">white sands and turquoise waters</p>
    </div>
    <div class="rate">
     <span class="rate-score">4.5</span>
    </div>
   </li>
   <li>
    <img src="images/0002.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to get tanned</a></h3>
     <p class="meta-info">
      <span class="meta-cate">butt</span><span class="meta-cate">NSFW</span>
     </p>
     <p class="description">hot bikini girls on beach</p>
    </div>
    <div class="rate">
     <img src="images/Fire.png" width="18" height="18">
     <span class="rate-score">5.0</span>
    </div>
   </li>
   <li>
    <img src="images/0003.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to be an Aussie beach bum</a></h3>
     <p class="meta-info">
      <span class="meta-cate">sea</span>
     </p>
     <p class="description">To make the most of your visit</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.5</span>
    </div>
   </li>
   <li>
    <img src="images/0004.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Summer's cheat sheet</a></h3>
     <p class="meta-info">
      <span class="meta-cate">bay</span>
      <span class="meta-cate">boat</span>
      <span class="meta-cate">beach</span>
     </p>
     <p class="description">choosing a beach in Cape Cod</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.0</span>
    </div>
   </li>
  </ul>
 </div>
 <div class="footer">
  <p>© Mugglecoding</p>
 </div>
</body>
</html>

以上这篇Python读取本地文件并解析网页元素的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
详解Python3中的Sequence type的使用
Aug 01 Python
利用Python读取txt文档的方法讲解
Jun 23 Python
Django框架的使用教程路由请求响应的方法
Jul 03 Python
Django异步任务之Celery的基本使用
Mar 23 Python
Django应用程序入口WSGIHandler源码解析
Aug 05 Python
python requests抓取one推送文字和图片代码实例
Nov 04 Python
Python实现搜索算法的实例代码
Jan 02 Python
python爬虫基础知识点整理
Jun 02 Python
浅谈Python描述数据结构之KMP篇
Sep 06 Python
如何基于Python和Flask编写Prometheus监控
Nov 25 Python
Python爬虫入门教程01之爬取豆瓣Top电影
Jan 24 Python
python爬虫破解字体加密案例详解
Mar 02 Python
详解Python中的四种队列
May 21 #Python
Python实现的当前时间多加一天、一小时、一分钟操作示例
May 21 #Python
Python自定义函数实现求两个数最大公约数、最小公倍数示例
May 21 #Python
Python基于递归和非递归算法求两个数最大公约数、最小公倍数示例
May 21 #Python
Python常用字符串替换函数strip、replace及sub用法示例
May 21 #Python
Python下使用Scrapy爬取网页内容的实例
May 21 #Python
python 每天如何定时启动爬虫任务(实现方法分享)
May 21 #Python
You might like
PHP+MYSQL的文章管理系统(一)
2006/10/09 PHP
建立动态的WML站点(一)
2006/10/09 PHP
安装APACHE
2007/01/15 PHP
《PHP编程最快明白》第二讲 数字、浮点、布尔型、字符串和数组
2010/11/01 PHP
利用yahoo汇率接口实现实时汇率转换示例 汇率转换器
2014/01/14 PHP
php使用fsockopen函数发送post,get请求获取网页内容的方法
2014/11/15 PHP
php使用memcoder将视频转成mp4格式的方法
2015/03/12 PHP
php链式操作的实现方式分析
2019/08/12 PHP
php面试实现反射注入的详细方法
2019/09/30 PHP
JS获取iframe中marginHeight和marginWidth属性的方法
2015/04/01 Javascript
简介JavaScript中fixed()方法的使用
2015/06/08 Javascript
jquery实现简单的自动播放幻灯片效果
2015/06/13 Javascript
jQuery鼠标经过方形图片切换成圆边效果代码分享
2015/08/20 Javascript
基于JavaScript代码实现pc与手机之间的跳转
2015/12/23 Javascript
Centos7 中安装 Node.js v4.4.4
2016/11/03 Javascript
JavaScript之class继承_动力节点Java学院整理
2017/07/03 Javascript
js实现前面自动补全位数的方法
2018/10/10 Javascript
原生js实现针对Dom节点的CRUD操作示例
2019/08/26 Javascript
0基础学习前端开发的一些建议
2020/07/14 Javascript
Python 条件判断的缩写方法
2008/09/06 Python
Python远程视频监控程序的实例代码
2019/05/05 Python
python爬虫神器Pyppeteer入门及使用
2019/07/13 Python
Python如何将图像音视频等资源文件隐藏在代码中(小技巧)
2020/02/16 Python
python判断字符串以什么结尾的实例方法
2020/09/18 Python
浅析python 字典嵌套
2020/09/29 Python
python 第三方库paramiko的常用方式
2021/02/20 Python
武汉瑞得软件笔试题
2015/10/27 面试题
会计与审计毕业生自荐信范文
2013/12/30 职场文书
委托书格式
2014/08/01 职场文书
自我检讨书怎么写
2015/05/07 职场文书
现实表现证明材料
2015/06/19 职场文书
小学教师读书笔记
2015/07/01 职场文书
2019新员工试用期转正工作总结范文
2019/08/21 职场文书
python爬取豆瓣电影TOP250数据
2021/05/23 Python
MyBatis在注解上使用动态SQL方式(@select使用if)
2022/07/07 Java/Android
html解决浏览器记住密码输入框的问题
2023/05/07 HTML / CSS