Python读取本地文件并解析网页元素的方法


Posted in Python onMay 21, 2018

如下所示:

from bs4 import BeautifulSoup
path = './web/new_index.html'
with open(path, 'r') as f:
 Soup = BeautifulSoup(f.read(), 'lxml')
 titles = Soup.select('ul > li > div.article-info > h3 > a')
for title in titles:
 print(title.text)

输出:
Sardinia's top 10 beaches
How to get tanned
How to be an Aussie beach bum
Summer's cheat sheet
#其中
titles = Soup.select('ul > li > div.article-info > h3 > a')
#等效
titles = Soup.select('h3 a')
print(title.text)
#等效
print(title.get_text())
print(title.string)

也可以使用以下代码

import bs4 
 
path = './web/new_index.html' 
 
with open(path, 'r') as f: 
 Soup = bs4.BeautifulSoup(f.read(), 'lxml') 
 
 titles = Soup.select('h3 a') 
for title in titles: 
 print(title.string)

Html原文:

<html>
<head>
 <link rel="stylesheet" type="text/css" href="new_blah.css" rel="external nofollow" >
</head>
<body>
 <div class="header">
  <img src="images/blah.png">
  <ul class="nav">
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Home</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Site</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Other</a></li>
  </ul>
 </div>
 <div class="main-content">
  <h2>Article</h2>
  <ul class="articles">
   <li>
    <img src="images/0001.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Sardinia's top 10 beaches</a></h3>
     <p class="meta-info">
      <span class="meta-cate">fun</span>
      <span class="meta-cate">Wow</span>
     </p>
     <p class="description">white sands and turquoise waters</p>
    </div>
    <div class="rate">
     <span class="rate-score">4.5</span>
    </div>
   </li>
   <li>
    <img src="images/0002.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to get tanned</a></h3>
     <p class="meta-info">
      <span class="meta-cate">butt</span><span class="meta-cate">NSFW</span>
     </p>
     <p class="description">hot bikini girls on beach</p>
    </div>
    <div class="rate">
     <img src="images/Fire.png" width="18" height="18">
     <span class="rate-score">5.0</span>
    </div>
   </li>
   <li>
    <img src="images/0003.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to be an Aussie beach bum</a></h3>
     <p class="meta-info">
      <span class="meta-cate">sea</span>
     </p>
     <p class="description">To make the most of your visit</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.5</span>
    </div>
   </li>
   <li>
    <img src="images/0004.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Summer's cheat sheet</a></h3>
     <p class="meta-info">
      <span class="meta-cate">bay</span>
      <span class="meta-cate">boat</span>
      <span class="meta-cate">beach</span>
     </p>
     <p class="description">choosing a beach in Cape Cod</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.0</span>
    </div>
   </li>
  </ul>
 </div>
 <div class="footer">
  <p>© Mugglecoding</p>
 </div>
</body>
</html>

以上这篇Python读取本地文件并解析网页元素的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
400多行Python代码实现了一个FTP服务器
May 10 Python
Django中模型Model添加JSON类型字段的方法
Jun 17 Python
Python读取指定目录下指定后缀文件并保存为docx
Apr 23 Python
python实时分析日志的一个小脚本分享
May 07 Python
详解Python3操作Mongodb简明易懂教程
May 25 Python
解决Django migrate不能发现app.models的表问题
Aug 31 Python
python程序 线程队列queue使用方法解析
Sep 23 Python
python实现一个猜拳游戏
Apr 05 Python
浅谈Python 函数式编程
Jun 20 Python
opencv 形态学变换(开运算,闭运算,梯度运算)
Jul 07 Python
Python ellipsis 的用法详解
Nov 20 Python
Python 数据结构之十大经典排序算法一文通关
Oct 16 Python
详解Python中的四种队列
May 21 #Python
Python实现的当前时间多加一天、一小时、一分钟操作示例
May 21 #Python
Python自定义函数实现求两个数最大公约数、最小公倍数示例
May 21 #Python
Python基于递归和非递归算法求两个数最大公约数、最小公倍数示例
May 21 #Python
Python常用字符串替换函数strip、replace及sub用法示例
May 21 #Python
Python下使用Scrapy爬取网页内容的实例
May 21 #Python
python 每天如何定时启动爬虫任务(实现方法分享)
May 21 #Python
You might like
为IP查询添加GOOGLE地图功能的代码
2010/08/08 PHP
php通过array_merge()函数合并两个数组的方法
2015/03/18 PHP
php的api数据接口书写实例(推荐)
2016/09/22 PHP
php tpl模板引擎定义与使用示例
2019/08/09 PHP
文本加密解密
2006/06/23 Javascript
JavaScript 学习笔记(十一)
2010/01/19 Javascript
jQuery.Validate 使用笔记(jQuery Validation范例 )
2010/06/25 Javascript
Jquery插件之打造自定义的select标签
2011/11/30 Javascript
javascript 密码框防止用户粘贴和复制的实现代码
2014/02/17 Javascript
JavaScript中的无阻塞加载性能优化方案
2014/10/10 Javascript
jQuery Mobile中的button按钮组件基础使用教程
2016/05/23 Javascript
Bootstrap常用组件学习(整理)
2017/03/24 Javascript
10分钟上手vue-cli 3.0 入门介绍
2018/04/04 Javascript
如何从头实现一个node.js的koa框架
2019/06/17 Javascript
uni-app 组件里面获取元素宽高的实现
2019/12/27 Javascript
ElementUI 修改默认样式的几种办法(小结)
2020/07/29 Javascript
vue router-link 默认a标签去除下划线的实现
2020/11/06 Javascript
[01:04:29]DOTA2-DPC中国联赛 正赛 Phoenix vs XG BO3 第二场 1月31日
2021/03/11 DOTA
Python利用正则表达式匹配并截取指定子串及去重的方法
2015/07/30 Python
Python paramiko模块的使用示例
2018/04/11 Python
python计算两个数的百分比方法
2018/06/29 Python
PySide和PyQt加载ui文件的两种方法
2019/02/27 Python
python实现递归查找某个路径下所有文件中的中文字符
2019/08/31 Python
在Anaconda3下使用清华镜像源安装TensorFlow(CPU版)
2020/04/19 Python
CSS3实现线性渐变用法示例代码详解
2020/08/07 HTML / CSS
html5 CSS过度-webkit-transition使用介绍
2013/07/02 HTML / CSS
Radley英国官网:英国莱德利小狗包
2019/03/21 全球购物
德国二手设计师时装和复古时装跳蚤市场:Mädchenflohmarkt
2020/11/09 全球购物
新闻网站实习自我鉴定
2013/09/25 职场文书
皮肤科医师岗位职责
2013/12/04 职场文书
会计工作决心书
2014/03/11 职场文书
品质口号大全
2014/06/17 职场文书
2014年扶贫工作总结
2014/11/18 职场文书
写景作文评语集锦
2014/12/25 职场文书
个人创业事迹材料
2014/12/30 职场文书
Nginx配置使用详解
2022/07/07 Servers