Python读取本地文件并解析网页元素的方法


Posted in Python onMay 21, 2018

如下所示:

from bs4 import BeautifulSoup
path = './web/new_index.html'
with open(path, 'r') as f:
 Soup = BeautifulSoup(f.read(), 'lxml')
 titles = Soup.select('ul > li > div.article-info > h3 > a')
for title in titles:
 print(title.text)

输出:
Sardinia's top 10 beaches
How to get tanned
How to be an Aussie beach bum
Summer's cheat sheet
#其中
titles = Soup.select('ul > li > div.article-info > h3 > a')
#等效
titles = Soup.select('h3 a')
print(title.text)
#等效
print(title.get_text())
print(title.string)

也可以使用以下代码

import bs4 
 
path = './web/new_index.html' 
 
with open(path, 'r') as f: 
 Soup = bs4.BeautifulSoup(f.read(), 'lxml') 
 
 titles = Soup.select('h3 a') 
for title in titles: 
 print(title.string)

Html原文:

<html>
<head>
 <link rel="stylesheet" type="text/css" href="new_blah.css" rel="external nofollow" >
</head>
<body>
 <div class="header">
  <img src="images/blah.png">
  <ul class="nav">
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Home</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Site</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Other</a></li>
  </ul>
 </div>
 <div class="main-content">
  <h2>Article</h2>
  <ul class="articles">
   <li>
    <img src="images/0001.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Sardinia's top 10 beaches</a></h3>
     <p class="meta-info">
      <span class="meta-cate">fun</span>
      <span class="meta-cate">Wow</span>
     </p>
     <p class="description">white sands and turquoise waters</p>
    </div>
    <div class="rate">
     <span class="rate-score">4.5</span>
    </div>
   </li>
   <li>
    <img src="images/0002.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to get tanned</a></h3>
     <p class="meta-info">
      <span class="meta-cate">butt</span><span class="meta-cate">NSFW</span>
     </p>
     <p class="description">hot bikini girls on beach</p>
    </div>
    <div class="rate">
     <img src="images/Fire.png" width="18" height="18">
     <span class="rate-score">5.0</span>
    </div>
   </li>
   <li>
    <img src="images/0003.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to be an Aussie beach bum</a></h3>
     <p class="meta-info">
      <span class="meta-cate">sea</span>
     </p>
     <p class="description">To make the most of your visit</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.5</span>
    </div>
   </li>
   <li>
    <img src="images/0004.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Summer's cheat sheet</a></h3>
     <p class="meta-info">
      <span class="meta-cate">bay</span>
      <span class="meta-cate">boat</span>
      <span class="meta-cate">beach</span>
     </p>
     <p class="description">choosing a beach in Cape Cod</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.0</span>
    </div>
   </li>
  </ul>
 </div>
 <div class="footer">
  <p>© Mugglecoding</p>
 </div>
</body>
</html>

以上这篇Python读取本地文件并解析网页元素的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现应用程序在右键菜单中添加打开方式功能
Jan 09 Python
Python使用中文正则表达式匹配指定中文字符串的方法示例
Jan 20 Python
python批量获取html内body内容的实例
Jan 02 Python
Python3.5运算符操作实例详解
Apr 25 Python
Django项目使用CircleCI的方法示例
Jul 14 Python
Tensorflow 1.0之后模型文件、权重数值的读取方式
Feb 12 Python
python识别验证码图片实例详解
Feb 17 Python
python学生管理系统的实现
Apr 05 Python
keras.layer.input()用法说明
Jun 16 Python
pytorch快速搭建神经网络_Sequential操作
Jun 17 Python
使用ITK-SNAP进行抠图操作并保存mask的实例
Jul 01 Python
Matlab如何实现矩阵复制扩充
Jun 02 Python
详解Python中的四种队列
May 21 #Python
Python实现的当前时间多加一天、一小时、一分钟操作示例
May 21 #Python
Python自定义函数实现求两个数最大公约数、最小公倍数示例
May 21 #Python
Python基于递归和非递归算法求两个数最大公约数、最小公倍数示例
May 21 #Python
Python常用字符串替换函数strip、replace及sub用法示例
May 21 #Python
Python下使用Scrapy爬取网页内容的实例
May 21 #Python
python 每天如何定时启动爬虫任务(实现方法分享)
May 21 #Python
You might like
PHP Smarty模版简单使用方法
2016/03/30 PHP
PHP实现将上传图片自动缩放到指定分辨率,并保持清晰度封装类示例
2019/06/17 PHP
php如何实现数据库的备份和恢复
2020/11/30 PHP
prototype 的说明 js类
2006/09/07 Javascript
textarea的value是html文件源代码,存成html文件的代码
2007/04/20 Javascript
JavaScript 入门·JavaScript 具有全范围的运算符
2007/10/01 Javascript
文本框回车提交与禁止提交示例
2013/09/27 Javascript
js history对象简单实现返回和前进
2013/10/30 Javascript
jQuery使用height()获取高度需要注意的地方
2014/12/13 Javascript
js比较日期大小的方法
2015/05/12 Javascript
BootstrapTable与KnockoutJS相结合实现增删改查功能【一】
2016/05/10 Javascript
JCrop+ajaxUpload 图像切割上传的实例代码
2016/07/20 Javascript
jQuery选择器实例应用
2017/01/05 Javascript
详解Javascript几种跨域方式总结
2017/02/27 Javascript
json数据传到前台并解析展示成列表的方法
2018/08/06 Javascript
解决Vue2.0中使用less给元素添加背景图片出现的问题
2018/09/03 Javascript
Postman的下载及安装教程详解
2018/10/16 Javascript
基于jQuery的时间戳与日期间的转化
2019/06/21 jQuery
详解钉钉小程序组件之自定义模态框(弹窗封装实现)
2020/03/07 Javascript
微信小程序实现列表左右滑动
2020/11/19 Javascript
[03:55]显微镜下的DOTA2特别篇——430灰烬之灵神级操作
2014/06/24 DOTA
[09:43]DOTA2每周TOP10 精彩击杀集锦vol.5
2014/06/25 DOTA
收集的几个Python小技巧分享
2014/11/22 Python
用Python脚本来删除指定容量以上的文件的教程
2015/05/04 Python
对numpy中轴与维度的理解
2018/04/18 Python
深入浅析Python的类
2018/06/22 Python
sealed修饰符是干什么的
2012/10/23 面试题
优秀通讯员事迹材料
2014/01/28 职场文书
毕业设计说明书
2014/05/07 职场文书
诚信的演讲稿范文
2014/05/12 职场文书
2014年秋季开学演讲稿
2014/05/24 职场文书
2015年社区精神文明工作总结
2015/05/26 职场文书
2015年会计工作总结范文
2015/05/26 职场文书
python如何做代码性能分析
2021/04/26 Python
利用JavaScript写一个简单计算器
2021/11/27 Javascript
利用Python实现模拟登录知乎
2022/05/25 Python