Python读取本地文件并解析网页元素的方法


Posted in Python onMay 21, 2018

如下所示:

from bs4 import BeautifulSoup
path = './web/new_index.html'
with open(path, 'r') as f:
 Soup = BeautifulSoup(f.read(), 'lxml')
 titles = Soup.select('ul > li > div.article-info > h3 > a')
for title in titles:
 print(title.text)

输出:
Sardinia's top 10 beaches
How to get tanned
How to be an Aussie beach bum
Summer's cheat sheet
#其中
titles = Soup.select('ul > li > div.article-info > h3 > a')
#等效
titles = Soup.select('h3 a')
print(title.text)
#等效
print(title.get_text())
print(title.string)

也可以使用以下代码

import bs4 
 
path = './web/new_index.html' 
 
with open(path, 'r') as f: 
 Soup = bs4.BeautifulSoup(f.read(), 'lxml') 
 
 titles = Soup.select('h3 a') 
for title in titles: 
 print(title.string)

Html原文:

<html>
<head>
 <link rel="stylesheet" type="text/css" href="new_blah.css" rel="external nofollow" >
</head>
<body>
 <div class="header">
  <img src="images/blah.png">
  <ul class="nav">
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Home</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Site</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Other</a></li>
  </ul>
 </div>
 <div class="main-content">
  <h2>Article</h2>
  <ul class="articles">
   <li>
    <img src="images/0001.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Sardinia's top 10 beaches</a></h3>
     <p class="meta-info">
      <span class="meta-cate">fun</span>
      <span class="meta-cate">Wow</span>
     </p>
     <p class="description">white sands and turquoise waters</p>
    </div>
    <div class="rate">
     <span class="rate-score">4.5</span>
    </div>
   </li>
   <li>
    <img src="images/0002.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to get tanned</a></h3>
     <p class="meta-info">
      <span class="meta-cate">butt</span><span class="meta-cate">NSFW</span>
     </p>
     <p class="description">hot bikini girls on beach</p>
    </div>
    <div class="rate">
     <img src="images/Fire.png" width="18" height="18">
     <span class="rate-score">5.0</span>
    </div>
   </li>
   <li>
    <img src="images/0003.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to be an Aussie beach bum</a></h3>
     <p class="meta-info">
      <span class="meta-cate">sea</span>
     </p>
     <p class="description">To make the most of your visit</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.5</span>
    </div>
   </li>
   <li>
    <img src="images/0004.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Summer's cheat sheet</a></h3>
     <p class="meta-info">
      <span class="meta-cate">bay</span>
      <span class="meta-cate">boat</span>
      <span class="meta-cate">beach</span>
     </p>
     <p class="description">choosing a beach in Cape Cod</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.0</span>
    </div>
   </li>
  </ul>
 </div>
 <div class="footer">
  <p>© Mugglecoding</p>
 </div>
</body>
</html>

以上这篇Python读取本地文件并解析网页元素的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python之import机制详解
Jul 03 Python
Python win32com 操作Exce的l简单方法(必看)
May 25 Python
Python3.x爬虫下载网页图片的实例讲解
May 22 Python
用Python一键搭建Http服务器的方法
Jun 01 Python
Python读取YUV文件,并显示的方法
Dec 04 Python
Python 调用 Windows API COM 新法
Aug 22 Python
Python批量启动多线程代码实例
Feb 18 Python
Django Channel实时推送与聊天的示例代码
Apr 30 Python
python中有函数重载吗
May 28 Python
Python闭包装饰器使用方法汇总
Jun 29 Python
Django如何创作一个简单的最小程序
May 12 Python
利用Python+OpenCV三步去除水印
May 28 Python
详解Python中的四种队列
May 21 #Python
Python实现的当前时间多加一天、一小时、一分钟操作示例
May 21 #Python
Python自定义函数实现求两个数最大公约数、最小公倍数示例
May 21 #Python
Python基于递归和非递归算法求两个数最大公约数、最小公倍数示例
May 21 #Python
Python常用字符串替换函数strip、replace及sub用法示例
May 21 #Python
Python下使用Scrapy爬取网页内容的实例
May 21 #Python
python 每天如何定时启动爬虫任务(实现方法分享)
May 21 #Python
You might like
在PHP中操作Excel实例代码
2010/04/29 PHP
php 面向对象的一个例子
2011/04/12 PHP
解析smarty 截取字符串函数 truncate的用法介绍
2013/06/20 PHP
php二维数组转成字符串示例
2014/02/17 PHP
codeigniter上传图片不能正确识别图片类型问题解决方法
2014/07/25 PHP
php使用simplexml_load_file加载XML文件并显示XML的方法
2015/03/19 PHP
YII使用url组件美化管理的方法
2015/12/28 PHP
将PHP程序中返回的JSON格式数据用gzip压缩输出的方法
2016/03/03 PHP
yii2 commands模式以及配置crontab定时任务的方法
2017/08/19 PHP
QQ邮箱的一个文本编辑器代码
2007/03/14 Javascript
ie focus bug 解决方法
2009/09/03 Javascript
ASP.NET jQuery 实例8 (动态添加内容到DropDownList)
2012/02/03 Javascript
用js实现控件的隐藏及style.visibility的使用
2013/06/14 Javascript
jquery与prototype框架的详细对比
2013/11/21 Javascript
a标签click和href执行顺序探讨
2014/06/23 Javascript
Javascript中获取对象的原型对象的方法小结
2015/02/25 Javascript
JS判断两个对象内容是否相等的方法示例
2017/04/10 Javascript
推荐三款日期选择插件(My97DatePicker、jquery.datepicker、Mobiscroll)
2017/04/21 jQuery
详解webpack介绍&amp;安装&amp;常用命令
2017/06/29 Javascript
JS实现选项卡插件的两种写法(jQuery和class)
2020/12/30 jQuery
[47:21]Liquid vs TNC Supermajor 胜者组 BO3 第一场 6.4
2018/06/05 DOTA
python检测服务器是否正常
2014/02/16 Python
仅利用30行Python代码来展示X算法
2015/04/01 Python
python实现随机调用一个浏览器打开网页
2018/04/21 Python
Python 实现取矩阵的部分列,保存为一个新的矩阵方法
2018/11/14 Python
使用Python制作简单的小程序IP查看器功能
2019/04/16 Python
python和node.js生成当前时间戳的示例
2020/09/29 Python
Python爬虫中Selenium实现文件上传
2020/12/04 Python
Lacoste澳大利亚官网:服装、鞋类及配饰
2018/11/14 全球购物
The Outnet亚太地区:折扣设计师时装店
2019/12/05 全球购物
服务质量承诺书
2014/03/27 职场文书
行政专员岗位职责范本
2014/08/26 职场文书
党员教师四风问题对照检查材料
2014/09/26 职场文书
2014年党务工作总结
2014/11/25 职场文书
学雷锋倡议书
2015/01/19 职场文书
死磕 java同步系列之synchronized解析
2021/06/28 Java/Android