编程 Python

Python读取本地文件并解析网页元素的方法

Posted in Python onMay 21, 2018

如下所示：

from bs4 import BeautifulSoup
path = './web/new_index.html'
with open(path, 'r') as f:
 Soup = BeautifulSoup(f.read(), 'lxml')
 titles = Soup.select('ul > li > div.article-info > h3 > a')
for title in titles:
 print(title.text)

输出：
Sardinia's top 10 beaches
How to get tanned
How to be an Aussie beach bum
Summer's cheat sheet

#其中
titles = Soup.select('ul > li > div.article-info > h3 > a')
#等效
titles = Soup.select('h3 a')

print(title.text)
#等效
print(title.get_text())
print(title.string)

也可以使用以下代码

import bs4 
 
path = './web/new_index.html' 
 
with open(path, 'r') as f: 
 Soup = bs4.BeautifulSoup(f.read(), 'lxml') 
 
 titles = Soup.select('h3 a') 
for title in titles: 
 print(title.string)

Html原文：

<html>
<head>
 <link rel="stylesheet" type="text/css" href="new_blah.css" rel="external nofollow" >
</head>
<body>
 <div class="header">
  <img src="images/blah.png">
  <ul class="nav">
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Home</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Site</a></li>
   <li><a href="#" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Other</a></li>
  </ul>
 </div>
 <div class="main-content">
  <h2>Article</h2>
  <ul class="articles">
   <li>
    <img src="images/0001.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Sardinia's top 10 beaches</a></h3>
     <p class="meta-info">
      <span class="meta-cate">fun</span>
      <span class="meta-cate">Wow</span>
     </p>
     <p class="description">white sands and turquoise waters</p>
    </div>
    <div class="rate">
     <span class="rate-score">4.5</span>
    </div>
   </li>
   <li>
    <img src="images/0002.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to get tanned</a></h3>
     <p class="meta-info">
      <span class="meta-cate">butt</span><span class="meta-cate">NSFW</span>
     </p>
     <p class="description">hot bikini girls on beach</p>
    </div>
    <div class="rate">
     <img src="images/Fire.png" width="18" height="18">
     <span class="rate-score">5.0</span>
    </div>
   </li>
   <li>
    <img src="images/0003.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >How to be an Aussie beach bum</a></h3>
     <p class="meta-info">
      <span class="meta-cate">sea</span>
     </p>
     <p class="description">To make the most of your visit</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.5</span>
    </div>
   </li>
   <li>
    <img src="images/0004.jpg" width="100" height="91">
    <div class="article-info">
     <h3><a href="www.sample.com" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" >Summer's cheat sheet</a></h3>
     <p class="meta-info">
      <span class="meta-cate">bay</span>
      <span class="meta-cate">boat</span>
      <span class="meta-cate">beach</span>
     </p>
     <p class="description">choosing a beach in Cape Cod</p>
    </div>
    <div class="rate">
     <span class="rate-score">3.0</span>
    </div>
   </li>
  </ul>
 </div>
 <div class="footer">
  <p>© Mugglecoding</p>
 </div>
</body>
</html>

以上这篇Python读取本地文件并解析网页元素的方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

Python读取本地文件并解析网页元素的方法

- Author -

林毅洋

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

如何将python中的List转化成dictionary

Aug 15 Python

python使用电子邮件模块smtplib的方法

Aug 28 Python

Python基于高斯消元法计算线性方程组示例

Jan 17 Python

python文件写入write（）的操作

May 14 Python

python和mysql交互操作实例详解【基于pymysql库】

Jun 04 Python

在windows下使用python进行串口通讯的方法

Jul 02 Python

使用Python实现图像标记点的坐标输出功能

Aug 14 Python

对Pytorch中nn.ModuleList 和 nn.Sequential详解

Aug 18 Python

python shutil文件操作工具使用实例分析

Dec 25 Python

Pytorch释放显存占用方式

Jan 13 Python

浅谈pandas.cut与pandas.qcut的使用方法及区别

Mar 03 Python

Python数据可视化之Seaborn的安装及使用

Apr 19 Python

详解Python中的四种队列

May 21 #Python

Python实现的当前时间多加一天、一小时、一分钟操作示例

May 21 #Python

Python自定义函数实现求两个数最大公约数、最小公倍数示例

May 21 #Python

Python基于递归和非递归算法求两个数最大公约数、最小公倍数示例

May 21 #Python

Python常用字符串替换函数strip、replace及sub用法示例

May 21 #Python

Python下使用Scrapy爬取网页内容的实例

May 21 #Python

python 每天如何定时启动爬虫任务(实现方法分享)

May 21 #Python

You might like

咖啡豆要不要放冰箱的原因

2021/03/04 冲泡冲煮

简单的过滤字符串中的HTML标记

2006/12/25 PHP

php安全开发添加随机字符串验证，防止伪造跨站请求

2013/02/14 PHP

解决ajax+php中文乱码的方法详解

2013/06/09 PHP

PHP读取大文件的类SplFileObject使用介绍

2014/04/09 PHP

CI框架（ajax分页，全选，反选，不选，批量删除）完整代码详解

2016/11/01 PHP

Yii2框架实现登陆添加验证码功能示例

2018/07/12 PHP

javascript入门·图片对象(无刷新变换图片)\滚动图像

2007/10/01 Javascript

Jquery树插件zTree用法入门教程

2015/02/17 Javascript

jQuery实现的纵向下拉菜单实例详解【附demo源码下载】

2016/07/09 Javascript

利用Angularjs和原生JS分别实现动态效果的输入框

2016/09/01 Javascript

解析预加载显示图片艺术

2016/12/05 Javascript

AngularJS控制器controller给模型数据赋初始值的方法

2017/01/04 Javascript

详解vue2.0 transition 多个元素嵌套使用过渡

2017/06/19 Javascript

JS实现的合并多个数组去重算法示例

2018/04/11 Javascript

生产制造追溯系统之在线打印功能

2019/06/03 Javascript

使用vue打包进行云服务器上传的问题

2020/03/02 Javascript

js实现文章目录索引导航(table of content)

2020/05/10 Javascript

通过高德地图API获得某条道路上的所有坐标用于描绘道路的方法

2020/08/24 Javascript

Vertx基于EventBus发送接受自定义对象

2020/11/16 Javascript

[00:31]DOTA2上海特级锦标赛 Fnatic战队宣传片

2016/03/04 DOTA

python3.6.3转化为win-exe文件发布的方法

2018/10/31 Python

python中数组和矩阵乘法及使用总结（推荐）

2019/05/18 Python

用CSS3实现瀑布流布局的示例代码

2017/11/10 HTML / CSS

css3 仿写阿里云水纹效果的示例代码

2018/02/10 HTML / CSS

Html5踩坑记之mandMobile使用小记

2020/04/02 HTML / CSS

国际金融专业大学生职业生涯规划书

2013/12/28 职场文书

写给女朋友的检讨书

2014/01/28 职场文书

《我的伯父鲁迅先生》教学反思

2014/02/12 职场文书

给全校老师的建议书

2014/03/13 职场文书

晚会闭幕词

2015/01/28 职场文书

张丽莉观后感

2015/06/16 职场文书

2019年英语版感谢信（8篇）

2019/09/29 职场文书

2019年幼儿园家长接送责任书

2019/10/29 职场文书

教你如何让spark sql写mysql的时候支持update操作

2022/02/15 MySQL

Tomcat弱口令复现及利用

2022/05/06 Servers