编程 Python

python爬虫爬取网页数据并解析数据

Posted in Python onSeptember 18, 2020

1.网络爬虫的基本概念

网络爬虫（又称网络蜘蛛，机器人），就是模拟客户端发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。
只要浏览器能够做的事情，原则上，爬虫都能够做到。

2.网络爬虫的功能

python爬虫爬取网页数据并解析数据

网络爬虫可以代替手工做很多事情，比如可以用于做搜索引擎，也可以爬取网站上面的图片，比如有些朋友将某些网站上的图片全部爬取下来，集中进行浏览，同时，网络爬虫也可以用于金融投资领域，比如可以自动爬取一些金融信息，并进行投资分析等。

有时，我们比较喜欢的新闻网站可能有几个，每次都要分别打开这些新闻网站进行浏览，比较麻烦。此时可以利用网络爬虫，将这多个新闻网站中的新闻信息爬取下来，集中进行阅读。

有时，我们在浏览网页上的信息的时候，会发现有很多广告。此时同样可以利用爬虫将对应网页上的信息爬取过来，这样就可以自动的过滤掉这些广告，方便对信息的阅读与使用。

有时，我们需要进行营销，那么如何找到目标客户以及目标客户的联系方式是一个关键问题。我们可以手动地在互联网中寻找，但是这样的效率会很低。此时，我们利用爬虫，可以设置对应的规则，自动地从互联网中采集目标用户的联系方式等数据，供我们进行营销使用。

有时，我们想对某个网站的用户信息进行分析，比如分析该网站的用户活跃度、发言数、热门文章等信息，如果我们不是网站管理员，手工统计将是一个非常庞大的工程。此时，可以利用爬虫轻松将这些数据采集到，以便进行进一步分析，而这一切爬取的操作，都是自动进行的，我们只需要编写好对应的爬虫，并设计好对应的规则即可。

除此之外，爬虫还可以实现很多强大的功能。总之，爬虫的出现，可以在一定程度上代替手工访问网页，从而，原先我们需要人工去访问互联网信息的操作，现在都可以用爬虫自动化实现，这样可以更高效率地利用好互联网中的有效信息。

3.安装第三方库

在进行爬取数据和解析数据前，需要在Python运行环境中下载安装第三方库requests。

在Windows系统中，打开cmd（命令提示符）界面，在该界面输入pip install requests,按回车键进行安装。（注意连接网络）如下图

python爬虫爬取网页数据并解析数据

安装完成，如图

python爬虫爬取网页数据并解析数据

4.爬取淘宝首页

# 请求库
import requests
# 用于解决爬取的数据格式化
import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')
# 爬取的网页链接
r= requests.get("https://www.taobao.com/")
# 类型
# print(type(r))
print(r.status_code)
# 中文显示
# r.encoding='utf-8'
r.encoding=None
print(r.encoding)
print(r.text)
result = r.text

运行结果，如图

python爬虫爬取网页数据并解析数据

5.爬取和解析淘宝网首页

# 请求库
import requests
# 解析库
from bs4 import BeautifulSoup
# 用于解决爬取的数据格式化
import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')
# 爬取的网页链接
r= requests.get("https://www.taobao.com/")
# 类型
# print(type(r))
print(r.status_code)
# 中文显示
# r.encoding='utf-8'
r.encoding=None
print(r.encoding)
print(r.text)
result = r.text
# 再次封装，获取具体标签内的内容
bs = BeautifulSoup(result,'html.parser')
# 具体标签
print("解析后的数据")
print(bs.span)
a={}
# 获取已爬取内容中的script标签内容
data=bs.find_all('script')
# 获取已爬取内容中的td标签内容
data1=bs.find_all('td')
# 循环打印输出
for i in data:
 a=i.text
 print(i.text,end='')
 for j in data1:
  print(j.text)

运行结果，如图

python爬虫爬取网页数据并解析数据

6.小结

在对网页代码进行爬取操作时，不能频繁操作，更不要将其设置成死循环模式（每一次爬取则为对网页的访问，频繁操作会导致系统崩溃，会追究其法律责任）。

所以在获取网页数据后，将其保存为本地文本模式，再对其进行解析（不再需要访问网页）。

以上就是python爬虫爬取网页数据并解析数据的详细内容，更多关于python爬取网页数据并解析的资料请关注三水点靠木其它相关文章！

python爬虫爬取网页数据并解析数据

- Author -

小高冷

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python中split方法用法分析

Apr 17 Python

Python xlrd读取excel日期类型的2种方法

Apr 28 Python

python 实现红包随机生成算法的简单实例

Jan 04 Python

python数据类型_元组、字典常用操作方法(介绍)

May 30 Python

python自定义异常实例详解

Jul 11 Python

Python中最大最小赋值小技巧(分享)

Dec 23 Python

Tornado高并发处理方法实例代码

Jan 15 Python

对Python中range()函数和list的比较

Apr 19 Python

Python pip替换为阿里源的方法步骤

Jul 02 Python

python中从for循环延申到推导式的具体使用

Nov 29 Python

Python类继承和多态原理解析

Feb 05 Python

python爬取微博评论的实例讲解

Jan 15 Python

Python实现迪杰斯特拉算法过程解析

Sep 18 #Python

Python 操作 MySQL数据库

Sep 18 #Python

python实现人工蜂群算法

Sep 18 #Python

Python猫眼电影最近上映的电影票房信息

Sep 18 #Python

python实现简单遗传算法

Sep 18 #Python

详解python 支持向量机(SVM)算法

Sep 18 #Python

python利用线程实现多任务

Sep 18 #Python

You might like

解决了Ajax、MySQL 和 Zend Framework 的乱码问题

2009/03/03 PHP

Sorting Array Values in PHP(数组排序)

2011/09/15 PHP

Zend Framework教程之Application用法实例详解

2016/03/14 PHP

PHP实现的简单异常处理类示例

2017/05/04 PHP

PHPMailer使用QQ邮箱实现邮件发送功能

2017/08/18 PHP

PHP array_reduce()函数的应用解析

2018/10/28 PHP

Javascript 中的 call 和 apply使用介绍

2012/02/22 Javascript

仿新浪微博登陆邮箱提示效果的js代码

2013/08/02 Javascript

深入理解Javascript作用域与变量提升

2013/12/09 Javascript

JS判断移动端访问设备并加载对应CSS样式

2014/06/13 Javascript

javascript中递归函数用法注意点

2015/07/30 Javascript

第六篇Bootstrap表格样式介绍

2016/06/21 Javascript

jquery实现弹窗功能（窗口居中显示）

2017/02/27 Javascript

angular仿支付宝密码框输入效果

2017/03/25 Javascript

详解前端路由实现与react-router使用姿势

2017/08/07 Javascript

jQuery EasyUI 折叠面板accordion的使用实例(分享)

2017/12/25 jQuery

基于游标的分页接口实现代码示例

2018/11/12 Javascript

Vue.js样式动态绑定实现小结

2019/01/24 Javascript

vue中axios请求的封装实例代码

2019/03/23 Javascript

JS控制GIF图片的停止与显示

2019/10/24 Javascript

JS实现图片幻灯片效果代码实例

2020/05/21 Javascript

Python中的默认参数详解

2015/06/24 Python

python多线程抽象编程模型详解

2019/03/20 Python

Python2.7实现多进程下开发多线程示例

2019/05/31 Python

PyQt5响应回车事件的方法

2019/06/25 Python

Python 字符串类型列表转换成真正列表类型过程解析

2019/08/26 Python

Python 日期的转换及计算的具体使用详解

2020/01/16 Python

详解css3中 text-fill-color属性

2019/07/08 HTML / CSS

GUESS Factory加拿大：牛仔裤、服装及配饰

2019/09/20 全球购物

使用useBean标志初始化BEAN时如何接受初始化参数

2012/02/11 面试题

得到Class的三个过程是什么

2012/08/10 面试题

Delphi软件工程师试题

2013/01/29 面试题

詹天佑教学反思

2014/04/30 职场文书

城南旧事电影观后感

2015/06/16 职场文书

django上传文件的三种方式

2021/04/29 Python

php去除数组中为0的元素的实例分析

2021/11/17 PHP