python爬虫爬取网页数据并解析数据


Posted in Python onSeptember 18, 2020

1.网络爬虫的基本概念

网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。
只要浏览器能够做的事情,原则上,爬虫都能够做到。

2.网络爬虫的功能

python爬虫爬取网页数据并解析数据

网络爬虫可以代替手工做很多事情,比如可以用于做搜索引擎,也可以爬取网站上面的图片,比如有些朋友将某些网站上的图片全部爬取下来,集中进行浏览,同时,网络爬虫也可以用于金融投资领域,比如可以自动爬取一些金融信息,并进行投资分析等。

有时,我们比较喜欢的新闻网站可能有几个,每次都要分别打开这些新闻网站进行浏览,比较麻烦。此时可以利用网络爬虫,将这多个新闻网站中的新闻信息爬取下来,集中进行阅读。

有时,我们在浏览网页上的信息的时候,会发现有很多广告。此时同样可以利用爬虫将对应网页上的信息爬取过来,这样就可以自动的过滤掉这些广告,方便对信息的阅读与使用。

有时,我们需要进行营销,那么如何找到目标客户以及目标客户的联系方式是一个关键问题。我们可以手动地在互联网中寻找,但是这样的效率会很低。此时,我们利用爬虫,可以设置对应的规则,自动地从互联网中采集目标用户的联系方式等数据,供我们进行营销使用。

有时,我们想对某个网站的用户信息进行分析,比如分析该网站的用户活跃度、发言数、热门文章等信息,如果我们不是网站管理员,手工统计将是一个非常庞大的工程。此时,可以利用爬虫轻松将这些数据采集到,以便进行进一步分析,而这一切爬取的操作,都是自动进行的,我们只需要编写好对应的爬虫,并设计好对应的规则即可。

除此之外,爬虫还可以实现很多强大的功能。总之,爬虫的出现,可以在一定程度上代替手工访问网页,从而,原先我们需要人工去访问互联网信息的操作,现在都可以用爬虫自动化实现,这样可以更高效率地利用好互联网中的有效信息。

3.安装第三方库

在进行爬取数据和解析数据前,需要在Python运行环境中下载安装第三方库requests。

在Windows系统中,打开cmd(命令提示符)界面,在该界面输入pip install requests,按回车键进行安装。(注意连接网络)如下图

python爬虫爬取网页数据并解析数据

安装完成,如图

python爬虫爬取网页数据并解析数据

4.爬取淘宝首页

# 请求库
import requests
# 用于解决爬取的数据格式化
import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')
# 爬取的网页链接
r= requests.get("https://www.taobao.com/")
# 类型
# print(type(r))
print(r.status_code)
# 中文显示
# r.encoding='utf-8'
r.encoding=None
print(r.encoding)
print(r.text)
result = r.text

运行结果,如图

python爬虫爬取网页数据并解析数据

5.爬取和解析淘宝网首页

# 请求库
import requests
# 解析库
from bs4 import BeautifulSoup
# 用于解决爬取的数据格式化
import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')
# 爬取的网页链接
r= requests.get("https://www.taobao.com/")
# 类型
# print(type(r))
print(r.status_code)
# 中文显示
# r.encoding='utf-8'
r.encoding=None
print(r.encoding)
print(r.text)
result = r.text
# 再次封装,获取具体标签内的内容
bs = BeautifulSoup(result,'html.parser')
# 具体标签
print("解析后的数据")
print(bs.span)
a={}
# 获取已爬取内容中的script标签内容
data=bs.find_all('script')
# 获取已爬取内容中的td标签内容
data1=bs.find_all('td')
# 循环打印输出
for i in data:
 a=i.text
 print(i.text,end='')
 for j in data1:
  print(j.text)

运行结果,如图

python爬虫爬取网页数据并解析数据

6.小结

在对网页代码进行爬取操作时,不能频繁操作,更不要将其设置成死循环模式(每一次爬取则为对网页的访问,频繁操作会导致系统崩溃,会追究其法律责任)。

所以在获取网页数据后,将其保存为本地文本模式,再对其进行解析(不再需要访问网页)。

以上就是python爬虫爬取网页数据并解析数据的详细内容,更多关于python爬取网页数据并解析的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python 解析XML文件
Apr 15 Python
python删除指定类型(或非指定)的文件实例详解
Jul 06 Python
python常见排序算法基础教程
Apr 13 Python
关于Python中浮点数精度处理的技巧总结
Aug 10 Python
python+django加载静态网页模板解析
Dec 12 Python
Python实现采用进度条实时显示处理进度的方法
Dec 19 Python
python通过getopt模块如何获取执行的命令参数详解
Dec 29 Python
python3结合openpyxl库实现excel操作的实例代码
Sep 11 Python
Python中is和==的区别详解
Nov 15 Python
python+logging+yaml实现日志分割
Jul 22 Python
Python 点击指定位置验证码破解的实现代码
Sep 11 Python
pycharm2020.1.2永久破解激活教程,实测有效
Oct 29 Python
Python实现迪杰斯特拉算法过程解析
Sep 18 #Python
Python 操作 MySQL数据库
Sep 18 #Python
python实现人工蜂群算法
Sep 18 #Python
Python猫眼电影最近上映的电影票房信息
Sep 18 #Python
python实现简单遗传算法
Sep 18 #Python
详解python 支持向量机(SVM)算法
Sep 18 #Python
python利用线程实现多任务
Sep 18 #Python
You might like
利用ThinkPHP内置的ThinkAjax实现异步传输技术的实现方法
2011/12/19 PHP
php中实现可以返回多个值的函数实例
2015/03/21 PHP
PHP实现四种基础排序算法的运行时间比较(推荐)
2016/08/11 PHP
PHP实现与java 通信的插件使用教程
2019/08/11 PHP
JQuery 插件模板 制作jquery插件的朋友可以参考下
2010/03/17 Javascript
js和jquery批量绑定事件传参数一(新猪猪原创)
2010/06/23 Javascript
自动最大化窗口的Javascript代码
2013/05/22 Javascript
JS实现点击图片在当前页面放大并可关闭的漂亮效果
2013/10/18 Javascript
Windows8下搭建Node.js开发环境教程
2014/09/03 Javascript
原生js实现的贪吃蛇网页版游戏完整实例
2015/05/18 Javascript
javascript字符串替换函数如何一次性全部替换掉
2015/10/30 Javascript
JS中的继承操作实例总结
2020/06/06 Javascript
详解如何为eclipse安装合适版本的python插件pydev
2018/11/04 Python
python笔记之mean()函数实现求取均值的功能代码
2019/07/05 Python
在自动化中用python实现键盘操作的方法详解
2019/07/19 Python
Python使用百度api做人脸对比的方法
2019/08/28 Python
tensorflow 获取checkpoint中的变量列表实例
2020/02/11 Python
python 安装教程之Pycharm安装及配置字体主题,换行,自动更新
2020/03/13 Python
Python实现汇率转换操作
2020/05/03 Python
python中 _、__、__xx__()区别及使用场景
2020/06/30 Python
python使用建议技巧分享(三)
2020/08/18 Python
Python基于execjs运行js过程解析
2020/11/27 Python
python中pivot()函数基础知识点
2021/01/03 Python
移动端rem布局的两种实现方法
2018/01/03 HTML / CSS
基于html5实现的图片墙效果
2014/10/16 HTML / CSS
荷兰优雅女装网上商店:Heine
2016/11/14 全球购物
Stuart Weitzman欧盟:美国奢华鞋履品牌
2017/05/24 全球购物
优质美利奴羊毛袜,不只是徒步旅行:Darn Tough Vermont
2018/11/05 全球购物
农村面貌改造提升实施方案
2014/03/18 职场文书
班级心理活动总结
2014/07/04 职场文书
科学发展观活动总结
2014/08/28 职场文书
超详细教你怎么升级Mysql的版本
2021/05/19 MySQL
详解java如何集成swagger组件
2021/06/21 Java/Android
pycharm代码删除恢复的方法
2021/06/26 Python
WebWorker 封装 JavaScript 沙箱详情
2021/11/02 Javascript
Windows 11要来了?微软文档揭示Win11太阳谷 / Win10有两个不同版本
2021/11/21 数码科技