python爬虫爬取网页数据并解析数据


Posted in Python onSeptember 18, 2020

1.网络爬虫的基本概念

网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。
只要浏览器能够做的事情,原则上,爬虫都能够做到。

2.网络爬虫的功能

python爬虫爬取网页数据并解析数据

网络爬虫可以代替手工做很多事情,比如可以用于做搜索引擎,也可以爬取网站上面的图片,比如有些朋友将某些网站上的图片全部爬取下来,集中进行浏览,同时,网络爬虫也可以用于金融投资领域,比如可以自动爬取一些金融信息,并进行投资分析等。

有时,我们比较喜欢的新闻网站可能有几个,每次都要分别打开这些新闻网站进行浏览,比较麻烦。此时可以利用网络爬虫,将这多个新闻网站中的新闻信息爬取下来,集中进行阅读。

有时,我们在浏览网页上的信息的时候,会发现有很多广告。此时同样可以利用爬虫将对应网页上的信息爬取过来,这样就可以自动的过滤掉这些广告,方便对信息的阅读与使用。

有时,我们需要进行营销,那么如何找到目标客户以及目标客户的联系方式是一个关键问题。我们可以手动地在互联网中寻找,但是这样的效率会很低。此时,我们利用爬虫,可以设置对应的规则,自动地从互联网中采集目标用户的联系方式等数据,供我们进行营销使用。

有时,我们想对某个网站的用户信息进行分析,比如分析该网站的用户活跃度、发言数、热门文章等信息,如果我们不是网站管理员,手工统计将是一个非常庞大的工程。此时,可以利用爬虫轻松将这些数据采集到,以便进行进一步分析,而这一切爬取的操作,都是自动进行的,我们只需要编写好对应的爬虫,并设计好对应的规则即可。

除此之外,爬虫还可以实现很多强大的功能。总之,爬虫的出现,可以在一定程度上代替手工访问网页,从而,原先我们需要人工去访问互联网信息的操作,现在都可以用爬虫自动化实现,这样可以更高效率地利用好互联网中的有效信息。

3.安装第三方库

在进行爬取数据和解析数据前,需要在Python运行环境中下载安装第三方库requests。

在Windows系统中,打开cmd(命令提示符)界面,在该界面输入pip install requests,按回车键进行安装。(注意连接网络)如下图

python爬虫爬取网页数据并解析数据

安装完成,如图

python爬虫爬取网页数据并解析数据

4.爬取淘宝首页

# 请求库
import requests
# 用于解决爬取的数据格式化
import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')
# 爬取的网页链接
r= requests.get("https://www.taobao.com/")
# 类型
# print(type(r))
print(r.status_code)
# 中文显示
# r.encoding='utf-8'
r.encoding=None
print(r.encoding)
print(r.text)
result = r.text

运行结果,如图

python爬虫爬取网页数据并解析数据

5.爬取和解析淘宝网首页

# 请求库
import requests
# 解析库
from bs4 import BeautifulSoup
# 用于解决爬取的数据格式化
import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')
# 爬取的网页链接
r= requests.get("https://www.taobao.com/")
# 类型
# print(type(r))
print(r.status_code)
# 中文显示
# r.encoding='utf-8'
r.encoding=None
print(r.encoding)
print(r.text)
result = r.text
# 再次封装,获取具体标签内的内容
bs = BeautifulSoup(result,'html.parser')
# 具体标签
print("解析后的数据")
print(bs.span)
a={}
# 获取已爬取内容中的script标签内容
data=bs.find_all('script')
# 获取已爬取内容中的td标签内容
data1=bs.find_all('td')
# 循环打印输出
for i in data:
 a=i.text
 print(i.text,end='')
 for j in data1:
  print(j.text)

运行结果,如图

python爬虫爬取网页数据并解析数据

6.小结

在对网页代码进行爬取操作时,不能频繁操作,更不要将其设置成死循环模式(每一次爬取则为对网页的访问,频繁操作会导致系统崩溃,会追究其法律责任)。

所以在获取网页数据后,将其保存为本地文本模式,再对其进行解析(不再需要访问网页)。

以上就是python爬虫爬取网页数据并解析数据的详细内容,更多关于python爬取网页数据并解析的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
基于python编写的微博应用
Oct 17 Python
解决Python中由于logging模块误用导致的内存泄露
Apr 23 Python
用Python操作字符串之rindex()方法的使用
May 19 Python
在Python中操作文件之seek()方法的使用教程
May 24 Python
Python SVM(支持向量机)实现方法完整示例
Jun 19 Python
对python自动生成接口测试的示例讲解
Nov 30 Python
解决python测试opencv时imread导致的错误问题
Jan 26 Python
Python实现的调用C语言函数功能简单实例
Mar 13 Python
python网络应用开发知识点浅析
May 28 Python
关于pytorch中网络loss传播和参数更新的理解
Aug 20 Python
python pandas.DataFrame.loc函数使用详解
Mar 26 Python
python解压zip包中文乱码解决方法
Nov 27 Python
Python实现迪杰斯特拉算法过程解析
Sep 18 #Python
Python 操作 MySQL数据库
Sep 18 #Python
python实现人工蜂群算法
Sep 18 #Python
Python猫眼电影最近上映的电影票房信息
Sep 18 #Python
python实现简单遗传算法
Sep 18 #Python
详解python 支持向量机(SVM)算法
Sep 18 #Python
python利用线程实现多任务
Sep 18 #Python
You might like
解决phpmyadmin中文乱码问题。。。
2007/01/18 PHP
php防止站外远程提交表单的方法
2014/10/20 PHP
PHP中STDCLASS用法实例分析
2016/11/11 PHP
浅谈PHP发送HTTP请求的几种方式
2017/07/25 PHP
PHP防止sql注入小技巧之sql预处理原理与实现方法分析
2019/12/13 PHP
写js时遇到的一些小问题
2010/12/06 Javascript
JavaScript截取字符串的Slice、Substring、Substr函数详解和比较
2014/03/20 Javascript
JavaScript中this的9种应用场景及三种复合应用场景
2015/09/12 Javascript
JS实现同一个网页布局滑动门和TAB选项卡实例
2015/09/23 Javascript
浅析Bootstrip的select控件绑定数据的问题
2016/05/10 Javascript
详解Vue.js——60分钟组件快速入门(上篇)
2016/12/05 Javascript
解析JavaScript数组方法reduce
2016/12/12 Javascript
微信小程序实现tab切换效果
2017/11/21 Javascript
在vue中,v-for的索引index在html中的使用方法
2018/03/06 Javascript
angular.js实现列表orderby排序的方法
2018/10/02 Javascript
原生JS无缝滑动轮播图
2019/10/22 Javascript
Python中每次处理一个字符的5种方法
2015/05/21 Python
Python编程中归并排序算法的实现步骤详解
2016/05/04 Python
Python使用Srapy框架爬虫模拟登陆并抓取知乎内容
2016/07/02 Python
浅谈python数据类型及类型转换
2017/12/18 Python
Python实现重建二叉树的三种方法详解
2018/06/23 Python
解决python 自动安装缺少模块的问题
2018/10/22 Python
使用python对文件中的单词进行提取的方法示例
2018/12/21 Python
OpenCV HSV颜色识别及HSV基本颜色分量范围
2019/03/22 Python
Html5 滚动穿透的方法
2019/05/13 HTML / CSS
英国Zoro工具:手动工具,电动工具和个人防护用品
2016/11/02 全球购物
英国领先品牌手动工具和电动工具供应商:Tooled Up
2018/11/24 全球购物
Wedgwood英国官方网站:英式精致骨瓷餐具、礼品与生活精品,源于1759年
2019/09/02 全球购物
泰国时尚电商:POMELO Fashion
2020/03/11 全球购物
Clos19英国:高档香槟、葡萄酒和烈酒在线购物平台
2020/07/10 全球购物
关于感恩的演讲稿500字
2014/08/26 职场文书
2014年国庆节寄语
2014/09/19 职场文书
个人纪律作风整改措施思想汇报
2014/10/12 职场文书
解除劳动合同证明书模板
2014/11/20 职场文书
员工手册编写范本
2015/05/14 职场文书
成功的商业计划书这样写才最靠谱
2019/07/12 职场文书