学python爬虫能做什么


Posted in Python onJuly 29, 2020

世界上80%的爬虫是基于Python开发的,学好爬虫技能,可为后续的大数据分析、挖掘、机器学习等提供重要的数据源。

什么是爬虫?

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据

爬虫可以做什么?

你可以用爬虫爬图片,爬取视频等等你想要爬取的数据,只要你能通过浏览器访问的数据都可以通过爬虫获取。

爬虫的本质是什么?

模拟浏览器打开网页,获取网页中我们想要的那部分数据

浏览器打开网页的过程:

当你在浏览器中输入地址后,经过DNS服务器找到服务器主机,向服务器发送一个请求,服务器经过解析后发送给用户浏览器结果,包括html,js,css等文件内容,浏览器解析出来最后呈现给用户在浏览器上看到的结果

所以用户看到的浏览器的结果就是由HTML代码构成的,我们爬虫就是为了获取这些内容,通过分析和过滤html代码,从中获取我们想要资源。

知识点扩展:

Python具有强大而丰富的类库,也经常被别人说是胶水语言,可以跟其它语言写的模块结合在一起。

优点

1.简单:Python是一种代表简单主义思想的语言。

2.易用:Python简单容易上手,因为有简单容易看懂的文档。

3.速度快:运行速度快,因为Python中的标准库和第三方库都是C语言编写的,所以很快。

4.免费、开源:Python是一款FLOSS(自由/源代码软件)之一,使用者可以自由地发布这个软件的拷贝、阅读它的源代码、对它做改动、把它的一部分用于新的自由软件中。

5.高层语言:用Python语言编写程序的时候无需考虑诸如如何管理你的程序使用的内存一类的底层细节。

6.可移植性:由于它的开源本质,Python已经被移植在许多平台上(经过改动使它能够工作在不同平台上)。

7.解释性:Python语言写的程序不需要编译成二进制代码。你可以直接从源代码运行 程序。在计算机内部,Python解释器把源代码转换成称为字节码的中间形式,然后再把它翻译成计算机使用的机器语言并运行。这使得使用Python更加简单。也使得Python程序更加易于移植。

8.面向对象:Python既支持面向过程的编程也支持面向对象的编程。在“面向过程”的语言中,程序是由过程或仅仅是可重用代码的函数构建起来的。在“面向对象”的语言中,程序是由数据和功能组合而成的对象构建起来的。

9.可扩展性:如果需要一段关键代码运行得更快或者希望某些算法不公开,可以部分程序用C或C++编写,然后在Python程序中使用它们。

10.可嵌入性:可以把Python嵌入C/C++程序,从而向程序用户提供脚本功能。

11.丰富的库:Python标准库确实很庞大。它可以帮助处理各种工作,包括正则表达式、文档生成、单元测试、线程、数据库、网页浏览器、CGI、FTP、电子邮件、XML、XML-RPC、HTML、WAV文件、密码系统、GUI(图形用户界面)、Tk和其他与系统有关的操作。

12.规范的代码:Python采用强制缩进的方式使得代码具有较好可读性。而Python语言写的程序不需要编译成二进制代码。

以上就是学python爬虫能做什么的详细内容,更多关于python爬虫可以做什么的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python将人民币转换大写的脚本代码
Feb 10 Python
python中的hashlib和base64加密模块使用实例
Sep 02 Python
Python模仿POST提交HTTP数据及使用Cookie值的方法
Nov 10 Python
Python对列表中的各项进行关联详解
Aug 15 Python
python 接口_从协议到抽象基类详解
Aug 24 Python
pandas 数据索引与选取的实现方法
Jun 21 Python
django foreignkey(外键)的实现
Jul 29 Python
django-利用session机制实现唯一登录的例子
Mar 16 Python
python实现爱奇艺登陆密码RSA加密的方法示例详解
May 27 Python
Django serializer优化类视图的实现示例
Jul 16 Python
Python 解析xml文件的示例
Sep 29 Python
使用Python实现音频双通道分离
Dec 25 Python
Python 创建TCP服务器的方法
Jul 28 #Python
Python实现画图软件功能方法详解
Jul 28 #Python
Python绘图之柱形图绘制详解
Jul 28 #Python
Python如何定义接口和抽象类
Jul 28 #Python
Python爬虫之爬取淘女郎照片示例详解
Jul 28 #Python
Python selenium键盘鼠标事件实现过程详解
Jul 28 #Python
用python写爬虫简单吗
Jul 28 #Python
You might like
php URL编码解码函数代码
2009/03/10 PHP
PHP中加密解密函数与DES加密解密实例
2014/10/17 PHP
js基于qrcode.js生成二维码的方法【附demo插件源码下载】
2016/12/28 PHP
php基于session锁防止阻塞请求的方法分析
2017/08/07 PHP
JavaScipt中的Math.ceil() 、Math.floor() 、Math.round() 三个函数的理解
2010/04/29 Javascript
利用JQuery和JS实现奇偶行背景颜色自定义效果
2012/11/19 Javascript
js实时获取系统当前时间实例代码
2013/06/28 Javascript
PHPMyAdmin导入时提示文件大小超出PHP限制的解决方法
2015/03/30 Javascript
Javascript中的Prototype到底是什么
2016/02/16 Javascript
好好了解一下Cookie(强烈推荐)
2016/06/14 Javascript
浅谈jQuery中的checkbox问题
2016/08/10 Javascript
基于BootStrap multiselect.js实现的下拉框联动效果
2017/07/28 Javascript
jQuery条件分页 代替离线查询(附代码)
2017/08/17 jQuery
bootstrap模态框关闭后清除模态框的数据方法
2018/08/10 Javascript
详解vue开发中调用微信jssdk的问题
2019/04/16 Javascript
解析JS在获取当前月的最后一天遇到的坑
2019/08/30 Javascript
layui switch 开关监听 弹出确定状态转换的例子
2019/09/21 Javascript
vue项目使用.env文件配置全局环境变量的方法
2019/10/24 Javascript
利用Vue的v-for和v-bind实现列表颜色切换
2020/07/17 Javascript
[59:08]Ti4 冒泡赛第二天 NEWBEE vs Titan 2
2014/07/15 DOTA
[58:23]LGD vs TNC 2019国际邀请赛小组赛 BO2 第一场 8.15
2019/08/16 DOTA
Python 命令行参数sys.argv
2008/09/06 Python
在python的WEB框架Flask中使用多个配置文件的解决方法
2014/04/18 Python
python实现斐波那契递归函数的方法
2014/09/08 Python
python机器学习之神经网络(三)
2017/12/20 Python
简单的python协同过滤程序实例代码
2018/01/31 Python
pandas 使用apply同时处理两列数据的方法
2018/04/20 Python
Python将文本去空格并保存到txt文件中的实例
2018/07/24 Python
Python+OpenCV图片局部区域像素值处理改进版详解
2019/01/23 Python
详解python pandas 分组统计的方法
2019/07/30 Python
GOOD AMERICAN官网:为曲线性感而设计
2017/12/28 全球购物
管理失职检讨书
2015/05/05 职场文书
企业反腐倡廉心得体会
2015/08/15 职场文书
Python实战之实现康威生命游戏
2021/04/26 Python
详解Node.js如何处理ES6模块
2021/05/15 Javascript
MyBatis核心源码深度剖析SQL语句执行过程
2022/05/20 Java/Android