学python爬虫能做什么


Posted in Python onJuly 29, 2020

世界上80%的爬虫是基于Python开发的,学好爬虫技能,可为后续的大数据分析、挖掘、机器学习等提供重要的数据源。

什么是爬虫?

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据

爬虫可以做什么?

你可以用爬虫爬图片,爬取视频等等你想要爬取的数据,只要你能通过浏览器访问的数据都可以通过爬虫获取。

爬虫的本质是什么?

模拟浏览器打开网页,获取网页中我们想要的那部分数据

浏览器打开网页的过程:

当你在浏览器中输入地址后,经过DNS服务器找到服务器主机,向服务器发送一个请求,服务器经过解析后发送给用户浏览器结果,包括html,js,css等文件内容,浏览器解析出来最后呈现给用户在浏览器上看到的结果

所以用户看到的浏览器的结果就是由HTML代码构成的,我们爬虫就是为了获取这些内容,通过分析和过滤html代码,从中获取我们想要资源。

知识点扩展:

Python具有强大而丰富的类库,也经常被别人说是胶水语言,可以跟其它语言写的模块结合在一起。

优点

1.简单:Python是一种代表简单主义思想的语言。

2.易用:Python简单容易上手,因为有简单容易看懂的文档。

3.速度快:运行速度快,因为Python中的标准库和第三方库都是C语言编写的,所以很快。

4.免费、开源:Python是一款FLOSS(自由/源代码软件)之一,使用者可以自由地发布这个软件的拷贝、阅读它的源代码、对它做改动、把它的一部分用于新的自由软件中。

5.高层语言:用Python语言编写程序的时候无需考虑诸如如何管理你的程序使用的内存一类的底层细节。

6.可移植性:由于它的开源本质,Python已经被移植在许多平台上(经过改动使它能够工作在不同平台上)。

7.解释性:Python语言写的程序不需要编译成二进制代码。你可以直接从源代码运行 程序。在计算机内部,Python解释器把源代码转换成称为字节码的中间形式,然后再把它翻译成计算机使用的机器语言并运行。这使得使用Python更加简单。也使得Python程序更加易于移植。

8.面向对象:Python既支持面向过程的编程也支持面向对象的编程。在“面向过程”的语言中,程序是由过程或仅仅是可重用代码的函数构建起来的。在“面向对象”的语言中,程序是由数据和功能组合而成的对象构建起来的。

9.可扩展性:如果需要一段关键代码运行得更快或者希望某些算法不公开,可以部分程序用C或C++编写,然后在Python程序中使用它们。

10.可嵌入性:可以把Python嵌入C/C++程序,从而向程序用户提供脚本功能。

11.丰富的库:Python标准库确实很庞大。它可以帮助处理各种工作,包括正则表达式、文档生成、单元测试、线程、数据库、网页浏览器、CGI、FTP、电子邮件、XML、XML-RPC、HTML、WAV文件、密码系统、GUI(图形用户界面)、Tk和其他与系统有关的操作。

12.规范的代码:Python采用强制缩进的方式使得代码具有较好可读性。而Python语言写的程序不需要编译成二进制代码。

以上就是学python爬虫能做什么的详细内容,更多关于python爬虫可以做什么的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python求解水仙花数的方法
May 11 Python
Django中使用group_by的方法
May 26 Python
Python基于Logistic回归建模计算某银行在降低贷款拖欠率的数据示例
Jan 23 Python
Python 200行代码实现一个滑动验证码过程详解
Jul 11 Python
python 实现一个反向单位矩阵示例
Nov 29 Python
python plotly画柱状图代码实例
Dec 13 Python
python实现人机五子棋
Mar 25 Python
浅析python 定时拆分备份 nginx 日志的方法
Apr 27 Python
Python调用.net动态库实现过程解析
Jun 05 Python
Python实现一个论文下载器的过程
Jan 18 Python
Python OpenCV实现图形检测示例详解
Apr 08 Python
Python如何使用循环结构和分支结构
Apr 13 Python
Python 创建TCP服务器的方法
Jul 28 #Python
Python实现画图软件功能方法详解
Jul 28 #Python
Python绘图之柱形图绘制详解
Jul 28 #Python
Python如何定义接口和抽象类
Jul 28 #Python
Python爬虫之爬取淘女郎照片示例详解
Jul 28 #Python
Python selenium键盘鼠标事件实现过程详解
Jul 28 #Python
用python写爬虫简单吗
Jul 28 #Python
You might like
关于php fread()使用技巧
2010/01/22 PHP
PHP7 echo和print语句实例用法
2019/02/15 PHP
常见的5个PHP编码小陋习以及优化实例讲解
2021/02/27 PHP
解决js正则匹配换行问题实现代码
2012/12/10 Javascript
javascript定时变换图片实例代码
2013/03/17 Javascript
你必须知道的Javascript知识点之"单线程事件驱动"的使用
2013/04/23 Javascript
JavaScript 上万关键字瞬间匹配实现代码
2013/07/07 Javascript
jQuery表格列宽可拖拽改变且兼容firfox
2014/09/03 Javascript
js+css实现有立体感的按钮式文字竖排菜单效果
2015/09/01 Javascript
Angularjs中使用Filters详解
2016/03/11 Javascript
使用微信小程序开发前端【快速入门】
2016/12/05 Javascript
详解本地Node.js服务器作为api服务器的解决办法
2017/02/28 Javascript
javascript实现下雨效果
2017/03/27 Javascript
vue实现一个移动端屏蔽滑动的遮罩层实例
2017/06/08 Javascript
浅谈vue项目4rs vue-router上线后history模式遇到的坑
2018/09/27 Javascript
es6函数之箭头函数用法实例详解
2020/04/25 Javascript
JS 设计模式之:工厂模式定义与实现方法浅析
2020/05/06 Javascript
uniapp与webview之间的相互传值的实现
2020/06/29 Javascript
JS检测浏览器开发者工具是否打开的方法详解
2020/10/02 Javascript
解决removeEventListener 无法清除监听的问题
2020/10/30 Javascript
python 实现登录网页的操作方法
2018/05/11 Python
Python中对数组集进行按行打乱shuffle的方法
2018/11/08 Python
python脚本开机自启的实现方法
2019/06/28 Python
python之生成多层json结构的实现
2020/02/27 Python
Python进程的通信Queue、Pipe实例分析
2020/03/30 Python
HTML5 3D衣服摇摆动画特效
2016/03/17 HTML / CSS
基于zepto的插件之移动端无缝向上滚动并上下触摸滑动实例代码
2016/12/20 HTML / CSS
英国知名小木屋定制网站:Tiger Sheds
2020/03/06 全球购物
澳洲的UGG雪地靴超级市场:Uggs.com.au
2020/04/06 全球购物
药店主任岗位责任制
2014/02/10 职场文书
2014年度安全工作总结
2014/12/04 职场文书
付款承诺函范文
2015/01/21 职场文书
2015年小班保育员工作总结
2015/05/27 职场文书
高一化学教学反思
2016/02/22 职场文书
CSS3 制作的书本翻页特效
2021/04/13 HTML / CSS
Win10加载疑难解答时出错发生意外错误的解决方法
2022/07/07 数码科技