学python爬虫能做什么


Posted in Python onJuly 29, 2020

世界上80%的爬虫是基于Python开发的,学好爬虫技能,可为后续的大数据分析、挖掘、机器学习等提供重要的数据源。

什么是爬虫?

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据

爬虫可以做什么?

你可以用爬虫爬图片,爬取视频等等你想要爬取的数据,只要你能通过浏览器访问的数据都可以通过爬虫获取。

爬虫的本质是什么?

模拟浏览器打开网页,获取网页中我们想要的那部分数据

浏览器打开网页的过程:

当你在浏览器中输入地址后,经过DNS服务器找到服务器主机,向服务器发送一个请求,服务器经过解析后发送给用户浏览器结果,包括html,js,css等文件内容,浏览器解析出来最后呈现给用户在浏览器上看到的结果

所以用户看到的浏览器的结果就是由HTML代码构成的,我们爬虫就是为了获取这些内容,通过分析和过滤html代码,从中获取我们想要资源。

知识点扩展:

Python具有强大而丰富的类库,也经常被别人说是胶水语言,可以跟其它语言写的模块结合在一起。

优点

1.简单:Python是一种代表简单主义思想的语言。

2.易用:Python简单容易上手,因为有简单容易看懂的文档。

3.速度快:运行速度快,因为Python中的标准库和第三方库都是C语言编写的,所以很快。

4.免费、开源:Python是一款FLOSS(自由/源代码软件)之一,使用者可以自由地发布这个软件的拷贝、阅读它的源代码、对它做改动、把它的一部分用于新的自由软件中。

5.高层语言:用Python语言编写程序的时候无需考虑诸如如何管理你的程序使用的内存一类的底层细节。

6.可移植性:由于它的开源本质,Python已经被移植在许多平台上(经过改动使它能够工作在不同平台上)。

7.解释性:Python语言写的程序不需要编译成二进制代码。你可以直接从源代码运行 程序。在计算机内部,Python解释器把源代码转换成称为字节码的中间形式,然后再把它翻译成计算机使用的机器语言并运行。这使得使用Python更加简单。也使得Python程序更加易于移植。

8.面向对象:Python既支持面向过程的编程也支持面向对象的编程。在“面向过程”的语言中,程序是由过程或仅仅是可重用代码的函数构建起来的。在“面向对象”的语言中,程序是由数据和功能组合而成的对象构建起来的。

9.可扩展性:如果需要一段关键代码运行得更快或者希望某些算法不公开,可以部分程序用C或C++编写,然后在Python程序中使用它们。

10.可嵌入性:可以把Python嵌入C/C++程序,从而向程序用户提供脚本功能。

11.丰富的库:Python标准库确实很庞大。它可以帮助处理各种工作,包括正则表达式、文档生成、单元测试、线程、数据库、网页浏览器、CGI、FTP、电子邮件、XML、XML-RPC、HTML、WAV文件、密码系统、GUI(图形用户界面)、Tk和其他与系统有关的操作。

12.规范的代码:Python采用强制缩进的方式使得代码具有较好可读性。而Python语言写的程序不需要编译成二进制代码。

以上就是学python爬虫能做什么的详细内容,更多关于python爬虫可以做什么的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python常见文件操作的函数示例代码
Nov 15 Python
Django静态资源URL STATIC_ROOT的配置方法
Nov 08 Python
python中xrange用法分析
Apr 15 Python
Python缩进和冒号详解
Jun 01 Python
Python实现优先级队列结构的方法详解
Jun 02 Python
python正则表达式爬取猫眼电影top100
Feb 24 Python
使用django-crontab实现定时任务的示例
Feb 26 Python
基于Python脚本实现邮件报警功能
May 20 Python
用Python实现职工信息管理系统
Dec 30 Python
用Python自动清理系统垃圾的实现
Jan 18 Python
python实现三次密码验证的示例
Apr 29 Python
python-for x in range的用法(注意要点、细节)
May 10 Python
Python 创建TCP服务器的方法
Jul 28 #Python
Python实现画图软件功能方法详解
Jul 28 #Python
Python绘图之柱形图绘制详解
Jul 28 #Python
Python如何定义接口和抽象类
Jul 28 #Python
Python爬虫之爬取淘女郎照片示例详解
Jul 28 #Python
Python selenium键盘鼠标事件实现过程详解
Jul 28 #Python
用python写爬虫简单吗
Jul 28 #Python
You might like
PHP 字符串编码截取函数(兼容utf-8和gb2312)
2009/05/02 PHP
PHP提高编程效率的20个要点
2015/09/23 PHP
深入理解PHP之源码目录结构与功能说明
2016/06/01 PHP
thinkPHP数据查询常用方法总结【select,find,getField,query】
2017/03/15 PHP
SUN的《AJAX与J2EE》全文译了
2007/02/23 Javascript
JavaScript中的style.display属性操作
2013/03/27 Javascript
通过设置CSS中的position属性来固定层的位置
2015/12/14 Javascript
AngularJS自动表单验证
2016/02/01 Javascript
JavaScript简单实现鼠标移动切换图片的方法
2016/02/23 Javascript
JS中多种方式创建对象详解
2016/03/22 Javascript
Spring MVC中Ajax实现二级联动的简单实例
2016/07/06 Javascript
浅析JavaScript函数的调用模式
2016/08/10 Javascript
小程序自定义日历效果
2018/12/29 Javascript
微信小程序结合mock.js实现后台模拟及调试
2019/03/28 Javascript
layui动态渲染生成左侧3级菜单的方法(根据后台返回数据)
2019/09/23 Javascript
基于iview-admin实现动态路由的示例代码
2019/10/02 Javascript
[03:52]显微镜下的DOTA2第三期——英雄在无聊的时候干什么
2014/06/20 DOTA
Python数据结构之翻转链表
2017/02/25 Python
python增加矩阵维度的实例讲解
2018/04/04 Python
Django中的forms组件实例详解
2018/11/08 Python
python监控进程状态,记录重启时间及进程号的实例
2019/07/15 Python
python有序查找算法 二分法实例解析
2020/02/18 Python
PyCharm最新激活码(2020/10/27全网最新)
2020/10/27 Python
Html5让容器充满屏幕高度或自适应剩余高度的布局实现
2020/05/14 HTML / CSS
韩国女装NO.1网店:STYLENANDA
2016/09/16 全球购物
Stella McCartney官网:成衣、包袋、香水、内衣、童装及Adidas系列
2018/12/20 全球购物
利用promise及参数解构封装ajax请求的方法
2021/03/24 Javascript
乡村文明行动实施方案
2014/03/29 职场文书
《窗前的气球》教学反思
2014/04/07 职场文书
领导班子作风建设年个人整改措施
2014/09/29 职场文书
技术股份合作协议书
2014/10/05 职场文书
创业计划书之川味火锅店
2019/09/02 职场文书
Redis基于Bitmap实现用户签到功能
2021/06/20 Redis
Windows下用Nginx配置https服务器及反向代理的问题
2021/09/25 Servers
python 判断字符串当中是否包含字符(str.contain)
2022/06/01 Python
教你nginx跳转配置的四种方式
2022/07/07 Servers