学python爬虫能做什么


Posted in Python onJuly 29, 2020

世界上80%的爬虫是基于Python开发的,学好爬虫技能,可为后续的大数据分析、挖掘、机器学习等提供重要的数据源。

什么是爬虫?

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据

爬虫可以做什么?

你可以用爬虫爬图片,爬取视频等等你想要爬取的数据,只要你能通过浏览器访问的数据都可以通过爬虫获取。

爬虫的本质是什么?

模拟浏览器打开网页,获取网页中我们想要的那部分数据

浏览器打开网页的过程:

当你在浏览器中输入地址后,经过DNS服务器找到服务器主机,向服务器发送一个请求,服务器经过解析后发送给用户浏览器结果,包括html,js,css等文件内容,浏览器解析出来最后呈现给用户在浏览器上看到的结果

所以用户看到的浏览器的结果就是由HTML代码构成的,我们爬虫就是为了获取这些内容,通过分析和过滤html代码,从中获取我们想要资源。

知识点扩展:

Python具有强大而丰富的类库,也经常被别人说是胶水语言,可以跟其它语言写的模块结合在一起。

优点

1.简单:Python是一种代表简单主义思想的语言。

2.易用:Python简单容易上手,因为有简单容易看懂的文档。

3.速度快:运行速度快,因为Python中的标准库和第三方库都是C语言编写的,所以很快。

4.免费、开源:Python是一款FLOSS(自由/源代码软件)之一,使用者可以自由地发布这个软件的拷贝、阅读它的源代码、对它做改动、把它的一部分用于新的自由软件中。

5.高层语言:用Python语言编写程序的时候无需考虑诸如如何管理你的程序使用的内存一类的底层细节。

6.可移植性:由于它的开源本质,Python已经被移植在许多平台上(经过改动使它能够工作在不同平台上)。

7.解释性:Python语言写的程序不需要编译成二进制代码。你可以直接从源代码运行 程序。在计算机内部,Python解释器把源代码转换成称为字节码的中间形式,然后再把它翻译成计算机使用的机器语言并运行。这使得使用Python更加简单。也使得Python程序更加易于移植。

8.面向对象:Python既支持面向过程的编程也支持面向对象的编程。在“面向过程”的语言中,程序是由过程或仅仅是可重用代码的函数构建起来的。在“面向对象”的语言中,程序是由数据和功能组合而成的对象构建起来的。

9.可扩展性:如果需要一段关键代码运行得更快或者希望某些算法不公开,可以部分程序用C或C++编写,然后在Python程序中使用它们。

10.可嵌入性:可以把Python嵌入C/C++程序,从而向程序用户提供脚本功能。

11.丰富的库:Python标准库确实很庞大。它可以帮助处理各种工作,包括正则表达式、文档生成、单元测试、线程、数据库、网页浏览器、CGI、FTP、电子邮件、XML、XML-RPC、HTML、WAV文件、密码系统、GUI(图形用户界面)、Tk和其他与系统有关的操作。

12.规范的代码:Python采用强制缩进的方式使得代码具有较好可读性。而Python语言写的程序不需要编译成二进制代码。

以上就是学python爬虫能做什么的详细内容,更多关于python爬虫可以做什么的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python实现在字符串中查找子字符串的方法
Jul 11 Python
详谈python http长连接客户端
Jun 12 Python
详解Python 模拟实现生产者消费者模式的实例
Aug 10 Python
Python实现生成随机日期字符串的方法示例
Dec 25 Python
详解利用django中间件django.middleware.csrf.CsrfViewMiddleware防止csrf攻击
Oct 09 Python
python判断单向链表是否包括环,若包含则计算环入口的节点实例分析
Oct 23 Python
python循环嵌套的多种使用方法解析
Nov 29 Python
kafka-python 获取topic lag值方式
Dec 23 Python
python使用协程实现并发操作的方法详解
Dec 27 Python
使用Python爬虫库requests发送请求、传递URL参数、定制headers
Jan 25 Python
详解Anaconda 的安装教程
Sep 23 Python
python如何利用Mitmproxy抓包
Oct 10 Python
Python 创建TCP服务器的方法
Jul 28 #Python
Python实现画图软件功能方法详解
Jul 28 #Python
Python绘图之柱形图绘制详解
Jul 28 #Python
Python如何定义接口和抽象类
Jul 28 #Python
Python爬虫之爬取淘女郎照片示例详解
Jul 28 #Python
Python selenium键盘鼠标事件实现过程详解
Jul 28 #Python
用python写爬虫简单吗
Jul 28 #Python
You might like
《PHP编程最快明白》第四讲:日期、表单接收、session、cookie
2010/11/01 PHP
ThinkPHP分页类使用详解
2014/03/05 PHP
PHP使用glob函数遍历目录或文件夹的方法
2014/12/16 PHP
PHP+jquery+CSS制作头像登录窗(仿QQ登陆)
2016/10/20 PHP
使用apply方法实现javascript中的对象继承
2013/12/16 Javascript
使用js判断当前时区TimeZone是否是夏令时
2014/02/23 Javascript
javascript中的括号()用法小结
2014/04/14 Javascript
nodejs下打包模块archiver详解
2014/12/03 NodeJs
js实现左侧网页tab滑动门效果代码
2015/09/06 Javascript
使用jquery动态加载Js文件和Css文件
2015/10/24 Javascript
js常用DOM方法详解
2017/02/04 Javascript
详解Node.js开发中的express-session
2017/05/19 Javascript
JavaScript实现三级联动菜单效果
2017/08/16 Javascript
Vue 让元素抖动/摆动起来的实现代码
2018/05/31 Javascript
基于JavaScript实现瀑布流布局
2018/08/15 Javascript
JS正则表达式封装与使用操作示例
2019/05/15 Javascript
Typescript的三种运行方式(小结)
2019/09/18 Javascript
vue遍历对象中的数组取值示例
2019/11/07 Javascript
vue分页插件的使用方法
2019/12/25 Javascript
ES2020系列之空值合并运算符 '??'
2020/07/22 Javascript
利用PHP实现递归删除链表元素的方法示例
2020/10/23 Javascript
python删除列表中重复记录的方法
2015/04/28 Python
浅析Python中MySQLdb的事务处理功能
2016/09/21 Python
基于Python socket的端口扫描程序实例代码
2018/02/09 Python
python模块smtplib实现纯文本邮件发送功能
2018/05/22 Python
pyqt5 使用cv2 显示图片,摄像头的实例
2019/06/27 Python
获取Pytorch中间某一层权重或者特征的例子
2019/08/17 Python
浅谈Django+Gunicorn+Nginx部署之路
2019/09/11 Python
解决pyecharts运行后产生的html文件用浏览器打开空白
2020/03/11 Python
通过实例了解python__slots__使用方法
2020/09/14 Python
深入了解canvas在移动端绘制模糊的问题解决
2019/04/30 HTML / CSS
计算机学生求职信范文
2014/01/30 职场文书
读书演讲主持词
2014/03/18 职场文书
考生诚信考试承诺书
2014/05/23 职场文书
医学求职信
2014/05/28 职场文书
python 闭包函数详细介绍
2022/04/19 Python