python爬虫基础知识点整理


Posted in Python onJune 02, 2020

首先爬虫是什么?

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

根据我的经验,要学习Python爬虫,我们要学习的共有以下几点:

  • Python基础知识
  • Python中urllib和urllib2库的用法
  • Python正则表达式
  • Python爬虫框架Scrapy
  • Python爬虫更高级的功能

1.Python基础学习

首先,我们要用Python写爬虫,肯定要了解Python的基础吧,万丈高楼平地起,不能忘啦那地基,哈哈,那么我就分享一下自己曾经看过的一些Python教程,小伙伴们可以作为参考。

1) Python学习网

Python学习网上有大量免费的Python入门教程,以便大家学习。不仅有视频教程,还有相应的问答版块,帮你解决学习过程中的问题,效果还是蛮不错的,内容基本上都是最基础的,入门开始的话,就这个吧

2) 廖雪峰Python教程

后来,我发现了廖老师的Python教程,讲的那是非常通俗易懂哪,感觉也是非常不错,大家如果想进一步了解Python就看一下这个吧。

3) 简明Python教程

还有一个我看过的,简明Python教程,感觉讲的也不错

学习网址:简明Python教程(https://woodpecker.org.cn/abyteofpython_cn/chinese/pr01.html#s01)

4) 汪海的实验室

这是我的本科实验室学长,入门的时候参考的他的文章,自己重新做了总结,后来这些系列文章又在他的基础上增加了一些内容。

学习网址:汪海的实验室(https://blog.csdn.net/wxg694175346/category_1418998_1.html)

2.Python urllib和urllib2 库的用法

urllib和urllib2库是学习Python爬虫最基本的库,利用这个库我们可以得到网页的内容,并对内容用正则表达式提取分析,得到我们想要的结果。这个在学习过程中我会和大家分享的。

3.Python 正则表达式

Python正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它“匹配”了,否则,该字符串就是不合法的。这个在后面的博文会分享的。

4.爬虫框架Scrapy

如果你是一个Python高手,基本的爬虫知识都已经掌握了,那么就寻觅一下Python框架吧,我选择的框架是Scrapy框架。这个框架有什么强大的功能呢?下面是它的官方介绍:

HTML, XML源数据 选择及提取 的内置支持
提供了一系列在spider之间共享的可复用的过滤器(即 Item Loaders),对智能处理爬取数据提供了内置支持。
通过 feed导出 提供了多格式(JSON、CSV、XML),多存储后端(FTP、S3、本地文件系统)的内置支持
提供了media pipeline,可以 自动下载 爬取到的数据中的图片(或者其他资源)。
高扩展性。您可以通过使用 signals ,设计好的API(中间件, extensions, pipelines)来定制实现您的功能。
内置的中间件及扩展为下列功能提供了支持:
cookies and session 处理
HTTP 压缩
HTTP 认证
HTTP 缓存
user-agent模拟
robots.txt
爬取深度限制
针对非英语语系中不标准或者错误的编码声明, 提供了自动检测以及健壮的编码支持。
支持根据模板生成爬虫。在加速爬虫创建的同时,保持在大型项目中的代码更为一致。详细内容请参阅 genspider 命令。
针对多爬虫下性能评估、失败检测,提供了可扩展的 状态收集工具 。
提供 交互式shell终端 , 为您测试XPath表达式,编写和调试爬虫提供了极大的方便
提供 System service, 简化在生产环境的部署及运行
内置 Web service, 使您可以监视及控制您的机器
内置 Telnet终端 ,通过在Scrapy进程中钩入Python终端,使您可以查看并且调试爬虫
Logging 为您在爬取过程中捕捉错误提供了方便
支持 Sitemaps 爬取
具有缓存的DNS解析器

官方文档:http://doc.scrapy.org/en/latest/

等我们掌握了基础的知识,再用这个 Scrapy 框架吧!

扯了这么多,好像没多少有用的东西额,那就不扯啦!

知识点扩展:

爬虫基本原理

爬虫是 模拟用户在浏览器或者App应用上的操作,把操作的过程、实现自动化的程序

当我们在浏览器中输入一个url后回车,后台会发生什么?比如说你输入https://www.baidu.com

简单来说这段过程发生了以下四个步骤:

  1. 查找域名对应的IP地址。
  2. 浏览器首先访问的是DNS(Domain Name System,域名系统),dns的主要工作就是把域名转换成相应的IP地址向IP对应的服务器发送请求。
  3. 服务器响应请求,发回网页内容。
  4. 浏览器显示网页内容。

网络爬虫要做的,简单来说,就是实现浏览器的功能。通过指定url,直接返回给用户所需要的数据, 而不需要一步步人工去操纵浏览器获取。

到此这篇关于python爬虫基础知识点整理的文章就介绍到这了,更多相关Python2爬虫入门内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
让 python 命令行也可以自动补全
Nov 30 Python
Python读取ini文件、操作mysql、发送邮件实例
Jan 01 Python
详细讲解Python中的文件I/O操作
May 24 Python
python中函数默认值使用注意点详解
Jun 01 Python
解决python使用open打开文件中文乱码的问题
Dec 29 Python
12个步骤教你理解Python装饰器
Jul 01 Python
通过实例解析Python调用json模块
Dec 11 Python
通过 Python 和 OpenCV 实现目标数量监控
Jan 05 Python
Python找出列表中出现次数最多的元素三种方式
Feb 24 Python
python判断是空的实例分享
Jul 06 Python
Python爬虫与反爬虫大战
Jul 30 Python
python数字图像处理之对比度与亮度调整示例
Jun 28 Python
如何理解python面向对象编程
Jun 01 #Python
Python CSS选择器爬取京东网商品信息过程解析
Jun 01 #Python
matlab、python中矩阵的互相导入导出方式
Jun 01 #Python
如何理解Python中的变量
Jun 01 #Python
pycharm实现print输出保存到txt文件
Jun 01 #Python
Python如何爬取qq音乐歌词到本地
Jun 01 #Python
pycharm sciview的图片另存为操作
Jun 01 #Python
You might like
thinkPHP实现表单自动验证
2014/12/24 PHP
Nginx实现反向代理
2017/09/20 Servers
php大小写转换函数(strtolower、strtoupper)用法介绍
2017/11/17 PHP
JCalendar 日历控件 v1.0 beta[兼容IE&Firefox] 有文档和例子
2007/05/30 Javascript
JavaScript Konami Code 实现代码
2009/07/29 Javascript
javascript获取所有同类checkbox选项(实例代码)
2013/11/07 Javascript
自定义的一个简单时尚js下拉选择框
2013/11/20 Javascript
Extjs4中tree的拖拽功能(可以两棵树之间拖拽) 简单实例
2013/12/08 Javascript
jquery模拟LCD 时钟的html文件源代码
2014/06/16 Javascript
jQuery 如何给Carousel插件添加新的功能
2016/04/18 Javascript
JavaScript操作 url 中 search 部分方法函数
2016/06/15 Javascript
vue.js入门教程之计算属性
2016/09/01 Javascript
简单实现node.js图片上传
2016/12/18 Javascript
JavaScript cookie详解及简单实例应用
2016/12/31 Javascript
基于zepto.js实现手机相册功能
2017/07/11 Javascript
express默认日志组件morgan的方法
2018/04/05 Javascript
vue 表单之通过v-model绑定单选按钮radio
2019/05/13 Javascript
js中比较两个对象是否相同的方法示例
2019/09/02 Javascript
el-table树形表格表单验证(列表生成序号)
2020/05/31 Javascript
微信小程序使用前置摄像头拍照
2020/10/22 Javascript
Python使用Flask框架同时上传多个文件的方法
2015/03/21 Python
Python实现的双色球生成功能示例
2017/12/18 Python
jupyter notebook引用from pyecharts.charts import Bar运行报错
2020/04/23 Python
详解多线程Django程序耗尽数据库连接的问题
2018/10/08 Python
python微元法计算函数曲线长度的方法
2018/11/08 Python
代码详解django中数据库设置
2019/01/28 Python
解决pyqt5中QToolButton无法使用的问题
2019/06/21 Python
详解Django自定义图片和文件上传路径(upload_to)的2种方式
2020/12/01 Python
英国女士和男士时尚服装网上购物:Top Labels Online
2018/03/25 全球购物
For Art’s Sake官网:手工制作的奢华眼镜
2018/12/15 全球购物
说明书范文
2014/05/07 职场文书
房屋分割离婚协议书范本
2014/12/01 职场文书
2015年仓库管理员工作总结
2015/04/21 职场文书
爱护环境建议书
2015/09/14 职场文书
零基础学java之带返回值的方法的定义和调用
2022/04/10 Java/Android
vue的项目如何打包上线
2022/04/13 Vue.js