python爬虫要用到的库总结


Posted in Python onJuly 28, 2020

python爬虫要用到的库:

请求库:实现 HTTP 请求操作

  • urllib:一系列用于操作URL的功能。
  • requests:基于 urllib 编写的,阻塞式 HTTP 请求库,发出一个请求,一直等待服务器响应后,程序才能进行下一步处理。
  • selenium:自动化测试工具。一个调用浏览器的 driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。
  • aiohttp:基于 asyncio 实现的 HTTP 框架。异步操作借助于 async/await 关键字,使用异步库进行数据抓取,可以大大提高效率。
  • 解析库:从网页中提取信息
  • beautifulsoup:html 和 XML 的解析,从网页中提取信息,同时拥有强大的API和多样解析方式。
  • pyquery:jQuery 的 Python 实现,能够以 jQuery 的语法来操作解析 HTML 文档,易用性和解析速度都很好。
  • lxml:支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。
  • tesserocr:一个 OCR 库,在遇到验证码(图形验证码为主)的时候,可直接用 OCR 进行识别。
  • 存储库:Python 与数据库交互
  • pymysql:一个纯 Python 实现的 MySQL 客户端操作库。
  • pymongo:一个用于直接连接 mongodb 数据库进行查询操作的库。
  • redisdump:一个用于 redis 数据导入/导出的工具。基于 ruby 实现的,因此使用它,需要先安装 Ruby。
  • 爬虫框架
  • Scrapy:很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如 weibo 的页面信息,这个框架就满足不了需求了。
  • Crawley:高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为 JSON、XML 等。
  • Portia:可视化爬取网页内容。
  • newspaper:提取新闻、文章以及内容分析。
  • python-goose:java 写的文章提取工具。
  • cola:一个分布式爬虫框架。项目整体设计有点糟,模块间耦合度较高。
  • Web框架库
  • flask:轻量级的 web 服务程序,简单,易用,灵活,主要来做一些 API 服务。做代理时可能会用到。
  • django:一个 web 服务器框架,提供了一个完整的后台管理,引擎、接口等,使用它可做一个完整网站。

观点扩展:

学习爬虫,最初的操作便是模拟浏览器向服务器发出请求,那么我们需要从哪个地方开始做起呢?请求需要我们自己来构造吗?需要关心请求这个数据结构的实现嘛?需要了解HTTP、TCP、IP层的网络传输通信吗?需要直到服务器的响应和应答原理吗?

可能你对这些根本不了解,也没办法下手。但是没关系,python为我们提供了功能齐全的类库来帮助我们完成这些请求。最基础的HTTP库有urllib、requests、treq等。

以urllib为例,有了它,我们只需要关心请求的连接是什么。需要传的参数是什么,以及如何设置可选的请求头就好了,不用深入到底层去了解它到底是怎样传输和通信的。有了它,两行代码就可以完成一个请求和相应的处理过程,得到网页内容,是不是感觉方便极了?

以上就是python爬虫要用到的库总结的详细内容,更多关于python爬虫要用到哪些库的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python利用带权重随机数解决抽奖和游戏爆装备问题
Jun 16 Python
python django事务transaction源码分析详解
Mar 17 Python
python爬虫获取京东手机图片的图文教程
Dec 29 Python
python正则表达式爬取猫眼电影top100
Feb 24 Python
Python清空文件并替换内容的实例
Oct 22 Python
python通过SSH登陆linux并操作的实现
Oct 10 Python
使用wxpy实现自动发送微信消息功能
Feb 28 Python
Python如何给你的程序做性能测试
Jul 29 Python
Python常用断言函数实例汇总
Nov 30 Python
python 实现两个变量值进行交换的n种操作
Jun 02 Python
教你用python实现12306余票查询
Jun 30 Python
Python使用pandas导入csv文件内容的示例代码
Dec 24 Python
Python常用类型转换实现代码实例
Jul 28 #Python
Python 如何创建一个线程池
Jul 28 #Python
matplotlib subplot绘制多个子图的方法示例
Jul 28 #Python
python爬虫用mongodb的理由
Jul 28 #Python
python爬虫数据保存到mongoDB的实例方法
Jul 28 #Python
Python3爬虫带上cookie的实例代码
Jul 28 #Python
python实现批处理文件
Jul 28 #Python
You might like
php 接口类与抽象类的实际作用
2009/11/26 PHP
PHP中用接口、抽象类、普通基类实现“面向接口编程”与“耦合方法”简述
2011/03/23 PHP
分享50个提高PHP执行效率的技巧
2015/12/26 PHP
PHP上传Excel文件导入数据到MySQL数据库示例
2016/10/25 PHP
PHP设计模式之装饰器(装饰者)模式(Decorator)入门与应用详解
2019/12/13 PHP
自己的js工具_Form 封装
2009/08/21 Javascript
Jquery 1.42 checkbox 全选和反选代码
2010/03/27 Javascript
js异常捕获方法介绍
2013/04/10 Javascript
浅谈javascript回调函数
2014/12/07 Javascript
JavaScript检测弹出窗口是否已经关闭的方法
2015/03/24 Javascript
基于jquery实现即时检查格式是否正确的表单
2016/05/06 Javascript
解决bootstrap导航栏navbar在IE8上存在缺陷的方法
2016/07/01 Javascript
HTML页面,测试JS对C函数的调用简单实例
2016/08/09 Javascript
jquery判断页面网址是否有效的两种方法
2016/12/11 Javascript
使用Python的Supervisor进行进程监控以及自动启动
2014/05/29 Python
跟老齐学Python之集合(set)
2014/09/24 Python
菜鸟使用python实现正则检测密码合法性
2016/01/05 Python
python日志记录模块实例及改进
2017/02/12 Python
Python实现简易端口扫描器代码实例
2017/03/15 Python
使用Python实现跳帧截取视频帧
2019/05/31 Python
Python Pandas数据结构简单介绍
2019/07/03 Python
python列表推导式操作解析
2019/11/26 Python
Pytorch根据layers的name冻结训练方式
2020/01/06 Python
解决pycharm中的run和debug失效无法点击运行
2020/06/09 Python
基于html5 DeviceOrientation 实现微信摇一摇功能
2015/09/25 HTML / CSS
美国男装连锁零售商:Men’s Wearhouse
2016/10/14 全球购物
Doyoueven官网:澳大利亚健身服饰和配饰品牌
2019/03/24 全球购物
美国翻新电子产品商店:The Store
2019/10/08 全球购物
Hotels.com拉丁美洲:从豪华酒店到经济型酒店的预定优惠和折扣
2019/12/09 全球购物
中英文求职信范文
2014/01/27 职场文书
安全生产汇报材料
2014/02/17 职场文书
公司采购主管岗位职责
2014/06/17 职场文书
2014年评职称工作总结
2014/11/20 职场文书
在pyCharm中下载第三方库的方法
2021/04/18 Python
golang 实现两个结构体复制字段
2021/04/28 Golang
面试分析分布式架构Redis热点key大Value解决方案
2022/03/13 Redis