浅谈Python爬虫基本套路


Posted in Python onMarch 25, 2019

什么是爬虫?

网络爬虫也叫网络蜘蛛,如果把互联网比喻成一个蜘蛛网,那么蜘蛛就是在网上爬来爬去的蜘蛛,爬虫程序通过请求url地址,根据响应的内容进行解析采集数据,
比如:如果响应内容是html,分析dom结构,进行dom解析、或者正则匹配,如果响应内容是xml/json数据,就可以转数据对象,然后对数据进行解析。

有什么作用?

通过有效的爬虫手段批量采集数据,可以降低人工成本,提高有效数据量,给予运营/销售的数据支撑,加快产品发展。

业界的情况

目前互联网产品竞争激烈,业界大部分都会使用爬虫技术对竞品产品的数据进行挖掘、采集、大数据分析,这是必备手段,并且很多公司都设立了爬虫工程师的岗位

合法性

爬虫是利用程序进行批量爬取网页上的公开信息,也就是前端显示的数据信息。因为信息是完全公开的,所以是合法的。其实就像浏览器一样,浏览器解析响应内容并渲染为页面,而爬虫解析响应内容采集想要的数据进行存储。

反爬虫

爬虫很难完全的制止,道高一尺魔高一丈,这是一场没有硝烟的战争,码农VS码农 
反爬虫一些手段:

  1. 合法检测:请求校验(useragent,referer,接口加签名,等)
  2. 小黑屋:IP/用户限制请求频率,或者直接拦截
  3. 投毒:反爬虫高境界可以不用拦截,拦截是一时的,投毒返回虚假数据,可以误导竞品决策
  4. ... ...

 爬虫的基本套路

浅谈Python爬虫基本套路

python爬虫

python写爬虫的优势

  1. python语法易学,容易上手
  2. 社区活跃,实现方案多可参考
  3. 各种功能包丰富
  4. 少量代码即可完成强大功能

涉及模块包

请求

  1. urllib
  2. urllib2
  3. cookielib

多线程

  1. threading

正则

  1. re

json解析

  1. json

html dom解析

  1. pyquery
  2. beautiful soup

操作浏览器

  1. selenium

以上所述是小编给大家介绍的Python爬虫基本套路详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
python正则表达式修复网站文章字体不统一的解决方法
Feb 21 Python
python使用PIL实现多张图片垂直合并
Jan 15 Python
django中ORM模型常用的字段的使用方法
Mar 05 Python
python实现微信定时每天和女友发送消息
Apr 29 Python
python socket 聊天室实例代码详解
Nov 14 Python
Pycharm最新激活码2019(推荐)
Dec 31 Python
tensorflow2.0保存和恢复模型3种方法
Feb 03 Python
Django全局启用登陆验证login_required的方法
Jun 02 Python
python中如何写类
Jun 29 Python
Python如何在单元测试中给对象打补丁
Aug 03 Python
详解Django关于StreamingHttpResponse与FileResponse文件下载的最优方法
Jan 07 Python
解决pytorch 保存模型遇到的问题
Mar 03 Python
我用Python抓取了7000 多本电子书案例详解
Mar 25 #Python
详解python:time模块用法
Mar 25 #Python
Python minidom模块用法示例【DOM写入和解析XML】
Mar 25 #Python
Python实例方法、类方法、静态方法的区别与作用详解
Mar 25 #Python
详解Python装饰器
Mar 25 #Python
详解用python自制微信机器人,定时发送天气预报
Mar 25 #Python
Python3.5实现的三级菜单功能示例
Mar 25 #Python
You might like
PHP的栏目导航程序
2006/10/09 PHP
PHP轻量级数据库操作类Medoo增加、删除、修改、查询例子
2014/07/04 PHP
PHP中SERIALIZE和JSON的序列化与反序列化操作区别分析
2016/10/11 PHP
php session的应用详细介绍
2017/03/22 PHP
PHP单例模式模拟Java Bean实现方法示例
2018/12/07 PHP
浅析PHP中的 inet_pton 网络函数
2019/12/16 PHP
JQuery Tips(2) 关于$()包装集你不知道的
2009/12/14 Javascript
JQuery中each()的使用方法说明
2010/08/19 Javascript
js输出列表实现代码
2010/09/12 Javascript
基于jQuery的图片左右无缝滚动插件
2012/05/23 Javascript
尝试在让script的type属性等于text/html
2013/01/15 Javascript
深入理解JavaScript系列(27):设计模式之建造者模式详解
2015/03/03 Javascript
JavaScript数据类型之基本类型和引用类型的值
2015/04/01 Javascript
pace.js页面加载进度条插件
2015/09/29 Javascript
Javascript中常用的检测方法小结
2016/10/08 Javascript
js实现点击每个li节点,都弹出其文本值及修改
2016/12/15 Javascript
Bootstrap CSS布局之按钮
2016/12/17 Javascript
微信小程序实现下载进度条的方法
2017/12/08 Javascript
Vue.js中 v-model 指令的修饰符详解
2018/12/03 Javascript
electron-vue开发环境内存泄漏问题汇总
2019/10/10 Javascript
vue 重塑数组之修改数组指定index的值操作
2020/08/09 Javascript
[01:46]TI4西雅图DOTA2前线报道 中国选手抱团调时差
2014/07/08 DOTA
举例介绍Python中的25个隐藏特性
2015/03/30 Python
详解Python 函数如何重载?
2019/04/23 Python
详解Python3网络爬虫(二):利用urllib.urlopen向有道翻译发送数据获得翻译结果
2019/05/07 Python
python内存监控工具memory_profiler和guppy的用法详解
2019/07/29 Python
Python MongoDB 插入数据时已存在则不执行,不存在则插入的解决方法
2019/09/24 Python
python匿名函数lambda原理及实例解析
2020/02/07 Python
Python函数参数分类原理详解
2020/05/28 Python
Python+unittest+requests 接口自动化测试框架搭建教程
2020/10/09 Python
伦敦眼门票在线预订:London Eye
2018/05/31 全球购物
展会邀请函范文
2014/01/26 职场文书
法学毕业生自我鉴定
2014/01/31 职场文书
好听的队名和口号
2014/06/09 职场文书
2014年9.18纪念日演讲稿
2014/09/14 职场文书
2014年节能减排工作总结
2014/12/06 职场文书