浅谈Python爬虫基本套路


Posted in Python onMarch 25, 2019

什么是爬虫?

网络爬虫也叫网络蜘蛛,如果把互联网比喻成一个蜘蛛网,那么蜘蛛就是在网上爬来爬去的蜘蛛,爬虫程序通过请求url地址,根据响应的内容进行解析采集数据,
比如:如果响应内容是html,分析dom结构,进行dom解析、或者正则匹配,如果响应内容是xml/json数据,就可以转数据对象,然后对数据进行解析。

有什么作用?

通过有效的爬虫手段批量采集数据,可以降低人工成本,提高有效数据量,给予运营/销售的数据支撑,加快产品发展。

业界的情况

目前互联网产品竞争激烈,业界大部分都会使用爬虫技术对竞品产品的数据进行挖掘、采集、大数据分析,这是必备手段,并且很多公司都设立了爬虫工程师的岗位

合法性

爬虫是利用程序进行批量爬取网页上的公开信息,也就是前端显示的数据信息。因为信息是完全公开的,所以是合法的。其实就像浏览器一样,浏览器解析响应内容并渲染为页面,而爬虫解析响应内容采集想要的数据进行存储。

反爬虫

爬虫很难完全的制止,道高一尺魔高一丈,这是一场没有硝烟的战争,码农VS码农 
反爬虫一些手段:

  1. 合法检测:请求校验(useragent,referer,接口加签名,等)
  2. 小黑屋:IP/用户限制请求频率,或者直接拦截
  3. 投毒:反爬虫高境界可以不用拦截,拦截是一时的,投毒返回虚假数据,可以误导竞品决策
  4. ... ...

 爬虫的基本套路

浅谈Python爬虫基本套路

python爬虫

python写爬虫的优势

  1. python语法易学,容易上手
  2. 社区活跃,实现方案多可参考
  3. 各种功能包丰富
  4. 少量代码即可完成强大功能

涉及模块包

请求

  1. urllib
  2. urllib2
  3. cookielib

多线程

  1. threading

正则

  1. re

json解析

  1. json

html dom解析

  1. pyquery
  2. beautiful soup

操作浏览器

  1. selenium

以上所述是小编给大家介绍的Python爬虫基本套路详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
Python实现一个简单的MySQL类
Jan 07 Python
Python字典操作简明总结
Apr 13 Python
Python基础语言学习笔记总结(精华)
Nov 14 Python
CentOS7.3编译安装Python3.6.2的方法
Jan 22 Python
Linux(Redhat)安装python3.6虚拟环境(推荐)
May 05 Python
Python使用selenium实现网页用户名 密码 验证码自动登录功能
May 16 Python
tesserocr与pytesseract模块的使用方法解析
Aug 30 Python
python 实现人和电脑猜拳的示例代码
Mar 02 Python
python和pywin32实现窗口查找、遍历和点击的示例代码
Apr 01 Python
python闭包与引用以及需要注意的陷阱
Sep 18 Python
Python基础详解之邮件处理
Apr 28 Python
详解Python为什么不用设计模式
Jun 24 Python
我用Python抓取了7000 多本电子书案例详解
Mar 25 #Python
详解python:time模块用法
Mar 25 #Python
Python minidom模块用法示例【DOM写入和解析XML】
Mar 25 #Python
Python实例方法、类方法、静态方法的区别与作用详解
Mar 25 #Python
详解Python装饰器
Mar 25 #Python
详解用python自制微信机器人,定时发送天气预报
Mar 25 #Python
Python3.5实现的三级菜单功能示例
Mar 25 #Python
You might like
PHP删除特定数组内容并且重建数组索引的方法.
2011/03/25 PHP
PHP中数组的分组排序实例
2014/06/01 PHP
PHP explode()函数的几个应用和implode()函数有什么区别
2015/11/05 PHP
详解PHP实现执行定时任务
2015/12/21 PHP
微信利用PHP创建自定义菜单的方法
2016/08/01 PHP
php实现XML和数组的相互转化功能示例
2017/02/08 PHP
YII框架页面缓存操作示例
2019/04/29 PHP
JavaScript 保存数组到Cookie的代码
2010/04/14 Javascript
JS格式化数字金额用逗号隔开保留两位小数
2013/10/18 Javascript
jQuery使用元素属性attr赋值详解
2015/02/27 Javascript
jQuery实现鼠标点击弹出渐变层的方法
2015/07/09 Javascript
深入解析JavaScript中的数字对象与字符串对象
2015/10/21 Javascript
jQuery CSS3相结合实现时钟插件
2016/01/08 Javascript
Node.js 条形码识别程序构建思路详解
2016/02/14 Javascript
基于JavaScript实现的顺序查找算法示例
2017/04/14 Javascript
react 父子组件之间通讯props
2018/09/08 Javascript
浅析Proxy可以优化vue的数据监听机制问题及实现思路
2018/11/29 Javascript
Vue2.X和Vue3.0数据响应原理变化的区别
2019/11/07 Javascript
js实现鼠标拖拽div左右滑动
2020/01/15 Javascript
小程序实现tab标签页
2020/11/16 Javascript
为什么你还不懂得怎么使用Python协程
2019/05/13 Python
将tensorflow.Variable中的某些元素取出组成一个新的矩阵示例
2020/01/04 Python
Python爬虫实现模拟点击动态页面
2020/03/05 Python
python实现人性化显示金额数字实例详解
2020/09/25 Python
详解Python中string模块除去Str还剩下什么
2020/11/30 Python
Python爬虫中Selenium实现文件上传
2020/12/04 Python
ASP.NET Core中的配置详解
2021/02/05 Python
阿拉伯世界最大的电子卖场:Souq埃及
2016/08/01 全球购物
澳大利亚网上买书:Angus & Robertson
2019/07/21 全球购物
公司运动会策划方案
2014/05/25 职场文书
教室布置标语
2014/06/26 职场文书
人力资源职位说明书
2014/07/29 职场文书
2015年工商所工作总结
2015/05/21 职场文书
阳光体育运动标语口号
2015/12/26 职场文书
教你怎么用Python处理excel实现自动化办公
2021/04/30 Python
Apache POI的基本使用详解
2021/11/07 Servers