浅谈Python爬虫基本套路


Posted in Python onMarch 25, 2019

什么是爬虫?

网络爬虫也叫网络蜘蛛,如果把互联网比喻成一个蜘蛛网,那么蜘蛛就是在网上爬来爬去的蜘蛛,爬虫程序通过请求url地址,根据响应的内容进行解析采集数据,
比如:如果响应内容是html,分析dom结构,进行dom解析、或者正则匹配,如果响应内容是xml/json数据,就可以转数据对象,然后对数据进行解析。

有什么作用?

通过有效的爬虫手段批量采集数据,可以降低人工成本,提高有效数据量,给予运营/销售的数据支撑,加快产品发展。

业界的情况

目前互联网产品竞争激烈,业界大部分都会使用爬虫技术对竞品产品的数据进行挖掘、采集、大数据分析,这是必备手段,并且很多公司都设立了爬虫工程师的岗位

合法性

爬虫是利用程序进行批量爬取网页上的公开信息,也就是前端显示的数据信息。因为信息是完全公开的,所以是合法的。其实就像浏览器一样,浏览器解析响应内容并渲染为页面,而爬虫解析响应内容采集想要的数据进行存储。

反爬虫

爬虫很难完全的制止,道高一尺魔高一丈,这是一场没有硝烟的战争,码农VS码农 
反爬虫一些手段:

  1. 合法检测:请求校验(useragent,referer,接口加签名,等)
  2. 小黑屋:IP/用户限制请求频率,或者直接拦截
  3. 投毒:反爬虫高境界可以不用拦截,拦截是一时的,投毒返回虚假数据,可以误导竞品决策
  4. ... ...

 爬虫的基本套路

浅谈Python爬虫基本套路

python爬虫

python写爬虫的优势

  1. python语法易学,容易上手
  2. 社区活跃,实现方案多可参考
  3. 各种功能包丰富
  4. 少量代码即可完成强大功能

涉及模块包

请求

  1. urllib
  2. urllib2
  3. cookielib

多线程

  1. threading

正则

  1. re

json解析

  1. json

html dom解析

  1. pyquery
  2. beautiful soup

操作浏览器

  1. selenium

以上所述是小编给大家介绍的Python爬虫基本套路详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
Python 命令行非阻塞输入的小例子
Sep 27 Python
分析Python中解析构建数据知识
Jan 20 Python
python OpenCV学习笔记实现二维直方图
Feb 08 Python
windows下python和pip安装教程
May 25 Python
使用django-guardian实现django-admin的行级权限控制的方法
Oct 30 Python
python+openCV利用摄像头实现人员活动检测
Jun 22 Python
pandas计算最大连续间隔的方法
Jul 04 Python
kali中python版本的切换方法
Jul 11 Python
python实现抠图给证件照换背景源码
Aug 20 Python
Python GUI库PyQt5图形和特效样式QSS介绍
Feb 25 Python
python3中的logging记录日志实现过程及封装成类的操作
May 12 Python
Python logging模块handlers用法详解
Aug 14 Python
我用Python抓取了7000 多本电子书案例详解
Mar 25 #Python
详解python:time模块用法
Mar 25 #Python
Python minidom模块用法示例【DOM写入和解析XML】
Mar 25 #Python
Python实例方法、类方法、静态方法的区别与作用详解
Mar 25 #Python
详解Python装饰器
Mar 25 #Python
详解用python自制微信机器人,定时发送天气预报
Mar 25 #Python
Python3.5实现的三级菜单功能示例
Mar 25 #Python
You might like
PHP生成器简单实例
2015/05/13 PHP
discuz图片顺序混乱解决方案
2015/07/29 PHP
PHP实现的限制IP投票程序IP来源分析
2016/05/04 PHP
php7新特性的理解和比较总结
2019/04/14 PHP
用JavaScript实现仿Windows关机效果
2007/03/10 Javascript
Javascript 键盘keyCode键码值表
2009/12/24 Javascript
myEvent.js javascript跨浏览器事件框架
2011/10/24 Javascript
基于JQuery的类似新浪微博展示信息效果的代码
2012/07/23 Javascript
IE下使用cloneNode注意事项分享
2012/11/22 Javascript
把input初始值不写value的具体实现方法
2013/07/04 Javascript
js实现从数组里随机获取元素
2015/01/12 Javascript
js实现文本框支持加减运算的方法
2015/08/19 Javascript
JS动态创建元素的两种方法
2016/04/20 Javascript
vue-cli创建的项目,配置多页面的实现方法
2018/03/15 Javascript
简单说说angular.json文件的使用
2018/10/29 Javascript
axios使用拦截器统一处理所有的http请求的方法
2018/11/02 Javascript
vue中实现回车键登录功能
2020/02/19 Javascript
Python读取ini文件、操作mysql、发送邮件实例
2015/01/01 Python
Python的Flask框架中SQLAlchemy使用时的乱码问题解决
2015/11/07 Python
Python初学时购物车程序练习实例(推荐)
2017/08/08 Python
Python实现线程状态监测简单示例
2018/03/28 Python
python实现多进程代码示例
2018/10/31 Python
用pyqt5 给按钮设置图标和css样式的方法
2019/06/24 Python
详解python中的index函数用法
2019/08/06 Python
TensorFlow实现从txt文件读取数据
2020/02/05 Python
Python切割图片成九宫格的示例代码
2020/03/10 Python
python pyqtgraph 保存图片到本地的实例
2020/03/14 Python
机电一体化专业应届生求职信
2013/11/27 职场文书
新年团拜会主持词
2014/04/02 职场文书
农业项目合作意向书
2015/05/08 职场文书
红色经典观后感
2015/06/18 职场文书
PHP使用QR Code生成二维码实例
2021/07/07 PHP
Nginx反向代理至go-fastdfs案例讲解
2021/08/02 Servers
SpringMVC 整合SSM框架详解
2021/08/30 Java/Android
Canvas绘制像素风图片的示例代码
2021/09/25 HTML / CSS
redis的list数据类型相关命令介绍及使用
2022/01/18 Redis