python爬虫基本知识


Posted in Python onMarch 05, 2018

爬虫简介

      根据百度百科定义:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。     

随着大数据的不断发展,爬虫这个技术慢慢走入人们的视野,可以说爬虫是大数据应运而生的产物,至少我解除了大数据才了解到爬虫这一技术

随着数据的海量增长,我们需要在互联网上选取所需要的数据进行自己研究的分析和实验。这就用到了爬虫这一技术,下面就跟着小编一起初遇python爬虫!

一、请求-响应

在利用python语言实现爬虫时,主要用到了urllib和urllib2两个库。首先用一段代码说明如下:

import urllib
 import urllib2
 url="http://www.baidu.com"
 request=urllib2.Request(url)
 response=urllib2.urlopen(request)
 print response.read()

我们知道一个网页就是以html为骨架,js为肌肉,css为衣服所构成的。上述代码所实现的功能就是把百度网页的源码爬取到本地。

其中,url为要爬取的网页的网址;request发出请求,response是接受请求后给出的响应。最后用read()函数输出的就是百度网页的源码。

二、GET-POST

两者都是向网页传递数据,最重要的区别是GET方式是直接以链接形式访问,链接中包含了所有的参数,当然如果包含了密码的话是一种不安全的选择,不过你可以直观地看到自己提交了什么内容。

POST则不会在网址上显示所有的参数,不过如果你想直接查看提交了什么就不太方便了,大家可以酌情选择。

POST方式:

import urllib
 import urllib2
 values={'username':'2680559065@qq.com','Password':'XXXX'}
 data=urllib.urlencode(values)
 url='https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn'
 request=urllib2.Request(url,data)
 response=urllib2.urlopen(request)
 print response.read()

GET方式:

import urllib
import urllib2
values={'username':'2680559065@qq.com','Password':'XXXX'}
data=urllib.urlencode(values)
url = "http://passport.csdn.net/account/login"
geturl = url + "?"+data
request=urllib2.Request(geturl)
response=urllib2.urlopen(request)
print response.read()

三、异常处理

处理异常时,用到了try-except语句。

import urllib2
 try:
   response=urllib2.urlopen("http://www.xxx.com")
 except urllib2.URLError,e:
   print e.reason

总结

以上所述是小编给大家介绍的python爬虫基本知识,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
pyqt4教程之widget使用示例分享
Mar 07 Python
python用来获得图片exif信息的库实例分析
Mar 16 Python
numpy使用fromstring创建矩阵的实例
Jun 15 Python
python之cv2与图像的载入、显示和保存实例
Dec 05 Python
Python 从一个文件中调用另一个文件的类方法
Jan 10 Python
Python实现的矩阵转置与矩阵相乘运算示例
Mar 26 Python
wxPython实现画图板
Aug 27 Python
Python文件操作方法详解
Feb 09 Python
分享一个python的aes加密代码
Dec 22 Python
python中用ggplot绘制画图实例讲解
Jan 26 Python
Python 里最强的地图绘制神器
Mar 01 Python
python3实现常见的排序算法(示例代码)
Jul 04 Python
用tensorflow构建线性回归模型的示例代码
Mar 05 #Python
详解python实现线程安全的单例模式
Mar 05 #Python
分析python动态规划的递归、非递归实现
Mar 04 #Python
python3.x上post发送json数据
Mar 04 #Python
python数据封装json格式数据
Mar 04 #Python
Python爬虫实例扒取2345天气预报
Mar 04 #Python
Python爬虫设置代理IP的方法(爬虫技巧)
Mar 04 #Python
You might like
PHP 8新特性简介
2020/08/18 PHP
判断浏览器的javascript版本的代码
2010/09/03 Javascript
jquery提升性能最佳实践小结
2010/12/06 Javascript
JS特权方法定义作用以及与公有方法的区别
2013/03/18 Javascript
JQueryEasyUI datagrid框架的基本使用
2013/04/08 Javascript
jquery ui dialog实现弹窗特效的思路及代码
2013/08/03 Javascript
JQuery对表格进行操作的常用技巧总结
2014/04/23 Javascript
zeroclipboard 单个复制按钮和多个复制按钮的实现方法
2014/06/14 Javascript
jQuery的基本概念与高级编程
2015/05/14 Javascript
深入理解javascript作用域第二篇之词法作用域和动态作用域
2016/07/24 Javascript
Javascript实现登录记住用户名和密码功能
2017/03/22 Javascript
xmlplus组件设计系列之下拉刷新(PullRefresh)(6)
2017/05/03 Javascript
Angular实现可删除并计算总金额的购物车功能示例
2017/12/26 Javascript
js回调函数原理与用法案例分析
2020/03/04 Javascript
JavaScript如何实现图片处理与合成
2020/05/29 Javascript
[06:16]第十四期-国士无双绝地翻盘之撼地神牛
2014/06/24 DOTA
跟老齐学Python之编写类之三子类
2014/10/11 Python
Django中login_required装饰器的深入介绍
2017/11/24 Python
python执行系统命令后获取返回值的几种方式集合
2018/05/12 Python
在python2.7中用numpy.reshape 对图像进行切割的方法
2018/12/05 Python
详解Python Matplotlib解决绘图X轴值不按数组排序问题
2019/08/05 Python
Python 根据日志级别打印不同颜色的日志的方法示例
2019/08/08 Python
Django之路由层的实现
2019/09/09 Python
使用遗传算法求二元函数的最小值
2020/02/11 Python
搭建pypi私有仓库实现过程详解
2020/11/25 Python
中国最大隐形眼镜网上商城:视客眼镜网
2016/10/30 全球购物
ProBikeKit新西兰:自行车套件,跑步和铁人三项装备
2017/04/05 全球购物
幼儿园长自我鉴定
2013/10/17 职场文书
业务员岗位职责范本
2013/12/15 职场文书
学子宴答谢词
2014/01/25 职场文书
素质拓展感言
2014/01/29 职场文书
汽车队司机先进事迹材料
2014/02/01 职场文书
农村优秀教师事迹材料
2014/08/27 职场文书
超市食品安全承诺书
2015/04/29 职场文书
新郎结婚感言
2015/07/31 职场文书
MySQL中order by的使用详情
2021/11/17 MySQL