python爬虫基本知识


Posted in Python onMarch 05, 2018

爬虫简介

      根据百度百科定义:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。     

随着大数据的不断发展,爬虫这个技术慢慢走入人们的视野,可以说爬虫是大数据应运而生的产物,至少我解除了大数据才了解到爬虫这一技术

随着数据的海量增长,我们需要在互联网上选取所需要的数据进行自己研究的分析和实验。这就用到了爬虫这一技术,下面就跟着小编一起初遇python爬虫!

一、请求-响应

在利用python语言实现爬虫时,主要用到了urllib和urllib2两个库。首先用一段代码说明如下:

import urllib
 import urllib2
 url="http://www.baidu.com"
 request=urllib2.Request(url)
 response=urllib2.urlopen(request)
 print response.read()

我们知道一个网页就是以html为骨架,js为肌肉,css为衣服所构成的。上述代码所实现的功能就是把百度网页的源码爬取到本地。

其中,url为要爬取的网页的网址;request发出请求,response是接受请求后给出的响应。最后用read()函数输出的就是百度网页的源码。

二、GET-POST

两者都是向网页传递数据,最重要的区别是GET方式是直接以链接形式访问,链接中包含了所有的参数,当然如果包含了密码的话是一种不安全的选择,不过你可以直观地看到自己提交了什么内容。

POST则不会在网址上显示所有的参数,不过如果你想直接查看提交了什么就不太方便了,大家可以酌情选择。

POST方式:

import urllib
 import urllib2
 values={'username':'2680559065@qq.com','Password':'XXXX'}
 data=urllib.urlencode(values)
 url='https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn'
 request=urllib2.Request(url,data)
 response=urllib2.urlopen(request)
 print response.read()

GET方式:

import urllib
import urllib2
values={'username':'2680559065@qq.com','Password':'XXXX'}
data=urllib.urlencode(values)
url = "http://passport.csdn.net/account/login"
geturl = url + "?"+data
request=urllib2.Request(geturl)
response=urllib2.urlopen(request)
print response.read()

三、异常处理

处理异常时,用到了try-except语句。

import urllib2
 try:
   response=urllib2.urlopen("http://www.xxx.com")
 except urllib2.URLError,e:
   print e.reason

总结

以上所述是小编给大家介绍的python爬虫基本知识,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
写了个监控nginx进程的Python脚本
May 10 Python
python实现udp数据报传输的方法
Sep 26 Python
使用Python下的XSLT API进行web开发的简单教程
Apr 15 Python
python基础教程之匿名函数lambda
Jan 17 Python
Python发送http请求解析返回json的实例
Mar 26 Python
python调试神器PySnooper的使用
Jul 03 Python
深入浅析Python 命令行模块 Click
Mar 11 Python
Python动态强类型解释型语言原理解析
Mar 25 Python
python 获取谷歌浏览器保存的密码
Jan 06 Python
Python图像处理之图像拼接
Apr 28 Python
python迷宫问题深度优先遍历实例
Jun 20 Python
Python爬虫基础之初次使用scrapy爬虫实例
Jun 26 Python
用tensorflow构建线性回归模型的示例代码
Mar 05 #Python
详解python实现线程安全的单例模式
Mar 05 #Python
分析python动态规划的递归、非递归实现
Mar 04 #Python
python3.x上post发送json数据
Mar 04 #Python
python数据封装json格式数据
Mar 04 #Python
Python爬虫实例扒取2345天气预报
Mar 04 #Python
Python爬虫设置代理IP的方法(爬虫技巧)
Mar 04 #Python
You might like
PHP的mysqli_query参数MYSQLI_STORE_RESULT和MYSQLI_USE_RESULT的区别
2014/09/29 PHP
PHP简单遍历对象示例
2016/09/28 PHP
Laravel框架实现即点即改功能的方法分析
2019/10/31 PHP
实用javaScript技术-屏蔽类
2006/08/15 Javascript
在IE浏览器中resize事件执行多次的解决方法
2011/07/12 Javascript
jQuery中hover方法和toggle方法使用指南
2015/02/27 Javascript
javascript数据结构之二叉搜索树实现方法
2015/11/25 Javascript
jQuery响应滚动条事件功能示例
2017/10/14 jQuery
JavaScript中发出HTTP请求最常用的方法
2018/07/12 Javascript
详解Vue中CSS样式穿透问题
2019/09/12 Javascript
extjs图表绘制之条形图实现方法分析
2020/03/06 Javascript
[02:42]决战东方!DOTA2亚洲邀请赛重启荣耀之争
2017/03/17 DOTA
Python对小数进行除法运算的正确方法示例
2014/08/25 Python
Django中几种重定向方法
2015/04/28 Python
Python操作MySQL数据库9个实用实例
2015/12/11 Python
python实现k-means聚类算法
2018/02/23 Python
利用anaconda保证64位和32位的python共存
2021/03/09 Python
python 实现识别图片上的数字
2019/07/30 Python
Python字典底层实现原理详解
2019/12/18 Python
Python字典深浅拷贝与循环方式方法详解
2020/02/09 Python
Python3开发环境搭建详细教程
2020/06/18 Python
python海龟绘图之画国旗实例代码
2020/11/11 Python
纽约复古灵感的现代珠宝品牌:Lulu Frost
2018/03/03 全球购物
娇韵诗法国官网:Clarins法国
2019/01/29 全球购物
美国狗旅行和户外用品领先供应商:kurgo
2020/08/18 全球购物
关于幼儿的自我评价
2013/12/18 职场文书
人事部主管岗位职责
2013/12/26 职场文书
给领导的检讨书
2014/02/16 职场文书
八一建军节演讲稿
2014/09/10 职场文书
民主生活会剖析材料
2014/09/30 职场文书
未婚证明书模板
2014/10/08 职场文书
2014年语文教学工作总结
2014/12/17 职场文书
英文产品推荐信
2015/03/27 职场文书
家长意见书
2015/06/04 职场文书
SQL之各种join小结详细讲解
2021/08/04 MySQL
分享7个 Python 实战项目练习
2022/03/03 Python