python爬虫基本知识


Posted in Python onMarch 05, 2018

爬虫简介

      根据百度百科定义:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。     

随着大数据的不断发展,爬虫这个技术慢慢走入人们的视野,可以说爬虫是大数据应运而生的产物,至少我解除了大数据才了解到爬虫这一技术

随着数据的海量增长,我们需要在互联网上选取所需要的数据进行自己研究的分析和实验。这就用到了爬虫这一技术,下面就跟着小编一起初遇python爬虫!

一、请求-响应

在利用python语言实现爬虫时,主要用到了urllib和urllib2两个库。首先用一段代码说明如下:

import urllib
 import urllib2
 url="http://www.baidu.com"
 request=urllib2.Request(url)
 response=urllib2.urlopen(request)
 print response.read()

我们知道一个网页就是以html为骨架,js为肌肉,css为衣服所构成的。上述代码所实现的功能就是把百度网页的源码爬取到本地。

其中,url为要爬取的网页的网址;request发出请求,response是接受请求后给出的响应。最后用read()函数输出的就是百度网页的源码。

二、GET-POST

两者都是向网页传递数据,最重要的区别是GET方式是直接以链接形式访问,链接中包含了所有的参数,当然如果包含了密码的话是一种不安全的选择,不过你可以直观地看到自己提交了什么内容。

POST则不会在网址上显示所有的参数,不过如果你想直接查看提交了什么就不太方便了,大家可以酌情选择。

POST方式:

import urllib
 import urllib2
 values={'username':'2680559065@qq.com','Password':'XXXX'}
 data=urllib.urlencode(values)
 url='https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn'
 request=urllib2.Request(url,data)
 response=urllib2.urlopen(request)
 print response.read()

GET方式:

import urllib
import urllib2
values={'username':'2680559065@qq.com','Password':'XXXX'}
data=urllib.urlencode(values)
url = "http://passport.csdn.net/account/login"
geturl = url + "?"+data
request=urllib2.Request(geturl)
response=urllib2.urlopen(request)
print response.read()

三、异常处理

处理异常时,用到了try-except语句。

import urllib2
 try:
   response=urllib2.urlopen("http://www.xxx.com")
 except urllib2.URLError,e:
   print e.reason

总结

以上所述是小编给大家介绍的python爬虫基本知识,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
python中lambda函数 list comprehension 和 zip函数使用指南
Sep 28 Python
Python实现将DOC文档转换为PDF的方法
Jul 25 Python
在python的类中动态添加属性与生成对象
Sep 17 Python
python实现解数独程序代码
Apr 12 Python
Python将多个excel表格合并为一个表格
Feb 22 Python
详解flask入门模板引擎
Jul 18 Python
Python双向循环链表实现方法分析
Jul 30 Python
python区块及区块链的开发详解
Jul 03 Python
TensorFlow2.X结合OpenCV 实现手势识别功能
Apr 08 Python
基于python 凸包问题的解决
Apr 16 Python
python中upper是做什么用的
Jul 20 Python
python使用建议与技巧分享(二)
Aug 17 Python
用tensorflow构建线性回归模型的示例代码
Mar 05 #Python
详解python实现线程安全的单例模式
Mar 05 #Python
分析python动态规划的递归、非递归实现
Mar 04 #Python
python3.x上post发送json数据
Mar 04 #Python
python数据封装json格式数据
Mar 04 #Python
Python爬虫实例扒取2345天气预报
Mar 04 #Python
Python爬虫设置代理IP的方法(爬虫技巧)
Mar 04 #Python
You might like
WordPress中用于获取文章信息以及分类链接的函数用法
2015/12/18 PHP
对比PHP对MySQL的缓冲查询和无缓冲查询
2016/07/01 PHP
Zend Framework数据库操作方法实例总结
2016/12/11 PHP
php+javascript实现的动态显示服务器运行程序进度条功能示例
2017/08/07 PHP
怎么让脚本或里面的函数在所有图片都载入完毕的时候执行
2006/10/17 Javascript
JavaScript加密解密7种方法总结分析
2007/10/07 Javascript
javascript一些不错的函数脚本代码
2008/09/10 Javascript
12种不宜使用的Javascript语法整理
2013/11/04 Javascript
详细解读JavaScript编程中的Promise使用
2015/07/27 Javascript
js实现文件上传表单域美化特效
2015/11/02 Javascript
JavaScript数据绑定实现一个简单的 MVVM 库
2016/04/08 Javascript
原生的强大DOM选择器querySelector介绍
2016/12/21 Javascript
微信小程序 引用其他js文件实现代码
2017/02/22 Javascript
最通俗易懂的javascript变量提升详解
2017/08/05 Javascript
vue中配置mint-ui报css错误问题的解决方法
2017/10/11 Javascript
element上传组件循环引用及简单时间倒计时的实现
2018/10/01 Javascript
vue进入页面时滚动条始终在底部代码实例
2019/03/26 Javascript
基于vue-cli3创建libs库的实现方法
2019/12/04 Javascript
原生js实现日历效果
2020/03/02 Javascript
python实现查找两个字符串中相同字符并输出的方法
2015/07/11 Python
TensorFlow高效读取数据的方法示例
2018/02/06 Python
让代码变得更易维护的7个Python库
2018/10/09 Python
Python数据类型之列表和元组的方法实例详解
2019/07/08 Python
英国领先的在线旅游和休闲零售商:lastminute.com
2019/01/23 全球购物
90后毕业生的求职信范文
2013/09/21 职场文书
上班睡觉检讨书
2014/01/09 职场文书
竞选团支书演讲稿
2014/04/28 职场文书
全运会口号
2014/06/20 职场文书
单位作风建设剖析材料
2014/10/11 职场文书
先进个人材料怎么写
2014/12/30 职场文书
2015年八一建军节演讲稿
2015/03/19 职场文书
2016春季幼儿园小班开学寄语
2015/12/03 职场文书
教师正风肃纪心得体会
2016/01/15 职场文书
2016思想纪律作风整顿心得体会
2016/01/23 职场文书
python 网络编程要点总结
2021/06/18 Python
MySQL数据库超时设置配置的方法实例
2021/10/15 MySQL