python爬虫中get和post方法介绍以及cookie作用


Posted in Python onFebruary 08, 2018

首先确定你要爬取的目标网站的表单提交方式,可以通过开发者工具看到。这里推荐使用chrome。

这里我用163邮箱为例

打开工具后再Network中,在Name选中想要了解的网站,右侧headers里的request method就是提交方式。status如果是200表示成功访问下面的有头信息,cookie是你登录之后产生的存储会话(session)信息的。第一次访问该网页需要提供用户名和密码,之后只需要在headers里提供cookie就可以登陆进去。

引入requests库,会提供get和post的方法。

代码示例:

import requests
import ssl

user_agent="Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0"
accept='text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'
accept_language='zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3'
upgrade='1'
headers={
  'User-Agent':user_agent,
  'Accept':accept,
  'Accept-Language':accept_language,
'Cookie':'....'#这里填入你登陆后产生的cookie
}
r = requests.get("http://mail.163.com/js6/main.jsp?sid=OAwUtGgglzEJoANLHPggrsKKAhsyheAT&df=mail163_letter#module=welcome.WelcomeModule%7C%7B%7D",headers=headers,verify=False)
fp = open("/temp/csdn.txt","w",encoding='utf-8')
fp.write(str(r.content,'utf-8'))
fp.close()

这里我引入了ssl库,因为我第一次访问的网页证书过期。如果我们使用爬虫进入这样的网站时,会报错:SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:581)

在requests的get和post方法中,有一个参数为verify,把他设为False后会禁掉证书的要求

Python 相关文章推荐
用Python中的__slots__缓存资源以节省内存开销的方法
Apr 02 Python
python图像处理之反色实现方法
May 30 Python
Python切换pip安装源的方法详解
Nov 18 Python
Python爬虫_城市公交、地铁站点和线路数据采集实例
Jan 10 Python
python中字符串的操作方法大全
Jun 03 Python
对python捕获ctrl+c手工中断程序的两种方法详解
Dec 26 Python
解决python3运行selenium下HTMLTestRunner报错的问题
Dec 27 Python
python安装scipy的方法步骤
Jun 26 Python
python3 assert 断言的使用详解 (区别于python2)
Nov 27 Python
pytorch如何冻结某层参数的实现
Jan 10 Python
Python非单向递归函数如何返回全部结果
Dec 18 Python
Python scrapy爬取起点中文网小说榜单
Jun 13 Python
Python OpenCV 直方图的计算与显示的方法示例
Feb 08 #Python
python OpenCV学习笔记之绘制直方图的方法
Feb 08 #Python
Python列表推导式与生成器表达式用法示例
Feb 08 #Python
详解python OpenCV学习笔记之直方图均衡化
Feb 08 #Python
python OpenCV学习笔记实现二维直方图
Feb 08 #Python
Python数据分析之双色球基于线性回归算法预测下期中奖结果示例
Feb 08 #Python
Python编程argparse入门浅析
Feb 07 #Python
You might like
phpmyadmin 访问被拒绝的真实原因
2009/06/15 PHP
使用淘宝IP库获取用户ip地理位置
2013/10/27 PHP
php中mkdir()函数的权限问题分析
2016/09/24 PHP
在php的yii2框架中整合hbase库的方法
2018/09/20 PHP
浅谈PHP无限极分类原理
2019/03/14 PHP
为jQuery添加Webkit的触摸的方法分享
2014/02/02 Javascript
页面加载完毕后滚动条自动滚动一定位置
2014/02/20 Javascript
搭建pomelo 开发环境
2014/06/24 Javascript
基于jquery固定于顶部的导航响应浏览器滚动条事件
2014/11/02 Javascript
javascript 回调函数详解
2014/11/11 Javascript
javascript 构造函数方式定义对象
2015/01/02 Javascript
jQuery EasyUI Dialog拖不下来如何解决
2015/09/28 Javascript
JavaScript 闭包机制详解及实例代码
2016/10/10 Javascript
详解vue-router 命名路由和命名视图
2018/06/01 Javascript
vue mvvm数据响应实现
2020/11/11 Javascript
[13:39]2014 DOTA2华西杯精英邀请赛 5 25 NewBee VS DK第一场
2014/05/26 DOTA
Python实现的维尼吉亚密码算法示例
2018/04/12 Python
对Python中创建进程的两种方式以及进程池详解
2019/01/14 Python
Python基础教程之if判断,while循环,循环嵌套
2019/04/25 Python
python实现简单成绩录入系统
2019/09/19 Python
python如何利用Mitmproxy抓包
2020/10/10 Python
python实现测试工具(二)——简单的ui测试工具
2020/10/19 Python
10个顶级Python实用库推荐
2021/03/04 Python
iRobot官网:改变生活的家用机器人品牌
2016/09/20 全球购物
世界上最好的威士忌和烈性酒购买网站:The Whisky Exchange
2016/11/20 全球购物
教研处工作方案
2014/05/26 职场文书
计生专干事迹
2014/05/28 职场文书
乡镇领导班子四风整顿行动工作汇报
2014/10/25 职场文书
2014年乡镇卫生院工作总结
2014/11/24 职场文书
2014年大班保育员工作总结
2014/12/02 职场文书
2015年母亲节寄语
2015/03/23 职场文书
走进毛泽东观后感
2015/06/04 职场文书
初中化学教学反思
2016/02/22 职场文书
Python机器学习之基于Pytorch实现猫狗分类
2021/06/08 Python
Python基础之条件语句详解
2021/06/16 Python
JavaScript中document.activeELement焦点元素介绍
2021/11/27 Javascript