python爬虫中get和post方法介绍以及cookie作用


Posted in Python onFebruary 08, 2018

首先确定你要爬取的目标网站的表单提交方式,可以通过开发者工具看到。这里推荐使用chrome。

这里我用163邮箱为例

打开工具后再Network中,在Name选中想要了解的网站,右侧headers里的request method就是提交方式。status如果是200表示成功访问下面的有头信息,cookie是你登录之后产生的存储会话(session)信息的。第一次访问该网页需要提供用户名和密码,之后只需要在headers里提供cookie就可以登陆进去。

引入requests库,会提供get和post的方法。

代码示例:

import requests
import ssl

user_agent="Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0"
accept='text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'
accept_language='zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3'
upgrade='1'
headers={
  'User-Agent':user_agent,
  'Accept':accept,
  'Accept-Language':accept_language,
'Cookie':'....'#这里填入你登陆后产生的cookie
}
r = requests.get("http://mail.163.com/js6/main.jsp?sid=OAwUtGgglzEJoANLHPggrsKKAhsyheAT&df=mail163_letter#module=welcome.WelcomeModule%7C%7B%7D",headers=headers,verify=False)
fp = open("/temp/csdn.txt","w",encoding='utf-8')
fp.write(str(r.content,'utf-8'))
fp.close()

这里我引入了ssl库,因为我第一次访问的网页证书过期。如果我们使用爬虫进入这样的网站时,会报错:SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:581)

在requests的get和post方法中,有一个参数为verify,把他设为False后会禁掉证书的要求

Python 相关文章推荐
在Python的Django框架中编写编译函数
Jul 20 Python
使用Python的urllib2模块处理url和图片的技巧两则
Feb 18 Python
Python简单实现子网掩码转换的方法
Apr 13 Python
python中Switch/Case实现的示例代码
Nov 09 Python
python 3.6 tkinter+urllib+json实现火车车次信息查询功能
Dec 20 Python
Python向MySQL批量插数据的实例讲解
Mar 31 Python
Python实现批量执行同目录下的py文件方法
Jan 11 Python
对python:threading.Thread类的使用方法详解
Jan 31 Python
selenium+PhantomJS爬取豆瓣读书
Aug 26 Python
opencv resize图片为正方形尺寸的实现方法
Dec 26 Python
浅谈keras中的目标函数和优化函数MSE用法
Jun 10 Python
python 5个实用的技巧
Sep 27 Python
Python OpenCV 直方图的计算与显示的方法示例
Feb 08 #Python
python OpenCV学习笔记之绘制直方图的方法
Feb 08 #Python
Python列表推导式与生成器表达式用法示例
Feb 08 #Python
详解python OpenCV学习笔记之直方图均衡化
Feb 08 #Python
python OpenCV学习笔记实现二维直方图
Feb 08 #Python
Python数据分析之双色球基于线性回归算法预测下期中奖结果示例
Feb 08 #Python
Python编程argparse入门浅析
Feb 07 #Python
You might like
linux下为php添加iconv模块的方法
2016/02/28 PHP
PHP符合PSR编程规范的实例分享
2016/12/21 PHP
YII框架批量插入数据的方法
2017/03/18 PHP
Django中的cookie与session操作实例代码
2017/08/17 PHP
PHP7 参数处理机制修改
2021/03/09 PHP
父元素与子iframe相互获取变量和元素对象的具体实现
2013/10/15 Javascript
JS正则表达式获取分组内容的方法详解
2013/11/15 Javascript
jquery form 隐藏的input 选择
2014/04/29 Javascript
jQuery中 delegate使用的问题
2015/07/03 Javascript
jQuery拖拽排序插件制作拖拽排序效果(附源码下载)
2016/02/23 Javascript
ES6的新特性概览
2016/03/10 Javascript
javascript 日期相减-在线教程(附代码)
2017/08/17 Javascript
jquery点击回车键实现登录效果并默认焦点的方法
2018/03/09 jQuery
JS块级作用域和私有变量实例分析
2019/05/11 Javascript
实现高性能javascript的注意事项
2019/05/27 Javascript
Python的math模块中的常用数学函数整理
2016/02/04 Python
Python实现计算圆周率π的值到任意位的方法示例
2018/05/08 Python
Pandas读取MySQL数据到DataFrame的方法
2018/07/25 Python
python获取点击的坐标画图形的方法
2019/07/09 Python
用python wxpy管理微信公众号并利用微信获取自己的开源数据
2019/07/30 Python
Python turtle画图库&&画姓名实例
2020/01/19 Python
使用Tensorboard工具查看Loss损失率
2020/02/15 Python
python生成任意频率正弦波方式
2020/02/25 Python
python处理写入数据代码讲解
2020/10/22 Python
Python提取视频中图片的示例(按帧、按秒)
2020/10/22 Python
厂长助理岗位职责
2013/12/27 职场文书
会计专业大学生职业生涯规划书
2014/02/11 职场文书
入学申请自荐信范文
2014/02/26 职场文书
工商局副局长个人对照检查材料
2014/09/25 职场文书
八项规定自查自纠报告及整改措施
2014/10/26 职场文书
经典搞笑版检讨书
2015/02/19 职场文书
护林员个人总结
2015/03/04 职场文书
2015年语文教学工作总结
2015/05/25 职场文书
国庆节主题班会
2015/08/15 职场文书
利用JuiceFS使MySQL 备份验证性能提升 10 倍
2022/03/17 MySQL
联想win10摄像头打不开怎么办?win10笔记本摄像头打不开解决办法
2022/04/08 数码科技