python爬虫中get和post方法介绍以及cookie作用


Posted in Python onFebruary 08, 2018

首先确定你要爬取的目标网站的表单提交方式,可以通过开发者工具看到。这里推荐使用chrome。

这里我用163邮箱为例

打开工具后再Network中,在Name选中想要了解的网站,右侧headers里的request method就是提交方式。status如果是200表示成功访问下面的有头信息,cookie是你登录之后产生的存储会话(session)信息的。第一次访问该网页需要提供用户名和密码,之后只需要在headers里提供cookie就可以登陆进去。

引入requests库,会提供get和post的方法。

代码示例:

import requests
import ssl

user_agent="Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0"
accept='text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'
accept_language='zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3'
upgrade='1'
headers={
  'User-Agent':user_agent,
  'Accept':accept,
  'Accept-Language':accept_language,
'Cookie':'....'#这里填入你登陆后产生的cookie
}
r = requests.get("http://mail.163.com/js6/main.jsp?sid=OAwUtGgglzEJoANLHPggrsKKAhsyheAT&df=mail163_letter#module=welcome.WelcomeModule%7C%7B%7D",headers=headers,verify=False)
fp = open("/temp/csdn.txt","w",encoding='utf-8')
fp.write(str(r.content,'utf-8'))
fp.close()

这里我引入了ssl库,因为我第一次访问的网页证书过期。如果我们使用爬虫进入这样的网站时,会报错:SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:581)

在requests的get和post方法中,有一个参数为verify,把他设为False后会禁掉证书的要求

Python 相关文章推荐
python将人民币转换大写的脚本代码
Feb 10 Python
python list语法学习(带例子)
Nov 01 Python
Python json 错误xx is not JSON serializable解决办法
Mar 15 Python
TensorFlow saver指定变量的存取
Mar 10 Python
python3使用SMTP发送HTML格式邮件
Jun 19 Python
Python 实现两个服务器之间文件的上传方法
Feb 13 Python
python通过paramiko复制远程文件及文件目录到本地
Apr 30 Python
Python 中PyQt5 点击主窗口弹出另一个窗口的实现方法
Jul 04 Python
python实现人像动漫化的示例代码
May 17 Python
Python中的__init__作用是什么
Jun 09 Python
Python如何利用Har文件进行遍历指定字典替换提交的数据详解
Nov 05 Python
python中四舍五入的正确打开方式
Jan 18 Python
Python OpenCV 直方图的计算与显示的方法示例
Feb 08 #Python
python OpenCV学习笔记之绘制直方图的方法
Feb 08 #Python
Python列表推导式与生成器表达式用法示例
Feb 08 #Python
详解python OpenCV学习笔记之直方图均衡化
Feb 08 #Python
python OpenCV学习笔记实现二维直方图
Feb 08 #Python
Python数据分析之双色球基于线性回归算法预测下期中奖结果示例
Feb 08 #Python
Python编程argparse入门浅析
Feb 07 #Python
You might like
PHP 组件化编程技巧
2009/06/06 PHP
探讨php define()函数及defined()函数使用详解
2013/06/09 PHP
php无限级评论嵌套实现代码
2018/04/18 PHP
PHP的PDO事务与自动提交
2019/01/24 PHP
Laravel重定向,a链接跳转,控制器跳转示例
2019/10/22 PHP
20款效果非常棒的 jQuery 插件小结分享
2011/11/18 Javascript
javascript parseInt() 函数的进制转换注意细节
2013/01/08 Javascript
js调用AJAX时Get和post的乱码解决方法
2013/06/04 Javascript
javascript实现密码强度显示
2015/03/18 Javascript
jQuery实现弹出窗口中切换登录与注册表单
2015/06/05 Javascript
基于javascript实现精确到毫秒的倒计时限时抢购
2016/04/17 Javascript
从重置input file标签中看jQuery的 .val() 和 .attr(“value”) 区别
2016/06/12 Javascript
微信小程序 获取相册照片实例详解
2016/11/16 Javascript
BootStrap学习笔记之nav导航栏和面包屑导航
2017/01/03 Javascript
AngularJS表单提交实例详解
2017/02/18 Javascript
Vue CLI3创建项目部署到Tomcat 使用ngrok映射到外网
2019/05/16 Javascript
WEB前端性能优化的7大手段详解
2020/02/04 Javascript
Python的Django框架中从url中捕捉文本的方法
2015/07/20 Python
Python编程求质数实例代码
2018/01/31 Python
PHP统计代码行数的小代码
2019/09/19 Python
Python hashlib模块加密过程解析
2019/11/05 Python
python双向链表原理与实现方法详解
2019/12/03 Python
python实现ip地址的包含关系判断
2020/02/07 Python
keras小技巧——获取某一个网络层的输出方式
2020/05/23 Python
Django创建一个后台的基本步骤记录
2020/10/02 Python
CSS3实例分享--超炫checkbox复选框和radio单选框
2014/09/01 HTML / CSS
精彩的推荐信范文
2013/11/26 职场文书
4s客服专员岗位职责
2013/12/01 职场文书
《动手做做看》教学反思
2014/04/09 职场文书
《桥》教学反思
2014/04/09 职场文书
行政人事专员岗位职责
2015/04/07 职场文书
检举信的写法
2019/04/10 职场文书
承诺书的内容有哪些,怎么写?
2019/06/21 职场文书
Python中常见的反爬机制及其破解方法总结
2021/06/10 Python
「偶像大师 MILLION LIVE!」七尾百合子手办开订
2022/03/21 日漫
app场景下uniapp的扫码记录
2022/07/23 Java/Android