python爬虫中get和post方法介绍以及cookie作用


Posted in Python onFebruary 08, 2018

首先确定你要爬取的目标网站的表单提交方式,可以通过开发者工具看到。这里推荐使用chrome。

这里我用163邮箱为例

打开工具后再Network中,在Name选中想要了解的网站,右侧headers里的request method就是提交方式。status如果是200表示成功访问下面的有头信息,cookie是你登录之后产生的存储会话(session)信息的。第一次访问该网页需要提供用户名和密码,之后只需要在headers里提供cookie就可以登陆进去。

引入requests库,会提供get和post的方法。

代码示例:

import requests
import ssl

user_agent="Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0"
accept='text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'
accept_language='zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3'
upgrade='1'
headers={
  'User-Agent':user_agent,
  'Accept':accept,
  'Accept-Language':accept_language,
'Cookie':'....'#这里填入你登陆后产生的cookie
}
r = requests.get("http://mail.163.com/js6/main.jsp?sid=OAwUtGgglzEJoANLHPggrsKKAhsyheAT&df=mail163_letter#module=welcome.WelcomeModule%7C%7B%7D",headers=headers,verify=False)
fp = open("/temp/csdn.txt","w",encoding='utf-8')
fp.write(str(r.content,'utf-8'))
fp.close()

这里我引入了ssl库,因为我第一次访问的网页证书过期。如果我们使用爬虫进入这样的网站时,会报错:SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:581)

在requests的get和post方法中,有一个参数为verify,把他设为False后会禁掉证书的要求

Python 相关文章推荐
python中常用的各种数据库操作模块和连接实例
May 29 Python
Python制作CSDN免积分下载器
Mar 10 Python
python在指定目录下查找gif文件的方法
May 04 Python
Python爬虫之模拟知乎登录的方法教程
May 25 Python
python获取中文字符串长度的方法
Nov 14 Python
python实现的MySQL增删改查操作实例小结
Dec 19 Python
python 提取tuple类型值中json格式的key值方法
Dec 31 Python
python 实现多维数组(array)排序
Feb 28 Python
使用Python爬取弹出窗口信息的实例
Mar 14 Python
利用python中的matplotlib打印混淆矩阵实例
Jun 16 Python
详解用python -m http.server搭一个简易的本地局域网
Sep 24 Python
浅析Python 中的 WSGI 接口和 WSGI 服务的运行
Dec 09 Python
Python OpenCV 直方图的计算与显示的方法示例
Feb 08 #Python
python OpenCV学习笔记之绘制直方图的方法
Feb 08 #Python
Python列表推导式与生成器表达式用法示例
Feb 08 #Python
详解python OpenCV学习笔记之直方图均衡化
Feb 08 #Python
python OpenCV学习笔记实现二维直方图
Feb 08 #Python
Python数据分析之双色球基于线性回归算法预测下期中奖结果示例
Feb 08 #Python
Python编程argparse入门浅析
Feb 07 #Python
You might like
php 网页播放器用来播放在线视频的代码(自动判断并选择视频文件类型)
2010/06/03 PHP
Zend Framework基于Command命令行建立ZF项目的方法
2017/02/18 PHP
PHP基础之输出缓冲区基本概念、原理分析
2019/06/19 PHP
一段实现页面上的图片延时加载的js代码
2010/02/11 Javascript
用JQuery实现表格隔行变色和突出显示当前行的代码
2012/02/10 Javascript
js与jQuery 获取父窗、子窗的iframe
2013/12/20 Javascript
jquery原创弹出层折叠效果点击折叠弹出一个层
2014/03/12 Javascript
如何用jquery控制表格奇偶行及活动行颜色
2014/04/20 Javascript
Javascript的闭包详解
2014/12/26 Javascript
jQuery插件之Tocify动态节点目录菜单生成器附源码下载
2016/01/08 Javascript
在js中实现邮箱格式的验证方法(推荐)
2016/10/24 Javascript
基于Three.js插件制作360度全景图
2016/11/29 Javascript
详解JS中的快速排序与冒泡
2017/01/10 Javascript
深入探究AngularJs之$scope对象(作用域)
2017/07/20 Javascript
原生JavaScript实现Ajax异步请求
2017/11/19 Javascript
基于vue实现可搜索下拉框定制组件
2020/03/26 Javascript
JavaScript创建对象的四种常用模式实例分析
2019/01/11 Javascript
Vue中keep-alive的两种应用方式
2020/07/15 Javascript
JavaScript中条件语句的优化技巧总结
2020/12/04 Javascript
JavaScript中的几种继承方法示例
2020/12/06 Javascript
Python psutil模块简单使用实例
2015/04/28 Python
python实现的MySQL增删改查操作实例小结
2018/12/19 Python
python 调试冷知识(小结)
2019/11/11 Python
Python如何基于smtplib发不同格式的邮件
2019/12/30 Python
Python 整行读取文本方法并去掉readlines换行\n操作
2020/09/03 Python
Python绘制词云图之可视化神器pyecharts的方法
2021/02/23 Python
Brasty波兰:香水、化妆品、手表网上商店
2019/04/15 全球购物
速卖通欧盟:Aliexpress EU
2020/08/19 全球购物
请写一个C函数,若处理器是Big_endian的,则返回0;若是Little_endian的,则返回1
2015/07/16 面试题
专业销售业务员求职信
2013/11/18 职场文书
和睦家庭事迹
2014/05/14 职场文书
企业管理标语
2014/06/10 职场文书
颐和园的导游词
2015/01/30 职场文书
八一建军节慰问信
2015/02/14 职场文书
护士自荐信范文(2016推荐篇)
2016/01/28 职场文书
Spring Boot两种全局配置和两种注解的操作方法
2021/06/29 Java/Android