Python requests获取网页常用方法解析


Posted in Python onFebruary 20, 2020

这篇文章主要介绍了Python requests获取网页常用方法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

主要记录使用 requests 模块获取网页源码的方法

class Crawler(object):
 """
 采集类
 """
 def __init__(self, base_url):
  self._base_url = base_url
  self._cookie = None
  self._getCookie()

 def _getCookie(self):
  """
  获取站点cookie
  :return:
  """
  try:
   res = requests.get(self._base_url)
   res.raise_for_status()
   # TODO response.cookies获取到的是一个cookiejar对象,需要使用requests.utils.dict_from_cookiejar来
   # TODO 将cookiejar对象转换为一个字典,这个字典后续使用的时候,在请求时直接传入就可以了,
   # 如 requests.get(url, cookies=cookies)
   self._cookie = requests.utils.dict_from_cookiejar(res.cookies)
   print self._cookie
  except Exception as e:
   print e

 def get_html_text(self, url, **kwargs):
  """
  爬取网页的通用代码框架
  :param url:
  :param method:
  :param kwargs:
  :return:
  """
  try:
   kwargs.setdefault('cookies', self._cookie)
   res = requests.get(url, **kwargs)
   # TODO 若响应状态码不是200, 抛出 HTTPError 异常
   res.raise_for_status()
   res.encoding = res.apparent_encoding
   # print requests.utils.dict_from_cookiejar(res.cookies)
   return res.text
  except Exception as e:
   print traceback.print_exc()
   return

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
在Python中操作字典之fromkeys()方法的使用
May 21 Python
详谈python3中用for循环删除列表中元素的坑
Apr 19 Python
python 不以科学计数法输出的方法
Jul 16 Python
详解配置Django的Celery异步之路踩坑
Nov 25 Python
python实现定时压缩指定文件夹发送邮件
Dec 22 Python
python使用itchat模块给心爱的人每天发天气预报
Nov 25 Python
python except异常处理之后不退出,解决异常继续执行的实现
Apr 25 Python
OpenCV Python实现图像指定区域裁剪
Mar 12 Python
Python3如何实现Win10桌面自动切换
Aug 11 Python
基于Python实现体育彩票选号器功能代码实例
Sep 16 Python
python 利用Pyinstaller打包Web项目
Oct 23 Python
python 爬虫基本使用——统计杭电oj题目正确率并排序
Oct 26 Python
pytorch实现保证每次运行使用的随机数都相同
Feb 20 #Python
Python argparse模块使用方法解析
Feb 20 #Python
浅谈pytorch torch.backends.cudnn设置作用
Feb 20 #Python
Python sqlite3查询操作过程解析
Feb 20 #Python
python利用datetime模块计算程序运行时间问题
Feb 20 #Python
pytorch数据预处理错误的解决
Feb 20 #Python
Python异常继承关系和自定义异常实现代码实例
Feb 20 #Python
You might like
非洲第一个咖啡超凡杯大赛承办国—卢旺达的咖啡怎么样
2021/03/03 咖啡文化
php is_file 判断给定文件名是否为一个正常的文件
2010/05/10 PHP
ThinkPHP 3.2.3实现加减乘除图片验证码
2018/12/05 PHP
jquery 3D球状导航的文章分类
2010/07/06 Javascript
JQuery插件开发示例代码
2013/11/06 Javascript
javascript 获取函数形参个数
2014/07/31 Javascript
jquery中使用循环下拉菜单示例代码
2014/09/24 Javascript
简介JavaScript中substring()方法的使用
2015/06/06 Javascript
JS简单编号生成器实现方法(附demo源码下载)
2016/04/05 Javascript
20分钟轻松创建自己的Bootstrap站点
2016/05/12 Javascript
浅谈layer的iframe弹窗给里面的标签赋值的问题
2016/11/10 Javascript
jQuery删除当前节点元素
2016/12/07 Javascript
微信小程序左右滑动切换页面详解及实例代码
2017/02/28 Javascript
Bootstrap table使用方法总结
2017/05/10 Javascript
Vue单文件组件基础模板小结
2017/08/10 Javascript
使用MUI框架模拟手机端的下拉刷新和上拉加载功能
2017/09/04 Javascript
Vue2.x Todo之自定义指令实现自动聚焦的方法
2019/01/08 Javascript
如何在微信小程序中实现Mixins方案
2019/06/20 Javascript
Vue中util的工具函数实例详解
2019/07/08 Javascript
Python实现Linux的find命令实例分享
2017/06/04 Python
Python闭包函数定义与用法分析
2018/07/20 Python
PyQt5 实现给窗口设置背景图片的方法
2019/06/13 Python
Python3.7黑帽编程之病毒篇(基础篇)
2020/02/04 Python
采购部长岗位职责
2014/06/13 职场文书
医院合作协议书
2014/08/19 职场文书
品牌推广活动策划方案
2014/08/19 职场文书
党的群众路线教育实践活动领导班子整改方案
2014/10/25 职场文书
讲座通知范文
2015/04/23 职场文书
通讯稿范文
2015/07/22 职场文书
2016年寒假见闻
2015/10/10 职场文书
关于做家务的心得体会
2016/01/23 职场文书
正确的理解和使用Django信号(Signals)
2021/04/14 Python
十大冰系宝可梦排名,颜值最高的阿罗拉九尾,第三使用率第一
2022/03/18 日漫
《地。-关于地球的运动-》单行本第七集上市,小说家朝井辽献上期待又害怕的推荐文
2022/03/31 日漫
浅谈Node的内存泄露问题
2022/05/06 NodeJs
Win11如何查看显卡型号 Win11查看显卡型号的方法
2022/08/14 数码科技