Python requests获取网页常用方法解析


Posted in Python onFebruary 20, 2020

这篇文章主要介绍了Python requests获取网页常用方法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

主要记录使用 requests 模块获取网页源码的方法

class Crawler(object):
 """
 采集类
 """
 def __init__(self, base_url):
  self._base_url = base_url
  self._cookie = None
  self._getCookie()

 def _getCookie(self):
  """
  获取站点cookie
  :return:
  """
  try:
   res = requests.get(self._base_url)
   res.raise_for_status()
   # TODO response.cookies获取到的是一个cookiejar对象,需要使用requests.utils.dict_from_cookiejar来
   # TODO 将cookiejar对象转换为一个字典,这个字典后续使用的时候,在请求时直接传入就可以了,
   # 如 requests.get(url, cookies=cookies)
   self._cookie = requests.utils.dict_from_cookiejar(res.cookies)
   print self._cookie
  except Exception as e:
   print e

 def get_html_text(self, url, **kwargs):
  """
  爬取网页的通用代码框架
  :param url:
  :param method:
  :param kwargs:
  :return:
  """
  try:
   kwargs.setdefault('cookies', self._cookie)
   res = requests.get(url, **kwargs)
   # TODO 若响应状态码不是200, 抛出 HTTPError 异常
   res.raise_for_status()
   res.encoding = res.apparent_encoding
   # print requests.utils.dict_from_cookiejar(res.cookies)
   return res.text
  except Exception as e:
   print traceback.print_exc()
   return

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python 正则表达式操作指南
May 04 Python
使用python提取html文件中的特定数据的实现代码
Mar 24 Python
python读取浮点数和读取文本文件示例
May 06 Python
Python实例之wxpython中Frame使用方法
Jun 09 Python
Python新手们容易犯的几个错误总结
Apr 01 Python
Python3自动签到 定时任务 判断节假日的实例
Nov 13 Python
Python list列表中删除多个重复元素操作示例
Feb 27 Python
Django 模型类(models.py)的定义详解
Jul 19 Python
python FTP批量下载/删除/上传实例
Dec 22 Python
Django Form常用功能及代码示例
Oct 13 Python
Python实现中英文全文搜索的示例
Dec 04 Python
python实现A*寻路算法
Jun 13 Python
pytorch实现保证每次运行使用的随机数都相同
Feb 20 #Python
Python argparse模块使用方法解析
Feb 20 #Python
浅谈pytorch torch.backends.cudnn设置作用
Feb 20 #Python
Python sqlite3查询操作过程解析
Feb 20 #Python
python利用datetime模块计算程序运行时间问题
Feb 20 #Python
pytorch数据预处理错误的解决
Feb 20 #Python
Python异常继承关系和自定义异常实现代码实例
Feb 20 #Python
You might like
一个程序下载的管理程序(一)
2006/10/09 PHP
PHP文件下载类
2006/12/06 PHP
php正则取img标记中任意属性(正则替换去掉或改变图片img标记中的任意属性)
2013/08/13 PHP
PHP实现基本留言板功能原理与步骤详解
2020/03/26 PHP
css动画效果之animation的常用样式
2021/03/09 HTML / CSS
为指定元素增加样式的js代码
2009/12/09 Javascript
web开发人员学习jQuery的6大理由及jQuery的优势介绍
2013/01/03 Javascript
javascript动态添加样式(行内式/嵌入式/外链式等规则)
2013/06/24 Javascript
Javascript变量的作用域和作用域链详解
2015/04/02 Javascript
深入分析JSON编码格式提交表单数据
2015/06/25 Javascript
javascript实现将文件保存到本地方法汇总
2015/07/26 Javascript
JavaScript中数组去除重复的三种方法
2016/04/22 Javascript
浅谈jQuery为哪般去掉了浏览器检测
2016/08/29 Javascript
Vue原理剖析 实现双向绑定MVVM
2017/05/03 Javascript
使用node.js对音视频文件加密的实例代码
2017/08/30 Javascript
jQuery实现的粘性滚动导航栏效果实例【附源码下载】
2017/10/19 jQuery
angularjs数组判断是否含有某个元素的实例
2018/02/27 Javascript
vue移动UI框架滑动加载数据的方法
2018/03/12 Javascript
vue axios请求拦截实例代码
2018/03/29 Javascript
Vue文件配置全局变量的实例
2018/09/06 Javascript
angular4中*ngFor不能对返回来的对象进行循环的解决方法
2018/09/12 Javascript
vue 使某个组件不被 keep-alive 缓存的方法
2018/09/21 Javascript
微信小程序实现电子签名并导出图片
2020/05/27 Javascript
Python中的作用域规则详解
2015/01/30 Python
Python中的FTP通信模块ftplib的用法整理
2016/07/08 Python
使用Python实现毫秒级抢单功能
2019/06/06 Python
python将字母转化为数字实例方法
2019/10/04 Python
python中的Elasticsearch操作汇总
2019/10/30 Python
台湾最大银发乐活百货:乐龄网
2018/05/21 全球购物
Europcar澳大利亚官网:全球汽车租赁领域的领导者
2019/03/24 全球购物
应届生会计电算化求职信
2013/10/03 职场文书
直接有效的自我评价
2014/01/11 职场文书
领导干部廉政自律承诺书
2014/05/26 职场文书
六五普法先进个人主要事迹材料
2015/11/03 职场文书
position:sticky 粘性定位的几种巧妙应用详解
2021/04/24 HTML / CSS
Java实现HTML转为Word的示例代码
2022/06/28 Java/Android