python爬虫中采集中遇到的问题整理


Posted in Python onNovember 27, 2020

在爬虫的获取数据上,一直在讲一些爬取的方法,想必小伙伴们也学习了不少。在学习的过程中遇到了问题,大家也会一起交流解决,找出不懂和出错的地方。今天小编想就爬虫采集数据时遇到的问题进行一个整理,以及在遇到不同的问题时,我们应该想的是什么样的解决思路,具体内容如下分享给大家。

1、需要带着cookie信息访问

比如大多数的社交化软件,基本上都是需要用户登录之后,才能看到有价值的东西,其实很简单,我们可以使用Python提供的cookielib模块,实现每次访问都带着源网站给的cookie信息去访问,这样只要我们成功模拟了登录,爬虫处于登录状态,那么我们就可以采集到登录用户看到的一切信息了。下面是使用cookie对httpRequest()方法的修改:

ckjar = cookielib.MozillaCookieJar()
cookies = urllib2.HTTPCookieProcessor(ckjar)   #定义cookies对象
def httpRequest(url):
 '''''
 @summary: 网络请求
 '''
 try:
  ret = None
  SockFile = None
  request = urllib2.Request(url)
  request.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)')
  request.add_header('Pragma', 'no-cache')
  opener = urllib2.build_opener(cookies)  #传递cookies对象
  SockFile = opener.open(request)
  ret = SockFile.read()
 finally:
  if SockFile:
   SockFile.close()
 return ret

2、编码问题

网站目前最多的两种编码:utf-8,或者gbk,当我们采集回来源网站编码和我们数据库存储的编码不一致时,比如http://163.com的编码使用的是gbk,而我们需要存储的是utf-8编码的数据,那么我们可以使用Python中提供的encode()和decode()方法进行转换,比如:

content = content.decode('gbk', 'ignore')  #将gbk编码转为unicode编码

content = content.encode('utf-8', 'ignore') #将unicode编码转为utf-8编码

到此这篇关于python爬虫中采集中遇到的问题整理的文章就介绍到这了,更多相关python爬虫入门之采集中遇到的问题内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
使用Python导出Excel图表以及导出为图片的方法
Nov 07 Python
理解Python垃圾回收机制
Feb 12 Python
PyQt5每天必学之组合框
Apr 20 Python
Python基于property实现类的特性操作示例
Jun 15 Python
正确理解Python中if __name__ == '__main__'
Jan 24 Python
浅谈Django+Gunicorn+Nginx部署之路
Sep 11 Python
python的pyecharts绘制各种图表详细(附代码)
Nov 11 Python
python:解析requests返回的response(json格式)说明
Apr 30 Python
python 爬取B站原视频的实例代码
Sep 09 Python
详解Python中的编码问题(encoding与decode、str与bytes)
Sep 30 Python
PyCharm+Miniconda3安装配置教程详解
Feb 16 Python
python通过新建环境安装tfx的问题
May 20 Python
python 用opencv实现图像修复和图像金字塔
Nov 27 #Python
Python函数调用追踪实现代码
Nov 27 #Python
Numpy中np.max的用法及np.maximum区别
Nov 27 #Python
python 实现aes256加密
Nov 27 #Python
pandas使用函数批量处理数据(map、apply、applymap)
Nov 27 #Python
python3.7中安装paddleocr及paddlepaddle包的多种方法
Nov 27 #Python
Python基于template实现字符串替换
Nov 27 #Python
You might like
php 随机记录mysql rand()造成CPU 100%的解决办法
2010/05/18 PHP
PHP中把stdClass Object转array的几个方法
2014/05/08 PHP
PHP代码实现表单数据验证类
2015/07/28 PHP
CI框架常用经典操作类总结(路由,伪静态,分页,session,验证码等)
2016/11/21 PHP
js模拟类继承小例子
2010/07/17 Javascript
JavaScript函数作用域链分析
2015/02/13 Javascript
JS获取CSS样式(style/getComputedStyle/currentStyle)
2016/01/19 Javascript
使用jQuery的load方法设计动态加载及解决被加载页面js失效问题
2017/03/01 Javascript
Node.js读取文件内容示例
2017/03/07 Javascript
非常实用的vue导航钩子
2017/03/20 Javascript
移动端使用localResizeIMG4压缩图片
2017/04/22 Javascript
Node 自动化部署的方法
2017/10/17 Javascript
vue项目中使用tinymce编辑器的步骤详解
2018/09/11 Javascript
每个 JavaScript 工程师都应懂的33个概念
2018/10/22 Javascript
Vue事件修饰符native、self示例详解
2019/07/09 Javascript
VueJS 取得 URL 参数值的方法
2019/07/19 Javascript
vue路由守卫及路由守卫无限循环问题详析
2019/09/05 Javascript
[09:22]2014DOTA2西雅图国际邀请赛 主赛事第二日TOPPLAY
2014/07/21 DOTA
python获取txt文件词向量过程详解
2019/07/05 Python
python中多个装饰器的调用顺序详解
2019/07/16 Python
pygame实现贪吃蛇游戏(下)
2019/10/29 Python
使用Keras建立模型并训练等一系列操作方式
2020/07/02 Python
pycharm激活码2020最新分享适用pycharm2020最新版亲测可用
2020/11/22 Python
用python发送微信消息
2020/12/21 Python
Matlab使用Plot函数实现数据动态显示方法总结
2021/02/25 Python
Algenist奥杰尼官网:微藻抗衰老护肤品牌
2017/07/15 全球购物
Pretty Green美国:英式摇滚服饰风格代表品牌之一
2019/01/23 全球购物
会计学个人自荐信模板
2013/12/13 职场文书
中学生运动会入场词
2014/02/12 职场文书
理工类毕业自我鉴定
2014/02/20 职场文书
海飞丝广告词
2014/03/20 职场文书
关于环保的演讲稿
2014/05/10 职场文书
销售员岗位职责
2015/02/10 职场文书
质量承诺书格式范文
2015/04/28 职场文书
文明上网主题班会
2015/08/14 职场文书
html form表单基础入门案例讲解
2021/07/15 HTML / CSS