python爬虫中采集中遇到的问题整理


Posted in Python onNovember 27, 2020

在爬虫的获取数据上,一直在讲一些爬取的方法,想必小伙伴们也学习了不少。在学习的过程中遇到了问题,大家也会一起交流解决,找出不懂和出错的地方。今天小编想就爬虫采集数据时遇到的问题进行一个整理,以及在遇到不同的问题时,我们应该想的是什么样的解决思路,具体内容如下分享给大家。

1、需要带着cookie信息访问

比如大多数的社交化软件,基本上都是需要用户登录之后,才能看到有价值的东西,其实很简单,我们可以使用Python提供的cookielib模块,实现每次访问都带着源网站给的cookie信息去访问,这样只要我们成功模拟了登录,爬虫处于登录状态,那么我们就可以采集到登录用户看到的一切信息了。下面是使用cookie对httpRequest()方法的修改:

ckjar = cookielib.MozillaCookieJar()
cookies = urllib2.HTTPCookieProcessor(ckjar)   #定义cookies对象
def httpRequest(url):
 '''''
 @summary: 网络请求
 '''
 try:
  ret = None
  SockFile = None
  request = urllib2.Request(url)
  request.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)')
  request.add_header('Pragma', 'no-cache')
  opener = urllib2.build_opener(cookies)  #传递cookies对象
  SockFile = opener.open(request)
  ret = SockFile.read()
 finally:
  if SockFile:
   SockFile.close()
 return ret

2、编码问题

网站目前最多的两种编码:utf-8,或者gbk,当我们采集回来源网站编码和我们数据库存储的编码不一致时,比如http://163.com的编码使用的是gbk,而我们需要存储的是utf-8编码的数据,那么我们可以使用Python中提供的encode()和decode()方法进行转换,比如:

content = content.decode('gbk', 'ignore')  #将gbk编码转为unicode编码

content = content.encode('utf-8', 'ignore') #将unicode编码转为utf-8编码

到此这篇关于python爬虫中采集中遇到的问题整理的文章就介绍到这了,更多相关python爬虫入门之采集中遇到的问题内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
复制粘贴功能的Python程序
Apr 04 Python
Python自动化部署工具Fabric的简单上手指南
Apr 19 Python
解决python3在anaconda下安装caffe失败的问题
Jun 15 Python
python实现彩票系统
Jun 28 Python
python中for循环输出列表索引与对应的值方法
Nov 07 Python
python实现基于信息增益的决策树归纳
Dec 18 Python
Windows下PyCharm2018.3.2 安装教程(图文详解)
Oct 24 Python
Python decimal模块使用方法详解
Jun 08 Python
通过实例解析python and和or使用方法
Nov 14 Python
Django 用户认证Auth组件的使用
Nov 30 Python
Python接口自动化系列之unittest结合ddt的使用教程详解
Feb 23 Python
python 用递归实现通用爬虫解析器
Apr 16 Python
python 用opencv实现图像修复和图像金字塔
Nov 27 #Python
Python函数调用追踪实现代码
Nov 27 #Python
Numpy中np.max的用法及np.maximum区别
Nov 27 #Python
python 实现aes256加密
Nov 27 #Python
pandas使用函数批量处理数据(map、apply、applymap)
Nov 27 #Python
python3.7中安装paddleocr及paddlepaddle包的多种方法
Nov 27 #Python
Python基于template实现字符串替换
Nov 27 #Python
You might like
PHP 数字左侧自动补0
2008/03/31 PHP
ThinkPHP3.2.2的插件控制器功能
2015/03/05 PHP
jquery isType() 类型判断代码
2011/02/14 Javascript
jQuery背景插件backstretch使用指南
2015/04/21 Javascript
基于PHP和Mysql相结合使用jqGrid读取数据并显示
2015/12/02 Javascript
JavaScript基础语法之js表达式
2016/06/07 Javascript
vue2.0数据双向绑定与表单bootstrap+vue组件
2017/02/27 Javascript
javascript计算渐变颜色的实例
2017/09/22 Javascript
vue实现引入本地json的方法分析
2018/07/12 Javascript
解决vue同一slot在组件中渲染多次的问题
2018/09/06 Javascript
bootstrap与pagehelper实现分页效果
2018/12/29 Javascript
详解element-ui日期时间选择器的日期格式化问题
2019/04/08 Javascript
angular 表单验证器验证的同时限制输入的实现
2019/04/11 Javascript
JS实现倒序输出的几种常用方法示例
2019/04/13 Javascript
利用JS响应式修改vue实现页面的input值
2019/09/02 Javascript
解决angular 使用原生拖拽页面卡顿及表单控件输入延迟问题
2020/04/21 Javascript
JavaScript常用工具函数大全
2020/05/06 Javascript
[36:52]DOTA2真视界:基辅特锦赛总决赛
2017/05/21 DOTA
python检测服务器是否正常
2014/02/16 Python
利用Python中的pandas库对cdn日志进行分析详解
2017/03/07 Python
Python 50行爬虫抓取并处理图灵书目过程详解
2019/09/20 Python
对django 2.x版本中models.ForeignKey()外键说明介绍
2020/03/30 Python
浅析pandas随机排列与随机抽样
2021/01/22 Python
一款纯css3实现的颜色渐变按钮的代码教程
2014/11/12 HTML / CSS
巴西最大的家具及装饰用品店:Mobly
2017/10/11 全球购物
美国NBA官方商店:NBA Store
2019/04/12 全球购物
Mansur Gavriel官网:纽约市的一个设计品牌
2019/05/02 全球购物
《美丽的丹顶鹤》教学反思
2014/04/22 职场文书
应届生找工作求职信
2014/06/24 职场文书
传播学专业毕业生自荐书
2014/07/01 职场文书
2014中学教师节广播稿
2014/09/10 职场文书
2015年乡镇扶贫工作总结
2015/04/08 职场文书
让生命充满爱观后感
2015/06/08 职场文书
公司客户答谢酒会祝酒词
2015/08/11 职场文书
2015年秋学期师德师风建设工作总结
2015/10/23 职场文书
Python实战之OpenCV实现猫脸检测
2021/06/26 Python