python爬虫中采集中遇到的问题整理


Posted in Python onNovember 27, 2020

在爬虫的获取数据上,一直在讲一些爬取的方法,想必小伙伴们也学习了不少。在学习的过程中遇到了问题,大家也会一起交流解决,找出不懂和出错的地方。今天小编想就爬虫采集数据时遇到的问题进行一个整理,以及在遇到不同的问题时,我们应该想的是什么样的解决思路,具体内容如下分享给大家。

1、需要带着cookie信息访问

比如大多数的社交化软件,基本上都是需要用户登录之后,才能看到有价值的东西,其实很简单,我们可以使用Python提供的cookielib模块,实现每次访问都带着源网站给的cookie信息去访问,这样只要我们成功模拟了登录,爬虫处于登录状态,那么我们就可以采集到登录用户看到的一切信息了。下面是使用cookie对httpRequest()方法的修改:

ckjar = cookielib.MozillaCookieJar()
cookies = urllib2.HTTPCookieProcessor(ckjar)   #定义cookies对象
def httpRequest(url):
 '''''
 @summary: 网络请求
 '''
 try:
  ret = None
  SockFile = None
  request = urllib2.Request(url)
  request.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)')
  request.add_header('Pragma', 'no-cache')
  opener = urllib2.build_opener(cookies)  #传递cookies对象
  SockFile = opener.open(request)
  ret = SockFile.read()
 finally:
  if SockFile:
   SockFile.close()
 return ret

2、编码问题

网站目前最多的两种编码:utf-8,或者gbk,当我们采集回来源网站编码和我们数据库存储的编码不一致时,比如http://163.com的编码使用的是gbk,而我们需要存储的是utf-8编码的数据,那么我们可以使用Python中提供的encode()和decode()方法进行转换,比如:

content = content.decode('gbk', 'ignore')  #将gbk编码转为unicode编码

content = content.encode('utf-8', 'ignore') #将unicode编码转为utf-8编码

到此这篇关于python爬虫中采集中遇到的问题整理的文章就介绍到这了,更多相关python爬虫入门之采集中遇到的问题内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python下线程之间的共享和释放示例
May 04 Python
使用Python脚本将Bing的每日图片作为桌面的教程
May 04 Python
Python中的ctime()方法使用教程
May 22 Python
Python使用迭代器打印螺旋矩阵的思路及代码示例
Jul 02 Python
Python 中urls.py:URL dispatcher(路由配置文件)详解
Mar 24 Python
python使用fcntl模块实现程序加锁功能示例
Jun 23 Python
python 字符串和整数的转换方法
Jun 25 Python
详细介绍pandas的DataFrame的append方法使用
Jul 31 Python
使用Python实现牛顿法求极值
Feb 10 Python
Django调用百度AI接口实现人脸注册登录代码实例
Apr 23 Python
Python正则表达式如何匹配中文
May 27 Python
python Paramiko使用示例
Sep 21 Python
python 用opencv实现图像修复和图像金字塔
Nov 27 #Python
Python函数调用追踪实现代码
Nov 27 #Python
Numpy中np.max的用法及np.maximum区别
Nov 27 #Python
python 实现aes256加密
Nov 27 #Python
pandas使用函数批量处理数据(map、apply、applymap)
Nov 27 #Python
python3.7中安装paddleocr及paddlepaddle包的多种方法
Nov 27 #Python
Python基于template实现字符串替换
Nov 27 #Python
You might like
使用PHP遍历文件夹与子目录的函数代码
2011/09/26 PHP
php对接java现实加签验签的实例
2016/11/25 PHP
php使用str_replace替换多维数组的实现方法分析
2017/06/15 PHP
HTML中事件触发列表与解说
2007/07/09 Javascript
document.createElement()用法
2013/03/13 Javascript
JavaScript列表框listbox全选和反选的实现方法
2015/03/18 Javascript
jquery简单实现网页层的展开与收缩效果
2015/08/07 Javascript
AngularJS 实现按需异步加载实例代码
2015/10/18 Javascript
JavaScript对象数组如何按指定属性和排序方向进行排序
2016/06/15 Javascript
浅谈Node模块系统及其模式
2017/11/17 Javascript
实例学习JavaScript读取和写入cookie
2018/01/29 Javascript
Postman环境变量全局变量使用方法详解
2020/08/13 Javascript
python获取外网ip地址的方法总结
2015/07/02 Python
python实现查找两个字符串中相同字符并输出的方法
2015/07/11 Python
Python cx_freeze打包工具处理问题思路及解决办法
2016/02/13 Python
python相似模块用例
2016/03/04 Python
Python iter()函数用法实例分析
2018/03/17 Python
Python 解码Base64 得到码流格式文本实例
2020/01/09 Python
详解Python的三种拷贝方式
2020/02/11 Python
python梯度下降算法的实现
2020/02/24 Python
Python 如何操作 SQLite 数据库
2020/08/17 Python
python 浮点数四舍五入需要注意的地方
2020/08/18 Python
Python基于Faker假数据构造库
2020/11/30 Python
matplotlib绘制鼠标的十字光标的实现(自定义方式,官方实例)
2021/01/10 Python
常用的四种CSS透明属性介绍
2014/04/12 HTML / CSS
HTML5表格_动力节点Java学院整理
2017/07/11 HTML / CSS
魅力惠奢品线上平台:MEI.COM
2016/11/29 全球购物
美国高级工作服品牌:Carhartt
2018/01/25 全球购物
菲律宾票务网站:StubHub菲律宾
2018/04/21 全球购物
美国葡萄酒网上商店:Martha Stewart Wine Co.
2019/03/17 全球购物
实习教师自我鉴定
2013/12/12 职场文书
《乌鸦和狐狸》教学反思
2014/02/08 职场文书
教师节商场活动方案
2014/02/13 职场文书
护士实习自荐信
2015/03/06 职场文书
纪检监察立案决定书
2015/06/24 职场文书
校园广播稿范文
2015/08/19 职场文书