python3中编码获取网页的实例方法


Posted in Python onNovember 16, 2020

学了python后,之前一些我们常用的方法,也可以换一种思路用python中的知识来解决。相信操作出来后,能收获一大批小粉丝们。就像我们没学习编程之前,看到那种大神都是可望而不可即。今天我们就之前简单获取网页的这种操作用python中的编码来解决,大家可以自行体会一下两者的不同。

1. encoding和apparent_encoding

import scrapy
url="https://www.xxx.net/html/gndy/dyzz/index.html"
re=requests.get(url)
#获取响应头Content-Type的charset值,有的网站没有charset字段,就可能使用默认的 ISO-8859-1
print(re.encoding)
#apparent_encoding就是获取网站真实的编码
print(re.apparent_encoding)

2. 处理方案

直接用r.encoding = ‘xxx'

re.encoding='utf-8'

3. requests的text() 跟 content() 有什么区别

re.text返回的是处理过的Unicode型的数据,

而使用re.content返回的是bytes型的原始数据。

4. 爬虫拿到的HTML和浏览器中的源码不相同时

通过下载源码对比

import requests
url = 'https://www.xxx.net/html/gndy/dyzz/index.html'
r = requests.get(url)
r.encoding = r.apparent_encoding
html = r.text
with open('test.html','w',encoding='utf8') as f:
f.write(html)

 python3中编码获取网页的实例方法

到此这篇关于python3中编码获取网页的实例方法的文章就介绍到这了,更多相关python3中编码如何获取网页内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python和Ruby中each循环引用变量问题(一个隐秘BUG?)
Jun 04 Python
Python常用模块用法分析
Sep 08 Python
Python实现遍历windows所有窗口并输出窗口标题的方法
Mar 13 Python
pygame学习笔记(1):矩形、圆型画图实例
Apr 15 Python
详解python 发送邮件实例代码
Dec 22 Python
python 读取excel文件生成sql文件实例详解
May 12 Python
简单实现Python爬取网络图片
Apr 01 Python
Python实现简单石头剪刀布游戏
Jan 20 Python
python函数参数(必须参数、可变参数、关键字参数)
Aug 16 Python
详解使用django-mama-cas快速搭建CAS服务的实现
Oct 30 Python
Pytorch 之修改Tensor部分值方式
Dec 27 Python
代码总结Python2 和 Python3 字符串的区别
Jan 28 Python
Python3中小括号()、中括号[]、花括号{}的区别详解
Nov 15 #Python
Python根据URL地址下载文件并保存至对应目录的实现
Nov 15 #Python
python re的findall和finditer的区别详解
Nov 15 #Python
Python获取android设备cpu和内存占用情况
Nov 15 #Python
Python __slots__的使用方法
Nov 15 #Python
Python descriptor(描述符)的实现
Nov 15 #Python
基于OpenCV的网络实时视频流传输的实现
Nov 15 #Python
You might like
php中的观察者模式
2010/03/24 PHP
PHP的explode和implode的使用说明
2011/07/17 PHP
基于MySQL分区性能的详细介绍
2013/05/02 PHP
详谈php静态方法及普通方法的区别
2016/10/04 PHP
PHP对称加密算法(DES/AES)类的实现代码
2017/11/14 PHP
php中的explode()函数实例介绍
2019/01/18 PHP
php7 图形用户界面GUI 开发示例
2020/02/22 PHP
一段多浏览器的"复制到剪贴板"javascript代码
2007/03/27 Javascript
关于juqery radio写法的兼容性问题(新老版本jquery)
2010/06/14 Javascript
JQuery浮动DIV提示信息并自动隐藏的代码
2010/08/29 Javascript
JavaScript面向对象设计二 构造函数模式
2011/12/20 Javascript
JavaScript字符串对象replace方法实例(用于字符串替换或正则替换)
2014/10/16 Javascript
Juery解决tablesorter中文排序和字符范围的方法
2015/05/06 Javascript
谈谈JavaScript类型系统之Math
2016/01/06 Javascript
浅谈JS继承_借用构造函数 & 组合式继承
2016/08/16 Javascript
BootStrap与Select2使用小结
2017/02/17 Javascript
Puppet的一些技巧
2018/09/17 Javascript
解决vue热替换失效的根本原因
2018/09/19 Javascript
JavaScript进制转换实现方法解析
2020/01/18 Javascript
[42:27]DOTA2上海特级锦标赛主赛事日 - 3 败者组第三轮#2Fnatic VS OG第三局
2016/03/05 DOTA
Python下singleton模式的实现方法
2014/07/16 Python
浅析Python中return和finally共同挖的坑
2017/08/18 Python
Python 多核并行计算的示例代码
2017/11/07 Python
python微信跳一跳系列之棋子定位颜色识别
2018/02/26 Python
PyQt编程之如何在屏幕中央显示窗体的实例
2019/06/18 Python
解决python tkinter界面卡死的问题
2019/07/17 Python
python django中8000端口被占用的解决
2019/12/17 Python
Jupyter notebook快速入门教程(推荐)
2020/05/18 Python
python+requests实现接口测试的完整步骤
2020/10/27 Python
HTML5 常用语法一览(列举不支持的属性)
2010/01/26 HTML / CSS
HTML5中的Article和Section元素认识及使用
2013/03/22 HTML / CSS
HTML5注册表单的自动聚焦与占位文本示例代码
2013/07/19 HTML / CSS
畜牧兽医本科生个人的自我评价
2013/10/11 职场文书
公安局副政委班子个人对照检查材料
2014/10/04 职场文书
2015年敬老月活动总结
2015/03/27 职场文书
nginx安装以及配置的详细过程记录
2021/09/15 Servers