python3中编码获取网页的实例方法


Posted in Python onNovember 16, 2020

学了python后,之前一些我们常用的方法,也可以换一种思路用python中的知识来解决。相信操作出来后,能收获一大批小粉丝们。就像我们没学习编程之前,看到那种大神都是可望而不可即。今天我们就之前简单获取网页的这种操作用python中的编码来解决,大家可以自行体会一下两者的不同。

1. encoding和apparent_encoding

import scrapy
url="https://www.xxx.net/html/gndy/dyzz/index.html"
re=requests.get(url)
#获取响应头Content-Type的charset值,有的网站没有charset字段,就可能使用默认的 ISO-8859-1
print(re.encoding)
#apparent_encoding就是获取网站真实的编码
print(re.apparent_encoding)

2. 处理方案

直接用r.encoding = ‘xxx'

re.encoding='utf-8'

3. requests的text() 跟 content() 有什么区别

re.text返回的是处理过的Unicode型的数据,

而使用re.content返回的是bytes型的原始数据。

4. 爬虫拿到的HTML和浏览器中的源码不相同时

通过下载源码对比

import requests
url = 'https://www.xxx.net/html/gndy/dyzz/index.html'
r = requests.get(url)
r.encoding = r.apparent_encoding
html = r.text
with open('test.html','w',encoding='utf8') as f:
f.write(html)

 python3中编码获取网页的实例方法

到此这篇关于python3中编码获取网页的实例方法的文章就介绍到这了,更多相关python3中编码如何获取网页内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
举例讲解如何在Python编程中进行迭代和遍历
Jan 19 Python
Python中MySQL数据迁移到MongoDB脚本的方法
Apr 28 Python
Python方法的延迟加载的示例代码
Dec 18 Python
tensorflow实现softma识别MNIST
Mar 12 Python
python贪婪匹配以及多行匹配的实例讲解
Apr 19 Python
Pytorch加载部分预训练模型的参数实例
Aug 18 Python
tensorflow自定义激活函数实例
Feb 04 Python
python中数据库like模糊查询方式
Mar 02 Python
利用PyTorch实现VGG16教程
Jun 24 Python
使用SimpleITK读取和保存NIfTI/DICOM文件实例
Jul 01 Python
python如何快速生成时间戳
Jul 21 Python
python 统计代码耗时的几种方法分享
Apr 02 Python
Python3中小括号()、中括号[]、花括号{}的区别详解
Nov 15 #Python
Python根据URL地址下载文件并保存至对应目录的实现
Nov 15 #Python
python re的findall和finditer的区别详解
Nov 15 #Python
Python获取android设备cpu和内存占用情况
Nov 15 #Python
Python __slots__的使用方法
Nov 15 #Python
Python descriptor(描述符)的实现
Nov 15 #Python
基于OpenCV的网络实时视频流传输的实现
Nov 15 #Python
You might like
PHP date函数参数详解
2006/11/27 PHP
删除html标签得到纯文本可处理嵌套的标签
2014/04/28 PHP
smarty自定义函数htmlcheckboxes用法实例
2015/01/22 PHP
PHP实现的同步推荐操作API接口案例分析
2016/11/30 PHP
js类中获取外部函数名的方法
2007/08/19 Javascript
Mootools 1.2教程 事件处理
2009/09/15 Javascript
初识JQuery 实例一(first)
2011/03/16 Javascript
提交表单时执行func方法实现代码
2013/03/17 Javascript
js编码、解码函数介绍及其使用示例
2013/09/05 Javascript
jquerydom对象的事件隐藏显示和对象数组示例
2013/12/10 Javascript
JavaScript创建闭包的两种方式的优劣与区别分析
2015/06/22 Javascript
js小数运算出现多位小数如何解决
2015/10/08 Javascript
Javascript中Date类型和Math类型详解
2016/02/27 Javascript
快速掌握Node.js模块封装及使用
2016/03/21 Javascript
angularjs 表单密码验证自定义指令实现代码
2016/10/27 Javascript
vue-cli+webpack在生成的项目中使用bootstrap实例代码
2017/05/26 Javascript
ES6学习教程之模板字符串详解
2017/10/09 Javascript
解决vue中post方式提交数据后台无法接收的问题
2018/08/11 Javascript
jQuery序列化form表单数据为JSON对象的实现方法
2018/09/20 jQuery
vue 导航内容设置选中状态样式的例子
2019/11/01 Javascript
JS+Canvas实现五子棋游戏
2020/08/26 Javascript
python基础之包的导入和__init__.py的介绍
2018/01/08 Python
Python 数值区间处理_对interval 库的快速入门详解
2018/11/16 Python
Python计算库numpy进行方差/标准方差/样本标准方差/协方差的计算
2018/12/28 Python
django配置连接数据库及原生sql语句的使用方法
2019/03/03 Python
详解python tkinter模块安装过程
2020/01/06 Python
python中re模块知识点总结
2021/01/17 Python
上海期货面试题
2014/01/31 面试题
一些关于MySql加速和优化的面试题
2014/01/30 面试题
优秀家长事迹材料
2014/05/17 职场文书
2014年人事工作总结范文
2014/11/19 职场文书
汽车转让协议书
2015/01/29 职场文书
班主任工作经验交流会总结
2015/11/02 职场文书
微信小程序实现拍照和相册选取图片
2021/05/09 Javascript
SQL基础查询和LINQ集成化查询
2022/01/18 MySQL
叶县这家生产军用电台的兵工厂,人称“四机部”,走出一上将
2022/02/18 无线电