python3中编码获取网页的实例方法


Posted in Python onNovember 16, 2020

学了python后,之前一些我们常用的方法,也可以换一种思路用python中的知识来解决。相信操作出来后,能收获一大批小粉丝们。就像我们没学习编程之前,看到那种大神都是可望而不可即。今天我们就之前简单获取网页的这种操作用python中的编码来解决,大家可以自行体会一下两者的不同。

1. encoding和apparent_encoding

import scrapy
url="https://www.xxx.net/html/gndy/dyzz/index.html"
re=requests.get(url)
#获取响应头Content-Type的charset值,有的网站没有charset字段,就可能使用默认的 ISO-8859-1
print(re.encoding)
#apparent_encoding就是获取网站真实的编码
print(re.apparent_encoding)

2. 处理方案

直接用r.encoding = ‘xxx'

re.encoding='utf-8'

3. requests的text() 跟 content() 有什么区别

re.text返回的是处理过的Unicode型的数据,

而使用re.content返回的是bytes型的原始数据。

4. 爬虫拿到的HTML和浏览器中的源码不相同时

通过下载源码对比

import requests
url = 'https://www.xxx.net/html/gndy/dyzz/index.html'
r = requests.get(url)
r.encoding = r.apparent_encoding
html = r.text
with open('test.html','w',encoding='utf8') as f:
f.write(html)

 python3中编码获取网页的实例方法

到此这篇关于python3中编码获取网页的实例方法的文章就介绍到这了,更多相关python3中编码如何获取网页内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python基于xmlrpc实现二进制文件传输的方法
Jun 02 Python
多版本Python共存的配置方法
May 22 Python
Python元组操作实例分析【创建、赋值、更新、删除等】
Jul 24 Python
Python中使用多进程来实现并行处理的方法小结
Aug 09 Python
Pycharm 创建 Django admin 用户名和密码的实例
May 30 Python
python 自动去除空行的实例
Jul 24 Python
win10下opencv-python特定版本手动安装与pip自动安装教程
Mar 05 Python
TensorFlow tf.nn.softmax_cross_entropy_with_logits的用法
Apr 19 Python
python模拟哔哩哔哩滑块登入验证的实现
Apr 24 Python
如何利用Python写个坦克大战
Nov 18 Python
jupyter notebook指定启动目录的方法
Mar 02 Python
python爬虫之利用selenium模块自动登录CSDN
Apr 22 Python
Python3中小括号()、中括号[]、花括号{}的区别详解
Nov 15 #Python
Python根据URL地址下载文件并保存至对应目录的实现
Nov 15 #Python
python re的findall和finditer的区别详解
Nov 15 #Python
Python获取android设备cpu和内存占用情况
Nov 15 #Python
Python __slots__的使用方法
Nov 15 #Python
Python descriptor(描述符)的实现
Nov 15 #Python
基于OpenCV的网络实时视频流传输的实现
Nov 15 #Python
You might like
php 字符串替换的方法
2012/01/10 PHP
PHP JS Ip地址及域名格式检测代码
2013/09/27 PHP
PHP实现动态柱状图改进版
2015/03/30 PHP
PHP的serialize序列化数据以及JSON格式化数据分析
2015/10/10 PHP
PHP生成图片验证码功能示例
2017/01/12 PHP
document.body.scrollTop 值总为0的解决方法 比较常见的标准问题
2009/11/30 Javascript
改善你的jQuery的25个步骤 千倍级效率提升
2010/02/11 Javascript
基于jQuery的消息提示插件 DivAlert之旅(二)
2010/04/01 Javascript
模拟jQuery中的ready方法及实现按需加载css,js实例代码
2013/09/27 Javascript
减少访问DOM的次数提升javascript性能
2014/02/24 Javascript
JavaScript中的Math.atan2()方法使用详解
2015/06/15 Javascript
JS自动倒计时30秒后按钮才可用(两种场景)
2015/08/31 Javascript
node.js连接MongoDB数据库的2种方法教程
2017/05/17 Javascript
微信小程序实现单列下拉菜单效果
2019/04/25 Javascript
vue动态绑定class的几种常用方式小结
2019/05/21 Javascript
使用js实现单链解决前端队列问题的方法
2020/02/03 Javascript
vue基础知识--axios合并请求和slot
2020/06/04 Javascript
pytorch + visdom CNN处理自建图片数据集的方法
2018/06/04 Python
python开发准备工作之配置虚拟环境(非常重要)
2019/02/11 Python
使用python实现滑动验证码功能
2019/08/05 Python
解决django中form表单设置action后无法回到原页面的问题
2020/03/13 Python
Python自动重新加载模块详解(autoreload module)
2020/04/01 Python
Visual Studio Code搭建django项目的方法步骤
2020/09/17 Python
Python调用REST API接口的几种方式汇总
2020/10/19 Python
Python 中Operator模块的使用
2021/01/30 Python
2014年元旦促销活动方案
2014/02/22 职场文书
软件项目开发计划书
2014/05/01 职场文书
运动会演讲稿300字
2014/08/25 职场文书
四风问题对照检查材料思想汇报
2014/10/07 职场文书
机关作风建设剖析材料
2014/10/11 职场文书
英语辞职信怎么写
2015/02/28 职场文书
2016年大学自主招生自荐信范文
2015/03/24 职场文书
留学推荐信英文范文
2015/03/26 职场文书
2016年优秀党务工作者先进事迹材料
2016/02/29 职场文书
springboot应用服务启动事件的监听实现
2022/04/06 Java/Android
PHP 时间处理类Carbon
2022/05/20 PHP