python3中编码获取网页的实例方法


Posted in Python onNovember 16, 2020

学了python后,之前一些我们常用的方法,也可以换一种思路用python中的知识来解决。相信操作出来后,能收获一大批小粉丝们。就像我们没学习编程之前,看到那种大神都是可望而不可即。今天我们就之前简单获取网页的这种操作用python中的编码来解决,大家可以自行体会一下两者的不同。

1. encoding和apparent_encoding

import scrapy
url="https://www.xxx.net/html/gndy/dyzz/index.html"
re=requests.get(url)
#获取响应头Content-Type的charset值,有的网站没有charset字段,就可能使用默认的 ISO-8859-1
print(re.encoding)
#apparent_encoding就是获取网站真实的编码
print(re.apparent_encoding)

2. 处理方案

直接用r.encoding = ‘xxx'

re.encoding='utf-8'

3. requests的text() 跟 content() 有什么区别

re.text返回的是处理过的Unicode型的数据,

而使用re.content返回的是bytes型的原始数据。

4. 爬虫拿到的HTML和浏览器中的源码不相同时

通过下载源码对比

import requests
url = 'https://www.xxx.net/html/gndy/dyzz/index.html'
r = requests.get(url)
r.encoding = r.apparent_encoding
html = r.text
with open('test.html','w',encoding='utf8') as f:
f.write(html)

 python3中编码获取网页的实例方法

到此这篇关于python3中编码获取网页的实例方法的文章就介绍到这了,更多相关python3中编码如何获取网页内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python聚类算法之凝聚层次聚类实例分析
Nov 20 Python
总结python爬虫抓站的实用技巧
Aug 09 Python
python实现实时监控文件的方法
Aug 26 Python
python字符串与url编码的转换实例
May 10 Python
Python用61行代码实现图片像素化的示例代码
Dec 10 Python
python使用插值法画出平滑曲线
Dec 15 Python
解决pycharm remote deployment 配置的问题
Jun 27 Python
用python实现英文字母和相应序数转换的方法
Sep 18 Python
Python如何使用turtle库绘制图形
Feb 26 Python
Pycharm生成可执行文件.exe的实现方法
Jun 02 Python
python爬取抖音视频的实例分析
Jan 19 Python
基于Python的EasyGUI学习实践
May 07 Python
Python3中小括号()、中括号[]、花括号{}的区别详解
Nov 15 #Python
Python根据URL地址下载文件并保存至对应目录的实现
Nov 15 #Python
python re的findall和finditer的区别详解
Nov 15 #Python
Python获取android设备cpu和内存占用情况
Nov 15 #Python
Python __slots__的使用方法
Nov 15 #Python
Python descriptor(描述符)的实现
Nov 15 #Python
基于OpenCV的网络实时视频流传输的实现
Nov 15 #Python
You might like
一个odbc连mssql分页的类
2006/10/09 PHP
PHP n个不重复的随机数生成代码
2009/06/23 PHP
Yii实现单用户博客系统文章详情页插入评论表单的方法
2015/12/28 PHP
PHP7新特性foreach 修改示例介绍
2016/08/26 PHP
PHP+MySQL实现输入页码跳转到指定页面功能示例
2018/06/01 PHP
python进程与线程小结实例分析
2018/11/11 PHP
javascript全局变量封装模块实现代码
2012/11/28 Javascript
JavaScript计算字符串中每个字符出现次数的小例子
2013/07/02 Javascript
解决jquery中美元符号命名冲突问题
2014/01/08 Javascript
深入理解javascript作用域和闭包
2014/09/23 Javascript
js代码实现无缝滚动(文字和图片)
2015/08/20 Javascript
浅谈jQuery中的checkbox问题
2016/08/10 Javascript
最丑的时钟效果!js canvas时钟制作方法
2016/08/15 Javascript
简易的JS计算器实现代码
2016/10/18 Javascript
浅析location.href跨窗口调用函数
2016/11/22 Javascript
AngularJS路由切换实现方法分析
2017/03/17 Javascript
Bootstrap Table使用整理(二)
2017/06/09 Javascript
js实现点击按钮复制文本功能
2020/07/20 Javascript
纯 JS 实现放大缩小拖拽功能(完整代码)
2019/11/25 Javascript
Python 不同对象比较大小示例探讨
2014/08/21 Python
Python lambda和Python def区别分析
2014/11/30 Python
如何在python字符串中输入纯粹的{}
2018/08/22 Python
对python 中class与变量的使用方法详解
2019/06/26 Python
python return逻辑判断表达式实现解析
2019/12/02 Python
Tensorflow Summary用法学习笔记
2020/01/10 Python
Django web自定义通用权限控制实现方法
2020/11/24 Python
css3背景图片透明叠加属性cross-fade简介及用法实例
2013/01/08 HTML / CSS
HTML5图片层叠的实现示例
2020/07/07 HTML / CSS
SportsDirect.com新加坡:英国第一体育零售商
2019/03/30 全球购物
Feelunique中文官网:欧洲最大化妆品零售电商
2020/07/10 全球购物
成人教育自我鉴定
2013/11/01 职场文书
工作睡觉检讨书
2014/02/25 职场文书
央视元宵晚会主持串词
2014/03/25 职场文书
音乐节策划方案
2014/06/09 职场文书
工作业绩不及格检讨书
2014/10/28 职场文书
mysql序号rownum行号实现方式
2022/12/24 MySQL