编程 Python

Python3使用requests包抓取并保存网页源码的方法

Posted in Python onMarch 15, 2016

本文实例讲述了Python3使用requests包抓取并保存网页源码的方法。分享给大家供大家参考，具体如下：

使用Python 3的requests模块抓取网页源码并保存到文件示例：

import requests
html = requests.get("http://www.baidu.com")
with open('test.txt','w',encoding='utf-8') as f:
 f.write(html.text)

这是一个基本的文件保存操作，但这里有几个值得注意的问题：

1.安装requests包，命令行输入pip install requests即可自动安装。很多人推荐使用requests，自带的urllib.request也可以抓取网页源码

2.open方法encoding参数设为utf-8，否则保存的文件会出现乱码。

3.如果直接在cmd中输出抓取的内容，会提示各种编码错误，所以保存到文件查看。

4.with open方法是更好的写法，可以自动操作完毕后释放资源。

另一个例子：

import requests
ff = open('testt.txt','w',encoding='utf-8')
with open('test.txt',encoding="utf-8") as f:
 for line in f:
 ff.write(line)
ff.close()

这是演示读取一个txt文件，每次读取一行，并保存到另一个txt文件中的示例。

因为在命令行中打印每次读取一行的数据，中文会出现编码错误，所以每次读取一行并保存到另一个文件，这样来测试读取是否正常。（注意open的时候制定encoding编码方式）

转自：小谈博客 http://www.tantengvip.com/2015/05/requests-html/

希望本文所述对大家Python程序设计有所帮助。

Python3使用requests包抓取并保存网页源码的方法

- Author -

小谈博客

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python使用MD5加密字符串示例

Aug 22 Python

用Python从零实现贝叶斯分类器的机器学习的教程

Mar 31 Python

python学习数据结构实例代码

May 11 Python

Python实现的Excel文件读写类

Jul 30 Python

python3调用R的示例代码

Feb 23 Python

python爬取网页转换为PDF文件

Jun 07 Python

Django配置celery（非djcelery）执行异步任务和定时任务

Jul 16 Python

python爬虫正则表达式解析

Sep 28 Python

python3利用Axes3D库画3D模型图

Mar 25 Python

Windows下Anaconda安装、换源与更新的方法

Apr 17 Python

python 爬虫网页登陆的简单实现

Nov 30 Python

python 实现德洛内三角剖分的操作

Apr 22 Python

Python减少循环层次和缩进的技巧分析

Mar 15 #Python

Python作用域用法实例详解

Mar 15 #Python

Python的净值数据接口调用示例分享

Mar 15 #Python

Python简单连接MongoDB数据库的方法

Mar 15 #Python

Python函数中的函数(闭包)用法实例

Mar 15 #Python

实例讲解Python中函数的调用与定义

Mar 14 #Python

Python使用multiprocessing实现一个最简单的分布式作业调度系统

Mar 14 #Python