Python爬虫学习之获取指定网页源码


Posted in Python onJuly 30, 2019

本文实例为大家分享了Python获取指定网页源码的具体代码,供大家参考,具体内容如下

1、任务简介

前段时间一直在学习Python基础知识,故未更新博客,近段时间学习了一些关于爬虫的知识,我会分为多篇博客对所学知识进行更新,今天分享的是获取指定网页源码的方法,只有将网页源码抓取下来才能从中提取我们需要的数据。

2、任务代码

Python获取指定网页源码的方法较为简单,我在Java中使用了38行代码才获取了网页源码(大概是学艺不精),而Python中只用了6行就达到了效果。

Python中获取网页源码最简单的方法就是使用urllib包,具体代码如下:

import urllib.request    #导入urllib.request库
b = str(input("请输入:"))  #提示用户输入信息,并强制类型转换为字符串型
a = urllib.request.urlopen(b)#打开指定网址
html = a.read()       #读取网页源码
html = html.decode("utf-8") #解码为unicode码
print(html)         #打印网页源码

我输入的网址是我博客主页的网址https://blog.csdn.net/lsylsy726

运行结果如下:

Python爬虫学习之获取指定网页源码

3、总结

这篇博客介绍的方法较为简单,其实有的网站会“反爬虫”,这时就需要我们使用User-Agent或者代理,这些东西都会在后面的博客中进行更新,我预计在后面博客中更新“读取CSDN博客访问量的小程序”和“有道翻译小程序”及其他更难一些的知识,由于刚开始学习爬虫,水平有限,请大家多多包涵。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中的数据对象持久化存储模块pickle的使用示例
Mar 03 Python
python3使用urllib模块制作网络爬虫
Apr 08 Python
Python调用SQLPlus来操作和解析Oracle数据库的方法
Apr 09 Python
Python 迭代器工具包【推荐】
May 06 Python
Python实现的概率分布运算操作示例
Aug 14 Python
python机器学习之神经网络(三)
Dec 20 Python
Django 连接sql server数据库的方法
Jun 30 Python
Python类的继承、多态及获取对象信息操作详解
Feb 28 Python
python之当你发现QTimer不能用时的解决方法
Jun 21 Python
Python中xml和dict格式转换的示例代码
Nov 07 Python
python文件及目录操作代码汇总
Jul 08 Python
Python如何执行精确的浮点数运算
Jul 31 Python
django-初始配置(纯手写)详解
Jul 30 #Python
django 单表操作实例详解
Jul 30 #Python
Apache部署Django项目图文详解
Jul 30 #Python
Python 使用list和tuple+条件判断详解
Jul 30 #Python
用python wxpy管理微信公众号并利用微信获取自己的开源数据
Jul 30 #Python
Python实现二叉搜索树BST的方法示例
Jul 30 #Python
django 基于中间件实现限制ip频繁访问过程详解
Jul 30 #Python
You might like
php5 图片验证码实现代码
2009/12/11 PHP
PHP生成不同颜色、不同大小的tag标签函数
2013/09/23 PHP
CI框架的安全性分析
2016/05/18 PHP
PHP加密解密类实例代码
2016/07/20 PHP
PHP实现限制IP访问的方法
2017/04/20 PHP
TP框架实现上传一张图片和批量上传图片的方法分析
2020/04/23 PHP
JavaScript分秒倒计时器实现方法
2015/02/02 Javascript
js读取并解析JSON类型数据的方法
2015/11/14 Javascript
javascript实现加载xml文件的方法
2015/11/24 Javascript
全面了解JS中的匿名函数
2016/06/29 Javascript
JavaScript组件开发之输入框加候选框
2017/03/10 Javascript
JavaScript 实现 Tab 点击切换实例代码
2017/03/25 Javascript
微信小程序 列表的上拉加载和下拉刷新的实现
2017/04/01 Javascript
JavaScript中如何判断一个值的类型
2017/09/15 Javascript
对mac下nodejs 更新到最新版本的最新方法(推荐)
2018/05/17 NodeJs
微信小程序实现topBar底部选择栏效果
2018/07/20 Javascript
对angular2中的ngfor和ngif指令嵌套实例讲解
2018/09/12 Javascript
Vue源码中要const _toStr = Object.prototype.toString的原因分析
2018/12/09 Javascript
[01:05:56]Liquid vs VP Supermajor决赛 BO 第二场 6.10
2018/07/04 DOTA
python图像处理之反色实现方法
2015/05/30 Python
python实现搜索本地文件信息写入文件的方法
2016/02/22 Python
在windows系统中实现python3安装lxml
2016/03/23 Python
Python中的浮点数原理与运算分析
2017/10/12 Python
Python实现OpenCV的安装与使用示例
2018/03/30 Python
python实现月食效果实例代码
2019/06/18 Python
解决Django layui {{}}冲突的问题
2019/08/29 Python
Python爬虫scrapy框架Cookie池(微博Cookie池)的使用
2021/01/13 Python
Spartoo美国:欧洲排名第一的在线时装零售商
2019/12/12 全球购物
初入社会应届生求职信
2013/11/18 职场文书
《最大的“书”》教学反思
2014/02/14 职场文书
表决心的诗句大全
2014/03/11 职场文书
幼儿园端午节活动总结
2015/05/05 职场文书
基层党建工作简报
2015/07/21 职场文书
2015年政教主任工作总结
2015/07/23 职场文书
怎样做好公众演讲能力?
2019/08/28 职场文书
MySQL中使用or、in与union all在查询命令下的效率对比
2021/05/26 MySQL