Python爬虫学习之获取指定网页源码


Posted in Python onJuly 30, 2019

本文实例为大家分享了Python获取指定网页源码的具体代码,供大家参考,具体内容如下

1、任务简介

前段时间一直在学习Python基础知识,故未更新博客,近段时间学习了一些关于爬虫的知识,我会分为多篇博客对所学知识进行更新,今天分享的是获取指定网页源码的方法,只有将网页源码抓取下来才能从中提取我们需要的数据。

2、任务代码

Python获取指定网页源码的方法较为简单,我在Java中使用了38行代码才获取了网页源码(大概是学艺不精),而Python中只用了6行就达到了效果。

Python中获取网页源码最简单的方法就是使用urllib包,具体代码如下:

import urllib.request    #导入urllib.request库
b = str(input("请输入:"))  #提示用户输入信息,并强制类型转换为字符串型
a = urllib.request.urlopen(b)#打开指定网址
html = a.read()       #读取网页源码
html = html.decode("utf-8") #解码为unicode码
print(html)         #打印网页源码

我输入的网址是我博客主页的网址https://blog.csdn.net/lsylsy726

运行结果如下:

Python爬虫学习之获取指定网页源码

3、总结

这篇博客介绍的方法较为简单,其实有的网站会“反爬虫”,这时就需要我们使用User-Agent或者代理,这些东西都会在后面的博客中进行更新,我预计在后面博客中更新“读取CSDN博客访问量的小程序”和“有道翻译小程序”及其他更难一些的知识,由于刚开始学习爬虫,水平有限,请大家多多包涵。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python定时检查某个进程是否已经关闭的方法
May 20 Python
Python黑帽编程 3.4 跨越VLAN详解
Sep 28 Python
Python常见异常分类与处理方法
Jun 04 Python
python正则表达式及使用正则表达式的例子
Jan 22 Python
详解django.contirb.auth-认证
Jul 16 Python
解决tensorflow模型参数保存和加载的问题
Jul 26 Python
python3实现zabbix告警推送钉钉的示例
Feb 20 Python
解决Python3 控制台输出InsecureRequestWarning问题
Jul 15 Python
Python绘图实现显示中文
Dec 04 Python
python实现图像全景拼接
Mar 27 Python
Django中session进行权限管理的使用
Jul 09 Python
python中redis包操作数据库的教程
Apr 19 Python
django-初始配置(纯手写)详解
Jul 30 #Python
django 单表操作实例详解
Jul 30 #Python
Apache部署Django项目图文详解
Jul 30 #Python
Python 使用list和tuple+条件判断详解
Jul 30 #Python
用python wxpy管理微信公众号并利用微信获取自己的开源数据
Jul 30 #Python
Python实现二叉搜索树BST的方法示例
Jul 30 #Python
django 基于中间件实现限制ip频繁访问过程详解
Jul 30 #Python
You might like
比较全面的PHP数组的使用方法小结
2010/09/23 PHP
PHP中feof()函数实例测试
2014/08/23 PHP
CodeIgniter控制器之业务逻辑实例分析
2016/01/20 PHP
PHP浮点数的一个常见问题
2016/03/10 PHP
PHP函数shuffle()取数组若干个随机元素的方法分析
2016/04/02 PHP
详解PHP中的序列化、反序列化操作
2017/03/21 PHP
Yii2框架操作数据库的方法分析【以mysql为例】
2019/05/27 PHP
PHP 7.4中使用预加载的方法详解
2019/07/08 PHP
不用AJAX和IFRAME,说说真正意义上的ASP+JS无刷新技术
2008/09/25 Javascript
JS 遮照层实现代码
2010/03/31 Javascript
基于jquery中children()与find()的区别介绍
2013/04/26 Javascript
node.js中的fs.rmdir方法使用说明
2014/12/16 Javascript
jquery实现用户打分评分特效
2015/05/28 Javascript
javascript显示中文日期的方法
2015/06/18 Javascript
AngularJS 整理一些优化的小技巧
2016/08/18 Javascript
jQuery事件绑定用法详解
2016/09/08 Javascript
AngularJS通过$http和服务器通信详解
2016/09/21 Javascript
nodejs获取微信小程序带参数二维码实现代码
2017/04/12 NodeJs
微信小程序三级联动地址选择器的实例代码
2017/07/12 Javascript
浅谈Node.js 沙箱环境
2018/05/15 Javascript
vue-cli 脚手架基于Nightwatch的端到端测试环境的过程
2018/09/30 Javascript
js实现京东秒杀倒计时功能
2019/01/21 Javascript
babel7.x和webpack4.x配置vue项目的方法步骤
2019/05/12 Javascript
JavaScript之Blob对象类型的具体使用方法
2019/11/29 Javascript
[48:56]2018DOTA2亚洲邀请赛 3.31 小组赛 A组 VG vs KG
2018/03/31 DOTA
Python极简代码实现杨辉三角示例代码
2016/11/15 Python
Python multiprocessing多进程原理与应用示例
2019/02/28 Python
python在OpenCV里实现投影变换效果
2019/08/30 Python
Jupyter 无法下载文件夹如何实现曲线救国
2020/04/22 Python
副厂长岗位职责
2014/02/02 职场文书
酒店大堂副理的职责范文
2014/02/13 职场文书
局机关干部群众路线个人对照检查材料思想汇报
2014/10/05 职场文书
后进生评语大全
2015/01/04 职场文书
北京青年观后感
2015/06/15 职场文书
英语版自我评价,35句话轻松搞定
2019/10/08 职场文书
Win10多屏显示如何设置?Win10电脑多屏显示设置操作方法
2022/07/07 数码科技