Python爬虫学习之获取指定网页源码


Posted in Python onJuly 30, 2019

本文实例为大家分享了Python获取指定网页源码的具体代码,供大家参考,具体内容如下

1、任务简介

前段时间一直在学习Python基础知识,故未更新博客,近段时间学习了一些关于爬虫的知识,我会分为多篇博客对所学知识进行更新,今天分享的是获取指定网页源码的方法,只有将网页源码抓取下来才能从中提取我们需要的数据。

2、任务代码

Python获取指定网页源码的方法较为简单,我在Java中使用了38行代码才获取了网页源码(大概是学艺不精),而Python中只用了6行就达到了效果。

Python中获取网页源码最简单的方法就是使用urllib包,具体代码如下:

import urllib.request    #导入urllib.request库
b = str(input("请输入:"))  #提示用户输入信息,并强制类型转换为字符串型
a = urllib.request.urlopen(b)#打开指定网址
html = a.read()       #读取网页源码
html = html.decode("utf-8") #解码为unicode码
print(html)         #打印网页源码

我输入的网址是我博客主页的网址https://blog.csdn.net/lsylsy726

运行结果如下:

Python爬虫学习之获取指定网页源码

3、总结

这篇博客介绍的方法较为简单,其实有的网站会“反爬虫”,这时就需要我们使用User-Agent或者代理,这些东西都会在后面的博客中进行更新,我预计在后面博客中更新“读取CSDN博客访问量的小程序”和“有道翻译小程序”及其他更难一些的知识,由于刚开始学习爬虫,水平有限,请大家多多包涵。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python作用域用法实例详解
Mar 15 Python
mvc框架打造笔记之wsgi协议的优缺点以及接口实现
Aug 01 Python
使用python opencv对目录下图片进行去重的方法
Jan 12 Python
python实现定时发送qq消息
Jan 18 Python
对Python 检查文件名是否规范的实例详解
Jun 10 Python
python中的句柄操作的方法示例
Jun 20 Python
Python中list的交、并、差集获取方法示例
Aug 01 Python
详解Python绘图Turtle库
Oct 12 Python
PyTorch加载自己的数据集实例详解
Mar 18 Python
Django封装交互接口代码
Jul 12 Python
matplotlib制作雷达图报错ValueError的实现
Jan 05 Python
Python实现DBSCAN聚类算法并样例测试
Jun 22 Python
django-初始配置(纯手写)详解
Jul 30 #Python
django 单表操作实例详解
Jul 30 #Python
Apache部署Django项目图文详解
Jul 30 #Python
Python 使用list和tuple+条件判断详解
Jul 30 #Python
用python wxpy管理微信公众号并利用微信获取自己的开源数据
Jul 30 #Python
Python实现二叉搜索树BST的方法示例
Jul 30 #Python
django 基于中间件实现限制ip频繁访问过程详解
Jul 30 #Python
You might like
php生成4位数字验证码的实现代码
2015/11/23 PHP
破解Session cookie的方法
2006/07/28 Javascript
javaScript Array(数组)相关方法简述
2009/07/25 Javascript
jQuery Tips 为AJAX回调函数传递额外参数的方法
2010/12/28 Javascript
Javascript在IE下设置innerHTML时出现未知的运行时错误的解决方法
2011/01/12 Javascript
jquery实现的随机多彩tag标签随机颜色和字号大小效果
2014/03/27 Javascript
jQuery Ajax Post 回调函数不执行问题的解决方法
2016/08/15 Javascript
AngularJs directive详解及示例代码
2016/09/01 Javascript
详解webpack 打包文件体积过大解决方案(code splitting)
2018/04/10 Javascript
vue中父子组件注意事项,传值及slot应用技巧
2018/05/09 Javascript
angularJs使用ng-repeat遍历后选中某一个的方法
2018/09/30 Javascript
JS数组去重的6种方法完整实例
2018/12/08 Javascript
微信小程序实现炫酷的弹出式菜单特效
2019/01/28 Javascript
WEB前端性能优化的7大手段详解
2020/02/04 Javascript
python简单获取数组元素个数的方法
2015/07/13 Python
python使用opencv进行人脸识别
2017/04/07 Python
Python使用回溯法子集树模板解决迷宫问题示例
2017/09/01 Python
Python Nose框架编写测试用例方法
2017/10/26 Python
小米5s微信跳一跳小程序python源码
2018/01/08 Python
Python中数组,列表:冒号的灵活用法介绍(np数组,列表倒序)
2018/04/18 Python
Python实现多进程的四种方式
2019/02/22 Python
Python中按值来获取指定的键
2019/03/04 Python
Python sublime安装及配置过程详解
2020/06/29 Python
python正则表达式的懒惰匹配和贪婪匹配说明
2020/07/13 Python
如何在Oracle中查看各个表、表空间占用空间的大小
2015/10/31 面试题
介绍一下.NET构架下remoting和webservice
2014/05/08 面试题
建筑装饰学院室内设计专业个人自我评价
2013/12/07 职场文书
蔬菜基地的创业计划书
2014/01/06 职场文书
企业内控岗位的职责
2014/02/07 职场文书
献爱心活动总结
2014/05/07 职场文书
渠道运营商合作协议书范本
2014/10/06 职场文书
党员民主评议自我评价
2014/10/20 职场文书
婚姻出轨保证书
2015/05/08 职场文书
情侣餐厅的创业计划书范本!
2019/07/26 职场文书
Kubernetes部署实例并配置Deployment、网络映射、副本集
2022/04/01 Servers
nginx之queue的具体使用
2022/06/28 Servers