Python爬虫学习之获取指定网页源码


Posted in Python onJuly 30, 2019

本文实例为大家分享了Python获取指定网页源码的具体代码,供大家参考,具体内容如下

1、任务简介

前段时间一直在学习Python基础知识,故未更新博客,近段时间学习了一些关于爬虫的知识,我会分为多篇博客对所学知识进行更新,今天分享的是获取指定网页源码的方法,只有将网页源码抓取下来才能从中提取我们需要的数据。

2、任务代码

Python获取指定网页源码的方法较为简单,我在Java中使用了38行代码才获取了网页源码(大概是学艺不精),而Python中只用了6行就达到了效果。

Python中获取网页源码最简单的方法就是使用urllib包,具体代码如下:

import urllib.request    #导入urllib.request库
b = str(input("请输入:"))  #提示用户输入信息,并强制类型转换为字符串型
a = urllib.request.urlopen(b)#打开指定网址
html = a.read()       #读取网页源码
html = html.decode("utf-8") #解码为unicode码
print(html)         #打印网页源码

我输入的网址是我博客主页的网址https://blog.csdn.net/lsylsy726

运行结果如下:

Python爬虫学习之获取指定网页源码

3、总结

这篇博客介绍的方法较为简单,其实有的网站会“反爬虫”,这时就需要我们使用User-Agent或者代理,这些东西都会在后面的博客中进行更新,我预计在后面博客中更新“读取CSDN博客访问量的小程序”和“有道翻译小程序”及其他更难一些的知识,由于刚开始学习爬虫,水平有限,请大家多多包涵。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python基础教程之字典操作详解
Mar 25 Python
python局域网ip扫描示例分享
Apr 03 Python
python控制台英汉汉英电子词典
Apr 23 Python
列举Python中吸引人的一些特性
Apr 09 Python
python类的方法属性与方法属性的动态绑定代码详解
Dec 27 Python
python sorted方法和列表使用解析
Nov 18 Python
Python sys模块常用方法解析
Feb 20 Python
python新手学习可变和不可变对象
Jun 11 Python
python实现猜数游戏(保存游戏记录)
Jun 22 Python
使用Python爬取Json数据的示例代码
Dec 07 Python
Python使用pyenv实现多环境管理
Feb 05 Python
Python 机器学习工具包SKlearn的安装与使用
May 14 Python
django-初始配置(纯手写)详解
Jul 30 #Python
django 单表操作实例详解
Jul 30 #Python
Apache部署Django项目图文详解
Jul 30 #Python
Python 使用list和tuple+条件判断详解
Jul 30 #Python
用python wxpy管理微信公众号并利用微信获取自己的开源数据
Jul 30 #Python
Python实现二叉搜索树BST的方法示例
Jul 30 #Python
django 基于中间件实现限制ip频繁访问过程详解
Jul 30 #Python
You might like
PHP 5.0 Pear安装方法
2006/12/06 PHP
Yii使用ajax验证显示错误messagebox的解决方法
2014/12/03 PHP
PHP实现原生态图片上传封装类方法
2016/11/08 PHP
学习thinkphp5.0验证类使用方法
2017/11/16 PHP
slice函数的用法 之不错的应用
2006/12/29 Javascript
javascript编程起步(第三课)
2007/02/27 Javascript
ExtJS 2.0实用简明教程 之Border区域布局
2009/04/29 Javascript
Js event事件在IE、FF兼容性问题
2011/01/01 Javascript
jQuery 在光标定位的地方插入文字的插件
2012/05/10 Javascript
js使用html()或text()方法获取设置p标签的显示的值
2014/08/01 Javascript
jQuery实现平滑滚动到指定锚点的方法
2015/03/20 Javascript
jquery实现美观的导航菜单鼠标提示特效代码
2015/09/06 Javascript
jquery实现通用的内容渐显Tab选项卡效果
2015/09/07 Javascript
jquery 删除节点 添加节点 找兄弟节点的简单实现
2016/12/07 Javascript
浅谈Vue Element中Select下拉框选取值的问题
2018/03/01 Javascript
JavaScript实现仿Clock ISO时钟
2018/06/29 Javascript
小程序中canvas的drawImage方法参数使用详解
2019/07/04 Javascript
javascript删除数组元素的七个方法示例
2019/09/09 Javascript
详解JavaScript修改注册表的方法
2020/01/05 Javascript
你不知道的 TypeScript 高级类型(小结)
2020/08/28 Javascript
Python函数中定义参数的四种方式
2014/11/30 Python
pyqt5简介及安装方法介绍
2018/01/31 Python
Python基于lxml模块解析html获取页面内所有叶子节点xpath路径功能示例
2018/05/16 Python
python实现可视化动态CPU性能监控
2018/06/21 Python
Python面向对象基础入门之编码细节与注意事项
2018/12/11 Python
python利用小波分析进行特征提取的实例
2019/01/09 Python
python处理document文档保留原样式
2019/09/23 Python
印尼值得信赖的在线交易网站:Bukalapak
2019/03/11 全球购物
上班睡觉检讨书
2014/01/09 职场文书
项目管理计划书
2014/01/09 职场文书
网上卖盒饭创业计划书范文
2014/02/07 职场文书
专升本学生毕业自我鉴定
2014/10/04 职场文书
捐助感谢信
2015/01/22 职场文书
2015年社区国庆节活动总结
2015/07/30 职场文书
《追风筝的人》:人心中的成见是座大山,但请不忘初心
2019/11/15 职场文书
Python PIL按比例裁剪图片
2022/05/11 Python