Python爬虫学习之获取指定网页源码


Posted in Python onJuly 30, 2019

本文实例为大家分享了Python获取指定网页源码的具体代码,供大家参考,具体内容如下

1、任务简介

前段时间一直在学习Python基础知识,故未更新博客,近段时间学习了一些关于爬虫的知识,我会分为多篇博客对所学知识进行更新,今天分享的是获取指定网页源码的方法,只有将网页源码抓取下来才能从中提取我们需要的数据。

2、任务代码

Python获取指定网页源码的方法较为简单,我在Java中使用了38行代码才获取了网页源码(大概是学艺不精),而Python中只用了6行就达到了效果。

Python中获取网页源码最简单的方法就是使用urllib包,具体代码如下:

import urllib.request    #导入urllib.request库
b = str(input("请输入:"))  #提示用户输入信息,并强制类型转换为字符串型
a = urllib.request.urlopen(b)#打开指定网址
html = a.read()       #读取网页源码
html = html.decode("utf-8") #解码为unicode码
print(html)         #打印网页源码

我输入的网址是我博客主页的网址https://blog.csdn.net/lsylsy726

运行结果如下:

Python爬虫学习之获取指定网页源码

3、总结

这篇博客介绍的方法较为简单,其实有的网站会“反爬虫”,这时就需要我们使用User-Agent或者代理,这些东西都会在后面的博客中进行更新,我预计在后面博客中更新“读取CSDN博客访问量的小程序”和“有道翻译小程序”及其他更难一些的知识,由于刚开始学习爬虫,水平有限,请大家多多包涵。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
用Python制作检测Linux运行信息的工具的教程
Apr 01 Python
django使用html模板减少代码代码解析
Dec 12 Python
Python使用folium excel绘制point
Jan 03 Python
使用python进行广告点击率的预测的实现
Jul 04 Python
python中bytes和str类型的区别
Oct 21 Python
公认8个效率最高的爬虫框架
Jul 28 Python
Python限制内存和CPU使用量的方法(Unix系统适用)
Aug 04 Python
Python根据字符串调用函数过程解析
Nov 05 Python
python requests库的使用
Jan 06 Python
pygame面向对象的飞行小鸟实现(Flappy bird)
Apr 01 Python
用Python创建简易网站图文教程
Jun 11 Python
浅谈Python实现opencv之图片色素的数值运算和逻辑运算
Jun 23 Python
django-初始配置(纯手写)详解
Jul 30 #Python
django 单表操作实例详解
Jul 30 #Python
Apache部署Django项目图文详解
Jul 30 #Python
Python 使用list和tuple+条件判断详解
Jul 30 #Python
用python wxpy管理微信公众号并利用微信获取自己的开源数据
Jul 30 #Python
Python实现二叉搜索树BST的方法示例
Jul 30 #Python
django 基于中间件实现限制ip频繁访问过程详解
Jul 30 #Python
You might like
使用bcompiler对PHP文件进行加密的代码
2010/08/29 PHP
PHP操作MongoDB时的整数问题及对策说明
2011/05/02 PHP
你可能不知道PHP get_meta_tags()函数
2014/05/12 PHP
php中的四舍五入函数代码(floor函数、ceil函数、round与intval)
2014/07/14 PHP
Yii2 RESTful中api的使用及开发实例详解
2016/07/06 PHP
JavaScript URL参数读取改进版
2009/01/16 Javascript
基于jquery的文本框与autocomplete结合使用(asp.net+json)
2012/05/30 Javascript
特殊情况下如何获取span里面的值
2014/05/20 Javascript
js中将String转换为number以便比较
2014/07/08 Javascript
JavaScript onkeypress事件入门实例(按下或按住一个键盘按键)
2014/10/17 Javascript
最简单的JavaScript验证整数、小数、实数、有效位小数正则表达式
2015/04/17 Javascript
javascript判断复选框是否选中的方法
2015/10/16 Javascript
Bootstrap每天必学之下拉菜单
2015/11/25 Javascript
使用JavaScript获取Request中参数的值方法
2016/09/27 Javascript
微信小程序 Flex布局详解
2016/10/09 Javascript
AngularJS1.X学习笔记2-数据绑定详解
2017/04/01 Javascript
Vue中Quill富文本编辑器的使用教程
2018/09/21 Javascript
JavaScript canvas实现跟随鼠标事件
2020/02/10 Javascript
vue element-ui中table合计指定列求和实例
2020/11/02 Javascript
python实现发送邮件功能代码
2017/12/14 Python
浅谈numpy库的常用基本操作方法
2018/01/09 Python
基于tensorflow加载部分层的方法
2018/07/26 Python
Python使用分布式锁的代码演示示例
2018/07/30 Python
Python3enumrate和range对比及示例详解
2019/07/13 Python
Python高级编程之继承问题详解(super与mro)
2019/11/19 Python
python3 pathlib库Path类方法总结
2019/12/26 Python
总结Pyinstaller的坑及终极解决方法(小结)
2020/09/21 Python
凯特·丝蓓英国官网:Kate Spade英国
2016/11/07 全球购物
运动会100米解说词
2014/01/23 职场文书
煤矿安全生产责任书
2014/04/15 职场文书
销售内勤岗位职责
2014/04/15 职场文书
总经理人事任命书
2014/06/05 职场文书
保研推荐信格式
2015/03/25 职场文书
第二次离婚起诉书
2015/05/18 职场文书
2015年员工试用期工作总结
2015/05/28 职场文书
2015年社区反邪教工作总结
2015/10/14 职场文书