Python爬虫学习之获取指定网页源码


Posted in Python onJuly 30, 2019

本文实例为大家分享了Python获取指定网页源码的具体代码,供大家参考,具体内容如下

1、任务简介

前段时间一直在学习Python基础知识,故未更新博客,近段时间学习了一些关于爬虫的知识,我会分为多篇博客对所学知识进行更新,今天分享的是获取指定网页源码的方法,只有将网页源码抓取下来才能从中提取我们需要的数据。

2、任务代码

Python获取指定网页源码的方法较为简单,我在Java中使用了38行代码才获取了网页源码(大概是学艺不精),而Python中只用了6行就达到了效果。

Python中获取网页源码最简单的方法就是使用urllib包,具体代码如下:

import urllib.request    #导入urllib.request库
b = str(input("请输入:"))  #提示用户输入信息,并强制类型转换为字符串型
a = urllib.request.urlopen(b)#打开指定网址
html = a.read()       #读取网页源码
html = html.decode("utf-8") #解码为unicode码
print(html)         #打印网页源码

我输入的网址是我博客主页的网址https://blog.csdn.net/lsylsy726

运行结果如下:

Python爬虫学习之获取指定网页源码

3、总结

这篇博客介绍的方法较为简单,其实有的网站会“反爬虫”,这时就需要我们使用User-Agent或者代理,这些东西都会在后面的博客中进行更新,我预计在后面博客中更新“读取CSDN博客访问量的小程序”和“有道翻译小程序”及其他更难一些的知识,由于刚开始学习爬虫,水平有限,请大家多多包涵。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python私有属性和方法实例分析
Jan 15 Python
Python使用遗传算法解决最大流问题
Jan 29 Python
python SMTP实现发送带附件电子邮件
May 22 Python
Python实现二维曲线拟合的方法
Dec 29 Python
Python+PyQt5实现美剧爬虫可视工具的方法
Apr 25 Python
Django 配置多站点多域名的实现步骤
May 17 Python
Python学习笔记之列表推导式实例分析
Aug 13 Python
Django如何实现上传图片功能
Aug 16 Python
pytorch 数据处理:定义自己的数据集合实例
Dec 31 Python
python数据分析:关键字提取方式
Feb 24 Python
pymongo insert_many 批量插入的实例
Dec 05 Python
PyMongo 查询数据的实现
Jun 28 Python
django-初始配置(纯手写)详解
Jul 30 #Python
django 单表操作实例详解
Jul 30 #Python
Apache部署Django项目图文详解
Jul 30 #Python
Python 使用list和tuple+条件判断详解
Jul 30 #Python
用python wxpy管理微信公众号并利用微信获取自己的开源数据
Jul 30 #Python
Python实现二叉搜索树BST的方法示例
Jul 30 #Python
django 基于中间件实现限制ip频繁访问过程详解
Jul 30 #Python
You might like
PHP 获取客户端真实IP地址多种方法小结
2010/05/15 PHP
php图片加水印原理(超简单的实例代码)
2013/01/18 PHP
php xml常用函数的集合(比较详细)
2013/06/06 PHP
php float不四舍五入截取浮点型字符串方法总结
2013/10/28 PHP
PHP简单实现“相关文章推荐”功能的方法
2014/07/19 PHP
PHP+MySQL修改记录的方法
2015/01/21 PHP
如何解决PHP使用mysql_query查询超大结果集超内存问题
2016/03/14 PHP
页面元素绑定jquery toggle后元素隐藏的解决方法
2014/03/27 Javascript
js限制checkbox选中个数以限制六个为例
2014/07/15 Javascript
总结Javascript中的隐式类型转换
2016/08/24 Javascript
JavaScript利用正则表达式替换字符串中的内容
2016/12/12 Javascript
JQuery Ajax 异步操作之动态添加节点功能
2017/05/24 jQuery
JS获取鼠标坐标并且根据鼠标位置不同弹出不同内容
2017/06/12 Javascript
JavaScript模拟文件拖选框样式v1.0的实例
2017/08/04 Javascript
基于Vue实现拖拽功能
2020/07/29 Javascript
Vue使用.sync 实现父子组件的双向绑定数据问题
2019/04/04 Javascript
vue中上传视频或图片或图片和文字一起到后端的解决方法
2019/12/01 Javascript
JS实现滑动拼图验证功能完整示例
2020/03/29 Javascript
JavaScript Window浏览器对象模型原理解析
2020/05/30 Javascript
用Python的Django框架编写从Google Adsense中获得报表的应用
2015/04/17 Python
Django使用Celery异步任务队列的使用
2018/03/13 Python
Django密码系统实现过程详解
2019/07/19 Python
Python实现直方图均衡基本原理解析
2019/08/08 Python
pywinauto自动化操作记事本
2019/08/26 Python
python爬取”顶点小说网“《纯阳剑尊》的示例代码
2020/10/16 Python
Python通过format函数格式化显示值
2020/10/17 Python
老海军美国官网:Old Navy
2016/09/05 全球购物
Lookfantastic台湾:英国彩妆美发保养购物网
2018/03/26 全球购物
欧洲有机婴儿食品最大的市场:Organic Baby Food(供美国和加拿大)
2018/03/28 全球购物
小学英语教学反思
2014/01/30 职场文书
闭幕式主持词
2014/04/02 职场文书
住宅质量保证书
2014/04/29 职场文书
教师求职信怎么写
2015/03/20 职场文书
义诊活动通知
2015/04/24 职场文书
2015年办公室人员工作总结
2015/05/15 职场文书
mybatis3中@SelectProvider传递参数方式
2021/08/04 Java/Android