Python爬虫学习之获取指定网页源码


Posted in Python onJuly 30, 2019

本文实例为大家分享了Python获取指定网页源码的具体代码,供大家参考,具体内容如下

1、任务简介

前段时间一直在学习Python基础知识,故未更新博客,近段时间学习了一些关于爬虫的知识,我会分为多篇博客对所学知识进行更新,今天分享的是获取指定网页源码的方法,只有将网页源码抓取下来才能从中提取我们需要的数据。

2、任务代码

Python获取指定网页源码的方法较为简单,我在Java中使用了38行代码才获取了网页源码(大概是学艺不精),而Python中只用了6行就达到了效果。

Python中获取网页源码最简单的方法就是使用urllib包,具体代码如下:

import urllib.request    #导入urllib.request库
b = str(input("请输入:"))  #提示用户输入信息,并强制类型转换为字符串型
a = urllib.request.urlopen(b)#打开指定网址
html = a.read()       #读取网页源码
html = html.decode("utf-8") #解码为unicode码
print(html)         #打印网页源码

我输入的网址是我博客主页的网址https://blog.csdn.net/lsylsy726

运行结果如下:

Python爬虫学习之获取指定网页源码

3、总结

这篇博客介绍的方法较为简单,其实有的网站会“反爬虫”,这时就需要我们使用User-Agent或者代理,这些东西都会在后面的博客中进行更新,我预计在后面博客中更新“读取CSDN博客访问量的小程序”和“有道翻译小程序”及其他更难一些的知识,由于刚开始学习爬虫,水平有限,请大家多多包涵。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python中的__init__ 、__new__、__call__小结
Apr 25 Python
Python中使用ConfigParser解析ini配置文件实例
Aug 30 Python
Python计算回文数的方法
Mar 11 Python
通过实例浅析Python对比C语言的编程思想差异
Aug 30 Python
Python中文分词工具之结巴分词用法实例总结【经典案例】
Apr 15 Python
对numpy 数组和矩阵的乘法的进一步理解
Apr 04 Python
TensorFlow 模型载入方法汇总(小结)
Jun 19 Python
python 通过 socket 发送文件的实例代码
Aug 14 Python
numpy.meshgrid()理解(小结)
Aug 01 Python
python的mysql数据库建立表与插入数据操作示例
Sep 30 Python
python3中关于excel追加写入格式被覆盖问题(实例代码)
Jan 10 Python
C站最全Python标准库总结,你想要的都在这里
Jul 03 Python
django-初始配置(纯手写)详解
Jul 30 #Python
django 单表操作实例详解
Jul 30 #Python
Apache部署Django项目图文详解
Jul 30 #Python
Python 使用list和tuple+条件判断详解
Jul 30 #Python
用python wxpy管理微信公众号并利用微信获取自己的开源数据
Jul 30 #Python
Python实现二叉搜索树BST的方法示例
Jul 30 #Python
django 基于中间件实现限制ip频繁访问过程详解
Jul 30 #Python
You might like
编写PHP的安全策略
2006/10/09 PHP
php生成EXCEL的东东
2006/10/09 PHP
PHP生成网页快照 不用COM不用扩展.
2010/02/11 PHP
yii2.0整合阿里云oss的示例代码
2017/09/19 PHP
PHP下载文件函数与用法示例
2019/09/27 PHP
javascript 新浪背投广告实现代码
2009/07/07 Javascript
JavaScript CSS修改学习第六章 拖拽
2010/02/19 Javascript
HTML DOM的nodeType值介绍
2011/03/31 Javascript
Javascript 面试题随笔
2011/03/31 Javascript
用Juery网页选项卡实现代码
2011/06/13 Javascript
node.js中的fs.writeFile方法使用说明
2014/12/14 Javascript
jQuery中clearQueue()方法用法实例
2014/12/29 Javascript
js实现简单随机抽奖的方法
2015/01/27 Javascript
avalon js实现仿微博拖动图片排序
2015/08/14 Javascript
jQuery qrcode生成二维码的方法
2016/04/03 Javascript
js拼接html字符串的注意事项
2016/10/13 Javascript
jQuery实现点击关注和取消功能
2017/07/03 jQuery
webpack2.0配置postcss-loader的方法
2017/08/17 Javascript
使用Vue完成一个简单的todolist的方法
2017/12/01 Javascript
从零开始在NPM上发布一个Vue组件的方法步骤
2018/12/20 Javascript
微信小程序实现图片选择并预览功能
2019/07/25 Javascript
javascript 使用sleep函数的常见方法详解
2020/04/26 Javascript
jQuery实现视频展示效果
2020/05/30 jQuery
jQuery实现放大镜案例
2020/10/19 jQuery
JavaScript实现简易计算器小功能
2020/10/22 Javascript
antd Select下拉菜单动态添加option里的内容操作
2020/11/02 Javascript
python抓取并保存html页面时乱码问题的解决方法
2016/07/01 Python
商务主管岗位职责
2013/12/08 职场文书
一份创业计划书范文
2014/02/08 职场文书
人事专员工作职责
2014/02/22 职场文书
教职工代表大会主持词
2014/04/01 职场文书
迎新晚会主持词开场白
2015/05/28 职场文书
演讲开场白和结束语
2015/05/29 职场文书
python本地文件服务器实例教程
2021/05/02 Python
Python3 如何开启自带http服务
2021/05/18 Python
详解在SQLPlus中实现上下键翻查历史命令的功能
2022/03/18 SQL Server