Python爬虫学习之获取指定网页源码


Posted in Python onJuly 30, 2019

本文实例为大家分享了Python获取指定网页源码的具体代码,供大家参考,具体内容如下

1、任务简介

前段时间一直在学习Python基础知识,故未更新博客,近段时间学习了一些关于爬虫的知识,我会分为多篇博客对所学知识进行更新,今天分享的是获取指定网页源码的方法,只有将网页源码抓取下来才能从中提取我们需要的数据。

2、任务代码

Python获取指定网页源码的方法较为简单,我在Java中使用了38行代码才获取了网页源码(大概是学艺不精),而Python中只用了6行就达到了效果。

Python中获取网页源码最简单的方法就是使用urllib包,具体代码如下:

import urllib.request    #导入urllib.request库
b = str(input("请输入:"))  #提示用户输入信息,并强制类型转换为字符串型
a = urllib.request.urlopen(b)#打开指定网址
html = a.read()       #读取网页源码
html = html.decode("utf-8") #解码为unicode码
print(html)         #打印网页源码

我输入的网址是我博客主页的网址https://blog.csdn.net/lsylsy726

运行结果如下:

Python爬虫学习之获取指定网页源码

3、总结

这篇博客介绍的方法较为简单,其实有的网站会“反爬虫”,这时就需要我们使用User-Agent或者代理,这些东西都会在后面的博客中进行更新,我预计在后面博客中更新“读取CSDN博客访问量的小程序”和“有道翻译小程序”及其他更难一些的知识,由于刚开始学习爬虫,水平有限,请大家多多包涵。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中不同进制的语法及转换方法分析
Jul 27 Python
django使用html模板减少代码代码解析
Dec 12 Python
pandas groupby 分组取每组的前几行记录方法
Apr 20 Python
python/sympy求解矩阵方程的方法
Nov 08 Python
对DataFrame数据中的重复行,利用groupby累加合并的方法详解
Jan 30 Python
详解python3 + Scrapy爬虫学习之创建项目
Apr 12 Python
django框架自定义模板标签(template tag)操作示例
Jun 24 Python
python GUI库图形界面开发之PyQt5下拉列表框控件QComboBox详细使用方法与实例
Feb 27 Python
最新版 Windows10上安装Python 3.8.5的步骤详解
Nov 28 Python
解决Pytorch半精度浮点型网络训练的问题
May 24 Python
Python中的tkinter库简单案例详解
Jan 22 Python
pycharm安装深度学习pytorch的d2l包失败问题解决
Mar 25 Python
django-初始配置(纯手写)详解
Jul 30 #Python
django 单表操作实例详解
Jul 30 #Python
Apache部署Django项目图文详解
Jul 30 #Python
Python 使用list和tuple+条件判断详解
Jul 30 #Python
用python wxpy管理微信公众号并利用微信获取自己的开源数据
Jul 30 #Python
Python实现二叉搜索树BST的方法示例
Jul 30 #Python
django 基于中间件实现限制ip频繁访问过程详解
Jul 30 #Python
You might like
php过滤html中的其他网站链接的方法(域名白名单功能)
2014/04/24 PHP
PHP远程采集图片详细教程
2014/07/01 PHP
php中Y2K38的漏洞解决方法实例分析
2014/09/22 PHP
PHP中文乱码解决方案
2015/03/05 PHP
Yii2基于Ajax自动获取表单数据的方法
2016/08/10 PHP
PHP ADODB生成HTML表格函数rs2html功能【附错误处理函数用法】
2018/05/29 PHP
Windows上php5.6操作mongodb数据库示例【配置、连接、获取实例】
2019/02/13 PHP
PHP进阶学习之Geo的地图定位算法详解
2019/06/19 PHP
使用jQuery全局事件ajaxStart为特定请求实现提示效果的代码
2010/12/30 Javascript
Javascript延迟执行实现方法(setTimeout)
2010/12/30 Javascript
JavaScript中字符串与Unicode编码互相转换的实现方法
2015/12/18 Javascript
Angular4学习笔记之根模块与Ng模块
2017/09/09 Javascript
Element-Ui组件 NavMenu 导航菜单的具体使用
2019/10/24 Javascript
Vue 使用typescript如何优雅的调用swagger API
2020/09/01 Javascript
Python实现命令行通讯录实例教程
2016/08/18 Python
Python实现桶排序与快速排序算法结合应用示例
2017/11/22 Python
python3使用pandas获取股票数据的方法
2018/12/22 Python
python实现鸢尾花三种聚类算法(K-means,AGNES,DBScan)
2019/06/27 Python
利用python计算时间差(返回天数)
2019/09/07 Python
使用python turtle画高达
2020/01/19 Python
PyQt5 文本输入框自动补全QLineEdit的实现示例
2020/05/13 Python
python 基于opencv 实现一个鼠标绘图小程序
2020/12/11 Python
理肤泉俄罗斯官网:La Roche-Posay俄罗斯
2018/07/24 全球购物
北美Newegg打造的全球尖货海购平台:tt海购
2018/09/28 全球购物
灵泰克Java笔试题
2016/01/09 面试题
土木工程专业推荐信
2014/02/19 职场文书
国家励志奖学金个人先进事迹材料
2014/05/04 职场文书
分公司负责人任命书
2014/06/04 职场文书
助残日活动总结
2014/08/27 职场文书
2014幼儿教师个人工作总结
2014/12/03 职场文书
申报材料格式
2014/12/30 职场文书
社区六一儿童节活动总结
2015/02/11 职场文书
2015年教师节感恩寄语
2015/03/23 职场文书
网络营销实训总结
2015/08/03 职场文书
2016先进集体事迹材料范文
2016/02/25 职场文书
vue项目两种方式实现竖向表格的思路分析
2021/04/28 Vue.js