python爬虫容易学吗


Posted in Python onJune 02, 2020

随着大数据时代的到来,数据将如同煤电气油一样,成为我们最重要的能源之一,然而这种能源是可以源源不断产生、可再生的。而Python爬虫作为获取数据的关键一环,在大数据时代有着极为重要的作用。于是许多同学就前来咨询:Python爬虫好学吗?

什么是爬虫?

网络爬虫,又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

数据从何而来?

要想学Python首先请问:我们所爬的数据,是从哪里来的呢?

企业产生的用户数据:百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数;

数据平台购买数据:数据堂、国云数据市场、贵阳大数据交易所;

政府/机构公开的数据:中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克;

数据管理咨询公司:麦肯锡、埃森哲、艾瑞咨询;

爬取网络数据:如果需要的数据市场上没有,或者不愿意购买,那么可以选择招/做一名爬虫工程师,自己动手丰衣足食。

怎么抓取页面数据?

网页三大特征:

网页都有自己唯一的URL(统一资源定位符)来进行定位;

网页都使用HTML (超文本标记语言)来描述页面信息;

网页都使用HTTP/HTTPS(超文本传输协议)协议来传输HTML数据;

爬虫的设计思路:

首先确定需要爬取的网页URL地址。

通过HTTP/HTTP协议来获取对应的HTML页面。

提取HTML页面里有用的数据:

a. 如果是需要的数据,就保存起来。

b. 如果是页面里的其他URL,那就继续执行第二步。

结语:Python爬虫的学习实际上在Python学习过程中是一个基础入门级的部分,学起来没啥难的,但它确实是职业能力中不可或缺的技能之一。、

内容扩展:

一个简单的爬虫实例:

import urllib,urllib2
import re
def geturllist():
  # 不访问网站,而是实例一个对象,为了模拟浏览器访问服务器
  req = urllib2.Request("http://www.budejie.com/video/")
  
  # 添加申请访问的header,让对方服务器误以为是浏览器申请访问(参数是通过浏览器复制过来的)
  req.add_header('User-Agent',' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36')
 
  # 打开我刚才创建的实例对象
  res =urllib2.urlopen(req)
  html = res.read()
  print html # 访问到了资源代码
 
  # 定义一个正则化表达式为了获取我要的视频网址
  reg = r'data-mp4="(.*?)">'
  # 将网页源码中的视频网址找出来
  urllist = re.findall(reg,html)
  # print urllist
 
  # 有20个视频网址,用for循环一个一个下载出来
  n = 1
  for url in urllist:
    # url 视频网址,'%s.mp4'下载后的名字,url.split('/')[-1] 将字符串按照‘/'分开
    urllib.urlretrieve(url,'%s.mp4' %url.split('/')[-1]) # 下载视频
    n = n+1
 
geturllist()

到此这篇关于python爬虫容易学吗的文章就介绍到这了,更多相关python爬虫好学吗内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
浅析Python中的for 循环
Jun 09 Python
Windows下Anaconda的安装和简单使用方法
Jan 04 Python
python list元素为tuple时的排序方法
Apr 18 Python
pytorch中tensor的合并与截取方法
Jul 26 Python
在Pandas中给多层索引降级的方法
Nov 16 Python
selenium+PhantomJS爬取豆瓣读书
Aug 26 Python
Django配置MySQL数据库的完整步骤
Sep 07 Python
Python命令行参数解析工具 docopt 安装和应用过程详解
Sep 26 Python
Pycharm中使用git进行合作开发的教程详解
Nov 17 Python
详解Python GUI编程之PyQt5入门到实战
Dec 10 Python
基于PyTorch中view的用法说明
Mar 03 Python
python中 .npy文件的读写操作实例
Apr 14 Python
基于Python词云分析政府工作报告关键词
Jun 02 #Python
使用OpenCV获取图像某点的颜色值,并设置某点的颜色
Jun 02 #Python
如何利用python web框架做文件流下载的实现示例
Jun 02 #Python
python3+opencv 使用灰度直方图来判断图片的亮暗操作
Jun 02 #Python
Java多线程实现四种方式原理详解
Jun 02 #Python
Python+Kepler.gl轻松制作酷炫路径动画的实现示例
Jun 02 #Python
opencv+python实现鼠标点击图像,输出该点的RGB和HSV值
Jun 02 #Python
You might like
PHP文件注释标记及规范小结
2012/04/01 PHP
zf框架的校验器InArray使用示例
2014/03/13 PHP
仿dedecms下拉分页样式修改的thinkphp分页类实例
2014/10/30 PHP
cakephp打印sql语句的方法
2015/02/13 PHP
PHP实现RTX发送消息提醒的实例代码
2017/01/03 PHP
OAuth认证协议中的HMACSHA1加密算法(实例)
2017/10/25 PHP
thinkphp 中的volist标签在ajax操作中的特殊性(推荐)
2018/01/15 PHP
php删除一个路径下的所有文件夹和文件的方法
2018/02/07 PHP
php设计模式之装饰模式应用案例详解
2019/06/17 PHP
Laravel框架Eloquent ORM简介、模型建立及查询数据操作详解
2019/12/04 PHP
个人总结的一些关于String、Function、Array的属性和用法
2007/01/10 Javascript
javascript的onchange事件与jQuery的change()方法比较
2009/09/28 Javascript
基于jquery的滚动新闻列表
2010/06/19 Javascript
Js日期选择器并自动加入到输入框中示例代码
2013/08/02 Javascript
javascript列表框操作函数集合汇总
2013/11/28 Javascript
利用jQuery实现WordPress中@的ID悬浮显示评论内容
2015/12/11 Javascript
jquery PrintArea 实现票据的套打功能(代码)
2017/03/17 Javascript
Node.js 使用递归实现遍历文件夹中所有文件
2017/09/18 Javascript
Bootstrap Table 删除和批量删除
2017/09/22 Javascript
bootstrap select下拉搜索插件使用方法详解
2017/11/23 Javascript
JavaScript解析机制与闭包原理实例详解
2019/03/08 Javascript
在vue中使用防抖和节流,防止重复点击或重复上拉加载实例
2019/11/13 Javascript
Python判断文件或文件夹是否存在的三种方法
2017/07/27 Python
解决django后台管理界面添加中文内容乱码问题
2019/11/15 Python
Pytorch对Himmelblau函数的优化详解
2020/02/29 Python
简单了解Java Netty Reactor三种线程模型
2020/04/26 Python
解决pyinstaller打包运行程序时出现缺少plotly库问题
2020/06/02 Python
CSS3为背景图设置遮罩并解决遮罩样式继承问题
2020/06/22 HTML / CSS
美国女孩洋娃娃店:American Girl
2017/10/24 全球购物
SkinCeuticals官网:美国药妆品牌
2018/04/19 全球购物
Python如何定义一个函数
2015/09/01 面试题
大学生各类奖学金申请书
2019/06/24 职场文书
导游词之安徽醉翁亭
2020/01/10 职场文书
python基于tkinter实现gif录屏功能
2021/05/19 Python
Python读写yaml文件
2022/03/20 Python
python装饰器代码解析
2022/03/23 Python