python爬虫容易学吗


Posted in Python onJune 02, 2020

随着大数据时代的到来,数据将如同煤电气油一样,成为我们最重要的能源之一,然而这种能源是可以源源不断产生、可再生的。而Python爬虫作为获取数据的关键一环,在大数据时代有着极为重要的作用。于是许多同学就前来咨询:Python爬虫好学吗?

什么是爬虫?

网络爬虫,又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

数据从何而来?

要想学Python首先请问:我们所爬的数据,是从哪里来的呢?

企业产生的用户数据:百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数;

数据平台购买数据:数据堂、国云数据市场、贵阳大数据交易所;

政府/机构公开的数据:中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克;

数据管理咨询公司:麦肯锡、埃森哲、艾瑞咨询;

爬取网络数据:如果需要的数据市场上没有,或者不愿意购买,那么可以选择招/做一名爬虫工程师,自己动手丰衣足食。

怎么抓取页面数据?

网页三大特征:

网页都有自己唯一的URL(统一资源定位符)来进行定位;

网页都使用HTML (超文本标记语言)来描述页面信息;

网页都使用HTTP/HTTPS(超文本传输协议)协议来传输HTML数据;

爬虫的设计思路:

首先确定需要爬取的网页URL地址。

通过HTTP/HTTP协议来获取对应的HTML页面。

提取HTML页面里有用的数据:

a. 如果是需要的数据,就保存起来。

b. 如果是页面里的其他URL,那就继续执行第二步。

结语:Python爬虫的学习实际上在Python学习过程中是一个基础入门级的部分,学起来没啥难的,但它确实是职业能力中不可或缺的技能之一。、

内容扩展:

一个简单的爬虫实例:

import urllib,urllib2
import re
def geturllist():
  # 不访问网站,而是实例一个对象,为了模拟浏览器访问服务器
  req = urllib2.Request("http://www.budejie.com/video/")
  
  # 添加申请访问的header,让对方服务器误以为是浏览器申请访问(参数是通过浏览器复制过来的)
  req.add_header('User-Agent',' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36')
 
  # 打开我刚才创建的实例对象
  res =urllib2.urlopen(req)
  html = res.read()
  print html # 访问到了资源代码
 
  # 定义一个正则化表达式为了获取我要的视频网址
  reg = r'data-mp4="(.*?)">'
  # 将网页源码中的视频网址找出来
  urllist = re.findall(reg,html)
  # print urllist
 
  # 有20个视频网址,用for循环一个一个下载出来
  n = 1
  for url in urllist:
    # url 视频网址,'%s.mp4'下载后的名字,url.split('/')[-1] 将字符串按照‘/'分开
    urllib.urlretrieve(url,'%s.mp4' %url.split('/')[-1]) # 下载视频
    n = n+1
 
geturllist()

到此这篇关于python爬虫容易学吗的文章就介绍到这了,更多相关python爬虫好学吗内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
使用python实现strcmp函数功能示例
Mar 25 Python
Python实现的RSS阅读器实例
Jul 25 Python
python中pandas.DataFrame排除特定行方法示例
Mar 12 Python
钉钉群自定义机器人消息Python封装的实例
Feb 20 Python
Python实现的登录验证系统完整案例【基于搭建的MVC框架】
Apr 12 Python
selenium获取当前页面的url、源码、title的方法
Jun 12 Python
Python 循环终止语句的三种方法小结
Jun 24 Python
pytorch模型存储的2种实现方法
Feb 14 Python
python 利用Pyinstaller打包Web项目
Oct 23 Python
python实现求纯色彩图像的边框
Apr 08 Python
Python实现的扫码工具居然这么好用!
Jun 07 Python
使用python求解迷宫问题的三种实现方法
Mar 17 Python
基于Python词云分析政府工作报告关键词
Jun 02 #Python
使用OpenCV获取图像某点的颜色值,并设置某点的颜色
Jun 02 #Python
如何利用python web框架做文件流下载的实现示例
Jun 02 #Python
python3+opencv 使用灰度直方图来判断图片的亮暗操作
Jun 02 #Python
Java多线程实现四种方式原理详解
Jun 02 #Python
Python+Kepler.gl轻松制作酷炫路径动画的实现示例
Jun 02 #Python
opencv+python实现鼠标点击图像,输出该点的RGB和HSV值
Jun 02 #Python
You might like
实现获取http内容的php函数分享
2014/02/16 PHP
PHP截取发动短信内容的方法
2017/07/04 PHP
在laravel框架中实现封装公共方法全局调用
2019/10/14 PHP
JavaScript 打地鼠游戏代码说明
2010/10/12 Javascript
通过Jscript中@cc_on 语句识别IE浏览器及版本的代码
2011/05/07 Javascript
js禁止页面使用右键(简单示例代码)
2013/11/13 Javascript
JS设置下拉列表框当前所选值的方法
2015/12/22 Javascript
javascript自动恢复文本框点击清除后的默认文本
2016/01/12 Javascript
简单学习vue指令directive
2016/11/03 Javascript
bootstrap datepicker插件默认英文修改为中文
2017/07/28 Javascript
JavaScript实现的级联算法示例【省市二级联动功能】
2018/12/25 Javascript
微信小程序云开发之使用云数据库
2019/05/17 Javascript
[02:40]2014DOTA2 国际邀请赛中国区预选赛 四大豪门抵达华西村
2014/05/23 DOTA
[01:24:16]2018DOTA2亚洲邀请赛 4.6 全明星赛
2018/04/10 DOTA
[27:08]完美世界DOTA2联赛PWL S2 SZ vs Rebirth 第二场 11.21
2020/11/23 DOTA
python网络编程学习笔记(一)
2014/06/09 Python
在Windows系统上搭建Nginx+Python+MySQL环境的教程
2015/12/25 Python
使用py2exe在Windows下将Python程序转为exe文件
2016/03/04 Python
Django跨域请求问题的解决方法示例
2018/06/16 Python
python生成以及打开json、csv和txt文件的实例
2018/11/16 Python
Python基础学习之时间转换函数用法详解
2019/06/18 Python
python 基于opencv 实现一个鼠标绘图小程序
2020/12/11 Python
HTML5 微格式和相关的属性名称
2010/02/10 HTML / CSS
解决html5中的video标签ios系统中无法播放使用的问题
2020/08/10 HTML / CSS
利物浦足球俱乐部官方商店(美国):Liverpool FC US
2019/10/09 全球购物
德国珠宝和配件商店:Styleserver
2021/02/23 全球购物
应届生文秘专业个人自荐信格式
2013/09/21 职场文书
办公室驾驶员岗位职责
2013/11/15 职场文书
给老师的道歉信
2014/01/11 职场文书
工作表现自我评价
2014/02/08 职场文书
2014年乡镇党建工作总结
2014/11/11 职场文书
人事局接收函
2015/01/30 职场文书
2015年端午节国旗下演讲稿
2015/03/19 职场文书
小学重阳节活动总结
2015/03/24 职场文书
Python实现随机生成迷宫并自动寻路
2021/06/13 Python
Python中else的三种使用场景
2021/06/16 Python