python爬虫容易学吗


Posted in Python onJune 02, 2020

随着大数据时代的到来,数据将如同煤电气油一样,成为我们最重要的能源之一,然而这种能源是可以源源不断产生、可再生的。而Python爬虫作为获取数据的关键一环,在大数据时代有着极为重要的作用。于是许多同学就前来咨询:Python爬虫好学吗?

什么是爬虫?

网络爬虫,又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

数据从何而来?

要想学Python首先请问:我们所爬的数据,是从哪里来的呢?

企业产生的用户数据:百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数;

数据平台购买数据:数据堂、国云数据市场、贵阳大数据交易所;

政府/机构公开的数据:中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克;

数据管理咨询公司:麦肯锡、埃森哲、艾瑞咨询;

爬取网络数据:如果需要的数据市场上没有,或者不愿意购买,那么可以选择招/做一名爬虫工程师,自己动手丰衣足食。

怎么抓取页面数据?

网页三大特征:

网页都有自己唯一的URL(统一资源定位符)来进行定位;

网页都使用HTML (超文本标记语言)来描述页面信息;

网页都使用HTTP/HTTPS(超文本传输协议)协议来传输HTML数据;

爬虫的设计思路:

首先确定需要爬取的网页URL地址。

通过HTTP/HTTP协议来获取对应的HTML页面。

提取HTML页面里有用的数据:

a. 如果是需要的数据,就保存起来。

b. 如果是页面里的其他URL,那就继续执行第二步。

结语:Python爬虫的学习实际上在Python学习过程中是一个基础入门级的部分,学起来没啥难的,但它确实是职业能力中不可或缺的技能之一。、

内容扩展:

一个简单的爬虫实例:

import urllib,urllib2
import re
def geturllist():
  # 不访问网站,而是实例一个对象,为了模拟浏览器访问服务器
  req = urllib2.Request("http://www.budejie.com/video/")
  
  # 添加申请访问的header,让对方服务器误以为是浏览器申请访问(参数是通过浏览器复制过来的)
  req.add_header('User-Agent',' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36')
 
  # 打开我刚才创建的实例对象
  res =urllib2.urlopen(req)
  html = res.read()
  print html # 访问到了资源代码
 
  # 定义一个正则化表达式为了获取我要的视频网址
  reg = r'data-mp4="(.*?)">'
  # 将网页源码中的视频网址找出来
  urllist = re.findall(reg,html)
  # print urllist
 
  # 有20个视频网址,用for循环一个一个下载出来
  n = 1
  for url in urllist:
    # url 视频网址,'%s.mp4'下载后的名字,url.split('/')[-1] 将字符串按照‘/'分开
    urllib.urlretrieve(url,'%s.mp4' %url.split('/')[-1]) # 下载视频
    n = n+1
 
geturllist()

到此这篇关于python爬虫容易学吗的文章就介绍到这了,更多相关python爬虫好学吗内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
centos系统升级python 2.7.3
Jul 03 Python
一个计算身份证号码校验位的Python小程序
Aug 15 Python
python筛选出两个文件中重复行的方法
May 31 Python
python写入并获取剪切板内容的实例
May 31 Python
python读取excel指定列数据并写入到新的excel方法
Jul 10 Python
Python合并同一个文件夹下所有PDF文件的方法
Mar 11 Python
Python 操作 ElasticSearch的完整代码
Aug 04 Python
浅谈Python中range与Numpy中arange的比较
Mar 11 Python
Python网页解析器使用实例详解
May 30 Python
Python3读取和写入excel表格数据的示例代码
Jun 09 Python
python字典进行运算原理及实例分享
Aug 02 Python
Python中异常处理用法
Nov 27 Python
基于Python词云分析政府工作报告关键词
Jun 02 #Python
使用OpenCV获取图像某点的颜色值,并设置某点的颜色
Jun 02 #Python
如何利用python web框架做文件流下载的实现示例
Jun 02 #Python
python3+opencv 使用灰度直方图来判断图片的亮暗操作
Jun 02 #Python
Java多线程实现四种方式原理详解
Jun 02 #Python
Python+Kepler.gl轻松制作酷炫路径动画的实现示例
Jun 02 #Python
opencv+python实现鼠标点击图像,输出该点的RGB和HSV值
Jun 02 #Python
You might like
基于php和mysql的简单的dao类实现crud操作功能
2014/01/27 PHP
thinkphp浏览历史功能实现方法
2014/10/29 PHP
php常用文件操作函数汇总
2014/11/22 PHP
php+mysqli数据库连接的两种方式
2015/01/28 PHP
php访问数组最后一个元素的函数end()用法
2015/03/18 PHP
php运行报错Call to undefined function curl_init()的最新解决方法
2016/11/20 PHP
PHP高并发和大流量解决方案整理
2019/12/24 PHP
php计数排序算法的实现代码(附四个实例代码)
2020/03/31 PHP
Extjs 几个方法的讨论
2010/01/28 Javascript
jquery的$(document).ready()和onload的加载顺序
2010/05/26 Javascript
JavaScript实用技巧(一)
2010/08/16 Javascript
介绍JavaScript中Math.abs()方法的使用
2015/06/14 Javascript
JavaScript截取、切割字符串的技巧
2016/01/07 Javascript
AngularJS实现Model缓存的方式
2016/02/03 Javascript
JavaScript Math 对象常用方法总结
2016/04/28 Javascript
js控制div层的叠加简单方法
2016/10/15 Javascript
简单实现js悬浮导航效果
2017/02/05 Javascript
JavaScript求一个数组中重复出现次数最多的元素及其下标位置示例
2018/07/23 Javascript
Vue源码分析之Vue实例初始化详解
2019/08/25 Javascript
vue项目打包之开发环境和部署环境的实现
2020/04/23 Javascript
Python绘制的二项分布概率图示例
2018/08/22 Python
解决python3 HTMLTestRunner测试报告中文乱码的问题
2018/12/17 Python
python 读取修改pcap包的例子
2019/07/23 Python
tensorflow 实现自定义layer并添加到计算图中
2020/02/04 Python
Python编程快速上手——正则表达式查找功能案例分析
2020/02/28 Python
纯CSS3实现给头像加个光芒四射且旋转的背景动画效果
2014/05/07 HTML / CSS
使用PDF.JS插件在HTML中预览PDF文件的方法
2018/08/29 HTML / CSS
翻新二手苹果产品的网络领导者:Mac of all Trades
2017/12/19 全球购物
英国最大的经认证的有机超市:Planet Organic
2018/02/02 全球购物
公司请假条范文
2014/04/11 职场文书
英语故事演讲稿
2014/04/29 职场文书
感恩节活动策划方案
2014/05/16 职场文书
马丁路德金演讲稿
2014/05/19 职场文书
2015年普法依法治理工作总结
2015/05/26 职场文书
css3 实现文字闪烁效果的三种方式示例代码
2021/04/25 HTML / CSS
《帝国时代4》赛季预告 新增内容编译器可创造地图
2022/04/03 其他游戏