端午节将至,用Python爬取粽子数据并可视化,看看网友喜欢哪种粽子吧!


Posted in Python onJune 11, 2021

一、前言

本文就从数据爬取数据清洗数据可视化,这三个方面入手,但你简单完成一个小型的数据分析项目,让你对知识能够有一个综合的运用。

整个思路如下:

  • 爬取网页:https://www.jd.com/
  • 爬取说明: 基于京东网站,我们搜索网站“粽子”数据,大概有100页。我们爬取的字段,既有一级页面的相关信息,还有二级页面的部分信息;
  • 爬取思路: 先针对某一页数据的一级页面做一个解析,然后再进行二级页面做一个解析,最后再进行翻页操作;
  • 爬取字段: 分别是粽子的名称(标题)、价格、品牌(店铺)、类别(口味);
  • 使用工具: requests+lxml+pandas+time+re+pyecharts
  • 网站解析方式: xpath

最终的效果如下:

端午节将至,用Python爬取粽子数据并可视化,看看网友喜欢哪种粽子吧!

二、数据爬取

京东网站,一般是动态加载的,也就是说,采用一般方式只能爬取到某个页面的前30个数据(一个页面一共60个数据)。

基于本文,我仅用最基本的方法,爬取了每个页面的前30条数据(如果大家有兴趣,可以自行下去爬取所有的数据)。

那么,本文究竟爬取了哪些字段呢?我给大家做一个展示,大家有兴趣,可以爬取更多的字段,做更为详细的分析。

端午节将至,用Python爬取粽子数据并可视化,看看网友喜欢哪种粽子吧!

下面为大家展示爬虫代码:

import pandas as pd
import requests
from lxml import etree
import chardet
import time
import re
 
def get_CI(url):
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; X64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36'}
    rqg = requests.get(url,headers=headers)
    rqg.encoding = chardet.detect(rqg.content)['encoding']
    html = etree.HTML(rqg.text)
    
    # 价格
    p_price = html.xpath('//div/div[@class="p-price"]/strong/i/text()')
    
    # 名称
    p_name = html.xpath('//div/div[@class="p-name p-name-type-2"]/a/em')
    p_name = [str(p_name[i].xpath('string(.)')) for i in range(len(p_name))]
    
    # 深层url
    deep_ur1 = html.xpath('//div/div[@class="p-name p-name-type-2"]/a/@href')
    deep_url = ["http:" + i for i in deep_ur1]
    
    # 从这里开始,我们获取“二级页面”的信息           
    brands_list = []
    kinds_list = []
    for i in deep_url:
        rqg = requests.get(i,headers=headers)
        rqg.encoding = chardet.detect(rqg.content)['encoding']
        html = etree.HTML(rqg.text)
                          
        # 品牌
        brands = html.xpath('//div/div[@class="ETab"]//ul[@id="parameter-brand"]/li/@title')
        brands_list.append(brands)
                        
        # 类别
        kinds = re.findall('>类别:(.*?)</li>',rqg.text)
        kinds_list.append(kinds)
                           
    data = pd.DataFrame({'名称':p_name,'价格':p_price,'品牌':brands_list,'类别':kinds_list})
    return(data)
                           
x = "https://search.jd.com/Search?keyword=%E7%B2%BD%E5%AD%90&qrst=1&wq=%E7%B2%BD%E5%AD%90&stock=1&page="
url_list = [x + str(i) for i in range(1,200,2)]
res = pd.DataFrame(columns=['名称','价格','品牌','类别'])
 
# 这里进行“翻页”操作
for url in url_list:
    res0 = get_CI(url)
    res = pd.concat([res,res0])
    time.sleep(3)
 
# 保存数据
res.to_csv('aliang.csv',encoding='utf_8_sig')

最终爬取到的数据:

端午节将至,用Python爬取粽子数据并可视化,看看网友喜欢哪种粽子吧!

三、数据清洗

从上图可以看到,整个数据算是很整齐的,不是特别乱,我们只做一些简单的操作即可。

先使用pandas库,来读取数据。

import pandas as pd
 
df = pd.read_excel("粽子.xlsx",index_col=False)
df.head()

结果如下:

端午节将至,用Python爬取粽子数据并可视化,看看网友喜欢哪种粽子吧!

我们分别针对 “品牌”“类别 两个字段,去掉中括号。

df["品牌"] = df["品牌"].apply(lambda x: x[1:-1])
df["类别"] = df["类别"].apply(lambda x: x[1:-1])
df.head()

结果如下:

端午节将至,用Python爬取粽子数据并可视化,看看网友喜欢哪种粽子吧!

①  粽子品牌排名前10的店铺

df["品牌"].value_counts()[:10]

结果如下:

端午节将至,用Python爬取粽子数据并可视化,看看网友喜欢哪种粽子吧!

② 粽子口味排名前5的味道

def func1(x):
    if x.find("甜") > 0:
        return "甜粽子"
    else:
        return x
df["类别"] = df["类别"].apply(func1)
df["类别"].value_counts()[1:6]

结果如下:

端午节将至,用Python爬取粽子数据并可视化,看看网友喜欢哪种粽子吧!

③ 粽子售卖价格区间划分

def price_range(x): # 按照我的购物习惯,划分价格
    if x <= 50:
        return '<50元'
    elif x <= 100:
        return '50-100元'
    elif x <= 300:
        return '100-300元'
    elif x <= 500:
        return '300-500元'
    elif x <= 1000:
        return '500-1000元'
    else:
        return '>1000元'
 
df["价格区间"] = df["价格"].apply(price_range)
df["价格区间"].value_counts()

结果如下:

端午节将至,用Python爬取粽子数据并可视化,看看网友喜欢哪种粽子吧!

由于数据不是很多,没有很多字段,也就没有很多乱数据。因此,这里也没有做数据去重、缺失值填充等操作。所以,大家可以下去获取更多字段,更多数据,用于数据分析。

四、数据可视化

俗话说:字不如表,表不如图。通过可视化分析,我们可以将数据背后 “隐藏” 的信息,给展现出来。

拓展: 当然,这里只是 “抛砖引玉”,我并没有获取太多的数据,也没有获取太多的字段。这里给学习的朋友当一个作业题,自己下去用更多的数据、更多的字段,做更透彻的分析。

在这里,我们基于以下几个问题,做一个可视化展示,分别是:

  • ① 粽子销售店铺Top10柱形图;
  • ② 粽子口味排名Top5柱形图;
  • ③ 粽子销售价格区间划分饼图;
  • ④ 粽子商品名称词云图;

① 粽子销售店铺Top10柱形图

端午节将至,用Python爬取粽子数据并可视化,看看网友喜欢哪种粽子吧!

结论分析:去年,我们分析了一些月饼的数据,“五芳斋”“北京稻香村” 这几个牌子记忆犹新,可谓是做月饼、粽子的老店。像 “三全” 和 “思念”,在我印象中一直以为它们只做水饺和汤圆,粽子是否值得一试呢?当然,这里还有一些新的牌子,像 “诸老大”“稻香私房” 等一些牌子,大家都可以下去搜索一下。买东西,就是要精挑细选,品牌也重要。

② 粽子口味排名Top5柱形图

端午节将至,用Python爬取粽子数据并可视化,看看网友喜欢哪种粽子吧!

结论分析:在我印象中,小时候一直吃的最多的就是 “甜粽子”,直到我上了初中才知道,粽子还可以有肉?当然,从图中可以看出,卖 “鲜肉粽” 的店铺还是居多,毕竟这个送人,还是显得高端、大气一些。这里还有一些口味,像 “蜜枣粽”“豆沙粽”,我基本没吃过。如果你送人,你会送什么口味的呢?

③ 粽子销售价格区间划分饼图

端午节将至,用Python爬取粽子数据并可视化,看看网友喜欢哪种粽子吧!

结论分析:这里,我故意把价格区间细分。这个饼图也很符合实际,毕竟每年就过一次端午节,还是以薄利多销为主,接近80%的粽子,售价都在100元以下。当然,还有一些中档的粽子,价格在100-300元。大于300元,我觉得也没有吃的必要,反正我是不会花这么多钱去买粽子。

④ 粽子商品名称词云图

端午节将至,用Python爬取粽子数据并可视化,看看网友喜欢哪种粽子吧!

结论分析:从图中,可以大致看出商家的卖点了。毕竟是节日,“送礼”“礼品” 体现了节日氛围。“猪肉”“豆沙” 体现了粽子口味。当然,它是否是 “早餐” 好选择呢?购买的话,还支持 “团购” 哦。这些字眼,多多少少都会各自吸引一部分人的眼球。

⑤ 图形组合为大屏

端午节将至,用Python爬取粽子数据并可视化,看看网友喜欢哪种粽子吧!

​到此这篇关于端午节将至,用Python将粽子数据可视化,看看网友喜欢哪种吧!的文章就介绍到这了,更多相关Python数据可视化内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中使用hashlib模块处理算法的教程
Apr 28 Python
Python实现把数字转换成中文
Jun 29 Python
使用Nginx+uWsgi实现Python的Django框架站点动静分离
Mar 21 Python
Python使用微信SDK实现的微信支付功能示例
Jun 30 Python
Python3基于sax解析xml操作示例
May 22 Python
解决python opencv无法显示图片的问题
Oct 28 Python
python dumps和loads区别详解
Feb 04 Python
python实现批量修改文件名
Mar 23 Python
python实现扑克牌交互式界面发牌程序
Apr 22 Python
详解Python 最短匹配模式
Jul 29 Python
python 实现朴素贝叶斯算法的示例
Sep 30 Python
python爬虫利用代理池更换IP的方法步骤
Feb 21 Python
Python-OpenCV实现图像缺陷检测的实例
Python中OpenCV实现简单车牌字符切割
Python排序算法之插入排序及其优化方案详解
Python下opencv库的安装过程及问题汇总
Jun 11 #Python
Python实现信息轰炸工具(再也不怕说不过别人了)
撤回我也能看到!教你用Python制作微信防撤回脚本
用Python创建简易网站图文教程
You might like
php数组函数序列之array_values() 获取数组元素值的函数与方法
2011/10/30 PHP
简单介绍PHP非阻塞模式
2016/03/03 PHP
php处理多图上传压缩代码功能
2018/06/13 PHP
轻轻松松学习JavaScript
2007/02/25 Javascript
用javascript实现画板的代码
2007/09/05 Javascript
javascript 极速 隐藏/显示万行表格列只需 60毫秒
2009/03/28 Javascript
深入理解JavaScript系列(6) 强大的原型和原型链
2012/01/15 Javascript
js事件冒泡实例分享(已测试)
2013/04/23 Javascript
解释&amp;&amp;和||在javascript中的另类用法
2014/07/28 Javascript
JavaScript变量声明详解
2014/11/27 Javascript
详解JavaScript编程中正则表达式的使用
2015/10/25 Javascript
JavaScript识别网页关键字并进行描红的方法
2015/11/09 Javascript
JS在Chrome浏览器中showModalDialog函数返回值为undefined的解决方法
2016/08/03 Javascript
AngularJS出现$http异步后台无法获取请求参数问题的解决方法
2016/11/03 Javascript
利用JS判断鼠标移入元素的方向
2016/12/11 Javascript
Angular使用 ng-img-max 调整浏览器中的图片的示例代码
2017/08/17 Javascript
在React项目中使用Eslint代码检查工具及常见问题
2018/10/10 Javascript
JavaScript使用localStorage存储数据
2019/09/25 Javascript
微信小程序实现canvas分享朋友圈海报
2020/06/21 Javascript
浅谈vue-props的default写不写有什么区别
2020/08/09 Javascript
Vue Object.defineProperty及ProxyVue实现双向数据绑定
2020/09/02 Javascript
Python二分查找详解
2015/09/13 Python
Python程序中设置HTTP代理
2016/11/06 Python
详解python调度框架APScheduler使用
2017/03/28 Python
python的turtle库使用详解
2019/05/10 Python
python爬虫刷访问量 2019 7月
2019/08/01 Python
twilio python自动拨打电话,播放自定义mp3音频的方法
2019/08/08 Python
Python PIL图片添加字体的例子
2019/08/22 Python
vue常用指令代码实例总结
2020/03/16 Python
详解基于Scrapy的IP代理池搭建
2020/09/29 Python
python两种获取剪贴板内容的方法
2020/11/06 Python
C#可否对内存进行直接的操作
2015/02/26 面试题
实习心得体会
2014/01/02 职场文书
小型女装店的创业计划书
2014/01/09 职场文书
2014年检验员工作总结
2014/11/19 职场文书
Python使用psutil库对系统数据进行采集监控的方法
2021/08/23 Python