Python爬取奶茶店数据分析哪家最好喝以及性价比


Posted in Python onSeptember 23, 2022

序篇

天气真的很热啊… 很想有一杯冰冰凉凉的奶茶来解渴~

但是现在奶茶店这么多, 到底哪一家最好喝、性价比最高呢?

数据获取

本文抓取了12个热门城市的奶茶店名单,

城市包括:北京、上海、广州、深圳、天津、西安、重庆、杭州、南京、武汉、成都和长沙。

共计68614家奶茶店,3万多个奶茶品牌。

在构建抓取URL时,

需要注意将城市的维度具体到城市商圈,

因为每个URL最多只显示32页内容,

保证抓取每个城市时的数据量是准确的。

Python爬取奶茶店数据分析哪家最好喝以及性价比

# 构建抓取URL
def get_url_1():
    for city,city_code in city_dict.items():
        for block_dict in area_dict[city]:
            for children in block_dict['children']:
                for page in range(1,33):
                    block_code = children['id']
                    offset = 32 * (page-1)
                    # print(city, area, block, block_code)
                    url = 'https://apimobile.meituan.com/group/v4/poi/pcsearch/{}?uuid=6ddabcb37fdd4a8e9cdf.1599125825.1.0.0&userid=280531290&limit=32&offset={}&cateId=-1&q=奶茶果汁&areaId={}&sort=solds'.format(city_code,offset,block_code)
                    redis_db.sadd('meituan_milk', url)

数据清洗

数据清洗部分,主要清洗了奶茶店铺名称,

但是同一个奶茶品牌会有多种格式,如1点点和1點點,

大卡司和大卡司DAKASI。

由于奶茶品牌数量众多,

并且真假难辨,所以只能进行针对性清洗,

对部分名气高的奶茶品牌名称要保证其统一。

# 清洗字段
def clean(x):
    title = re.sub(u"(.*?)", "", x['title'])
    title = title.replace('點點','点点').replace('(','').replace(')','')
    title = title.replace('一点点','1点点')
    if '一杯会说话的茶' in title:
        title = '1314一杯会说话的茶'
    elif '大卡司' in title:
        title = '大卡司DAKASI'
    elif '1点点' in title:
        title = '1点点'
    elif '都可' in title:
        title = 'CoCo都可'
    elif '书亦烧仙草' in title:
        title = '书亦烧仙草'
    elif '蜜雪冰城' in title:
        title = '蜜雪冰城'
    elif 'royal' in title or 'Royal' in title or 'ROYAL' in title:
        title = 'Royaltea皇茶'
    elif 'ALS' in title:
        title = 'ALS GONG CHA贡茶'
    elif 'GONG' in title:
        title = '贡茶'
    elif '茶百道' in title:
        title = '茶百道'
    elif '吾饮良品' in title:
        title = '吾饮良品'
    elif '悸动烧仙草' in title:
        title = '悸动烧仙草'
    elif '沪上阿姨' in title:
        title = '沪上阿姨'
    elif '7分甜' in title:
        title = '7分甜'
    elif '古茗' in title:
        title = '古茗'
    elif '奈雪' in title:
        title = '奈雪の茶'
    elif '悦色' in title:
        title = '茶颜悦色'
    else:
        pass
    return title
df['title'] = df.apply(clean, axis=1)

数据可视化

当小编在制作可视化图表的时候,

会发现有些奶茶品牌的名称极为相似,

让人有一种傻傻分不清楚的感觉。

Python爬取奶茶店数据分析哪家最好喝以及性价比

热门城市奶茶店铺数量情况

从全国12个热门城市来看奶茶店铺数量分布情况,

广州的店铺数量是最多的,拥有11419家,

之后是深圳(9367家)、上海(7940家)、成都(7361家)。

Python爬取奶茶店数据分析哪家最好喝以及性价比

特色奶茶分布情况

有些奶茶店很有自己的地域特色,

如果你想品尝它们的原版奶茶,

就可能需要跑到别的城市才能喝到,

因为它们大部分分店都只开在本土城市。

Python爬取奶茶店数据分析哪家最好喝以及性价比

大众奶茶分布情况

接下来介绍一下大众奶茶中的1点点,CoCo,书亦烧仙草和益禾堂的热门城市分布情况,

1点点和CoCo在上海的分店数量都是最多的,而书亦烧仙草在成都和长沙比较普遍,益禾堂则是在广州和深圳。

这4家奶茶品牌在广州分店数量均有上百家,也难怪走到哪都能看到这几家奶茶店。

Python爬取奶茶店数据分析哪家最好喝以及性价比

总结

此次小编只分析了12个热门城市的奶茶门店数据,

如果将范围扩展到全国进行分析,

或许能得到更多有意思的结果。

到此这篇关于Python爬取奶茶店数据分析哪家最好喝以及性价比的文章就介绍到这了,更多相关Python爬取奶茶店内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
在Python的Flask框架下收发电子邮件的教程
Apr 21 Python
Tornado协程在python2.7如何返回值(实现方法)
Jun 22 Python
python使用tensorflow深度学习识别验证码
Apr 03 Python
使用python Telnet远程登录执行程序的方法
Jan 26 Python
详解python做UI界面的方法
Feb 27 Python
Python音频操作工具PyAudio上手教程详解
Jun 26 Python
Python列表对象实现原理详解
Jul 01 Python
深入浅析python3中的unicode和bytes问题
Jul 03 Python
对于Python深浅拷贝的理解
Jul 29 Python
Django-xadmin+rule对象级权限的实现方式
Mar 30 Python
Python 合并拼接字符串的方法
Jul 28 Python
使用Python画了一棵圣诞树的实例代码
Nov 27 Python
使用python生成大量数据写入es数据库并查询操作(2)
Sep 23 #Python
Python sklearn分类决策树方法详解
详解Golang如何实现支持随机删除元素的堆
python中validators库的使用方法详解
Sep 23 #Python
Python pyecharts案例超市4年数据可视化分析
Aug 14 #Python
Python编写车票订购系统 Python实现快递收费系统
Aug 14 #Python
Golang Web 框架Iris安装部署
Aug 14 #Python
You might like
ftp类(example.php)
2006/10/09 PHP
source.php查看源文件
2006/12/09 PHP
浅谈PHP中output_buffering
2015/07/13 PHP
php实现微信发红包
2015/12/05 PHP
PHP扩展框架之Yaf框架的安装与使用
2016/05/18 PHP
php 生成加密公钥加密私钥实例详解
2017/06/16 PHP
PHP SFTP实现上传下载功能
2017/07/26 PHP
很可爱的输入框
2008/08/03 Javascript
jquery自动完成插件(autocomplete)应用之PHP版
2009/12/15 Javascript
提交按钮的name='submit'引起的js失效问题及原因
2015/02/25 Javascript
AngularJS学习笔记之ng-options指令
2015/06/16 Javascript
基于javascript实现文字无缝滚动效果
2016/03/22 Javascript
JS 实现导航菜单中的二级下拉菜单的几种方式
2016/10/31 Javascript
JS排序算法之希尔排序与快速排序实现方法
2017/12/12 Javascript
javascript与PHP动态往类中添加方法对比
2018/03/21 Javascript
如何理解Vue的v-model指令的使用方法
2018/07/19 Javascript
Vue filter 过滤当前时间 实现实时更新效果
2019/12/20 Javascript
vue-cli4.x创建企业级项目的方法步骤
2020/06/18 Javascript
[57:18]DOTA2上海特级锦标赛主赛事日 - 1 败者组第一轮#3VP VS VG
2016/03/03 DOTA
Python实现调度算法代码详解
2017/12/01 Python
Python设计模式之MVC模式简单示例
2018/01/10 Python
python动态进度条的实现代码
2019/07/03 Python
Python 一键获取百度网盘提取码的方法
2019/08/01 Python
Python操作Word批量生成合同的实现示例
2020/08/28 Python
Python selenium实现断言3种方法解析
2020/09/08 Python
Python通过队列来实现进程间通信的示例
2020/10/14 Python
python 中关于pycharm选择运行环境的问题
2020/10/31 Python
最新版 Windows10上安装Python 3.8.5的步骤详解
2020/11/28 Python
意大利香水和化妆品购物网站:Parfimo.it
2019/10/06 全球购物
波兰家居饰品和厨房配件网上商店:Maleomi
2020/12/15 全球购物
水果超市创业计划书
2014/01/27 职场文书
策划总监岗位职责
2014/02/16 职场文书
单位在职证明书
2014/09/11 职场文书
工作经历证明书范文
2014/11/02 职场文书
Python入门之使用pandas分析excel数据
2021/05/12 Python
win10输入法不见了只能打出字母怎么解决?
2022/08/05 数码科技