Python爬取奶茶店数据分析哪家最好喝以及性价比


Posted in Python onSeptember 23, 2022

序篇

天气真的很热啊… 很想有一杯冰冰凉凉的奶茶来解渴~

但是现在奶茶店这么多, 到底哪一家最好喝、性价比最高呢?

数据获取

本文抓取了12个热门城市的奶茶店名单,

城市包括:北京、上海、广州、深圳、天津、西安、重庆、杭州、南京、武汉、成都和长沙。

共计68614家奶茶店,3万多个奶茶品牌。

在构建抓取URL时,

需要注意将城市的维度具体到城市商圈,

因为每个URL最多只显示32页内容,

保证抓取每个城市时的数据量是准确的。

Python爬取奶茶店数据分析哪家最好喝以及性价比

# 构建抓取URL
def get_url_1():
    for city,city_code in city_dict.items():
        for block_dict in area_dict[city]:
            for children in block_dict['children']:
                for page in range(1,33):
                    block_code = children['id']
                    offset = 32 * (page-1)
                    # print(city, area, block, block_code)
                    url = 'https://apimobile.meituan.com/group/v4/poi/pcsearch/{}?uuid=6ddabcb37fdd4a8e9cdf.1599125825.1.0.0&userid=280531290&limit=32&offset={}&cateId=-1&q=奶茶果汁&areaId={}&sort=solds'.format(city_code,offset,block_code)
                    redis_db.sadd('meituan_milk', url)

数据清洗

数据清洗部分,主要清洗了奶茶店铺名称,

但是同一个奶茶品牌会有多种格式,如1点点和1點點,

大卡司和大卡司DAKASI。

由于奶茶品牌数量众多,

并且真假难辨,所以只能进行针对性清洗,

对部分名气高的奶茶品牌名称要保证其统一。

# 清洗字段
def clean(x):
    title = re.sub(u"(.*?)", "", x['title'])
    title = title.replace('點點','点点').replace('(','').replace(')','')
    title = title.replace('一点点','1点点')
    if '一杯会说话的茶' in title:
        title = '1314一杯会说话的茶'
    elif '大卡司' in title:
        title = '大卡司DAKASI'
    elif '1点点' in title:
        title = '1点点'
    elif '都可' in title:
        title = 'CoCo都可'
    elif '书亦烧仙草' in title:
        title = '书亦烧仙草'
    elif '蜜雪冰城' in title:
        title = '蜜雪冰城'
    elif 'royal' in title or 'Royal' in title or 'ROYAL' in title:
        title = 'Royaltea皇茶'
    elif 'ALS' in title:
        title = 'ALS GONG CHA贡茶'
    elif 'GONG' in title:
        title = '贡茶'
    elif '茶百道' in title:
        title = '茶百道'
    elif '吾饮良品' in title:
        title = '吾饮良品'
    elif '悸动烧仙草' in title:
        title = '悸动烧仙草'
    elif '沪上阿姨' in title:
        title = '沪上阿姨'
    elif '7分甜' in title:
        title = '7分甜'
    elif '古茗' in title:
        title = '古茗'
    elif '奈雪' in title:
        title = '奈雪の茶'
    elif '悦色' in title:
        title = '茶颜悦色'
    else:
        pass
    return title
df['title'] = df.apply(clean, axis=1)

数据可视化

当小编在制作可视化图表的时候,

会发现有些奶茶品牌的名称极为相似,

让人有一种傻傻分不清楚的感觉。

Python爬取奶茶店数据分析哪家最好喝以及性价比

热门城市奶茶店铺数量情况

从全国12个热门城市来看奶茶店铺数量分布情况,

广州的店铺数量是最多的,拥有11419家,

之后是深圳(9367家)、上海(7940家)、成都(7361家)。

Python爬取奶茶店数据分析哪家最好喝以及性价比

特色奶茶分布情况

有些奶茶店很有自己的地域特色,

如果你想品尝它们的原版奶茶,

就可能需要跑到别的城市才能喝到,

因为它们大部分分店都只开在本土城市。

Python爬取奶茶店数据分析哪家最好喝以及性价比

大众奶茶分布情况

接下来介绍一下大众奶茶中的1点点,CoCo,书亦烧仙草和益禾堂的热门城市分布情况,

1点点和CoCo在上海的分店数量都是最多的,而书亦烧仙草在成都和长沙比较普遍,益禾堂则是在广州和深圳。

这4家奶茶品牌在广州分店数量均有上百家,也难怪走到哪都能看到这几家奶茶店。

Python爬取奶茶店数据分析哪家最好喝以及性价比

总结

此次小编只分析了12个热门城市的奶茶门店数据,

如果将范围扩展到全国进行分析,

或许能得到更多有意思的结果。

到此这篇关于Python爬取奶茶店数据分析哪家最好喝以及性价比的文章就介绍到这了,更多相关Python爬取奶茶店内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python网络编程学习笔记(10):webpy框架
Jun 09 Python
Python中的__new__与__init__魔术方法理解笔记
Nov 08 Python
用python实现面向对像的ASP程序实例
Nov 10 Python
python日志记录模块实例及改进
Feb 12 Python
python读取与写入csv格式文件的示例代码
Dec 16 Python
python调用百度语音识别api
Aug 30 Python
对python中xlsx,csv以及json文件的相互转化方法详解
Dec 25 Python
解决安装pycharm后不能执行python脚本的问题
Jan 19 Python
Python检查ping终端的方法
Jan 26 Python
python3+pyqt5+itchat微信定时发送消息的方法
Feb 20 Python
Python中socket网络通信是干嘛的
May 27 Python
python如何修改文件时间属性
Feb 05 Python
使用python生成大量数据写入es数据库并查询操作(2)
Sep 23 #Python
Python sklearn分类决策树方法详解
详解Golang如何实现支持随机删除元素的堆
python中validators库的使用方法详解
Sep 23 #Python
Python pyecharts案例超市4年数据可视化分析
Aug 14 #Python
Python编写车票订购系统 Python实现快递收费系统
Aug 14 #Python
Golang Web 框架Iris安装部署
Aug 14 #Python
You might like
PHP __autoload()方法真的影响性能吗?
2012/03/30 PHP
编写php应用程序实现摘要式身份验证的方法详解
2013/06/08 PHP
解析PHP中数组元素升序、降序以及重新排序的函数
2013/06/20 PHP
CI框架开发新浪微博登录接口源码完整版
2014/05/28 PHP
PHP排序算法类实例
2015/06/17 PHP
HTML中嵌入PHP的简单方法
2016/02/16 PHP
示例详解Laravel的注册重构
2016/08/14 PHP
php使用gd2绘制基本图形示例(直线、圆、正方形)
2017/02/15 PHP
(JS实现)MapBar中坐标的加密和解密的脚本
2007/05/16 Javascript
JS对象与JSON格式数据相互转换
2012/02/20 Javascript
使用upstart把nodejs应用封装为系统服务实例
2014/06/01 NodeJs
Javascript原型链和原型的一个误区
2014/10/22 Javascript
使用jquery菜单插件HoverTree仿京东无限级菜单
2014/12/18 Javascript
JavaScript实现数组在指定位置插入若干元素的方法
2015/04/06 Javascript
分享纯手写漂亮的表单验证
2015/11/19 Javascript
学做Bootstrap的第一个页面
2016/05/15 HTML / CSS
vue自定义指令实现v-tap插件
2016/11/03 Javascript
Bootstrap Table使用整理(四)之工具栏
2017/06/09 Javascript
微信小程序wx.previewImage预览图片实例详解
2017/12/07 Javascript
详解在Vue中使用TypeScript的一些思考(实践)
2018/07/06 Javascript
JS轮播图的实现方法
2020/08/24 Javascript
python机器学习理论与实战(六)支持向量机
2018/01/19 Python
pyqt5 comboBox获得下标、文本和事件选中函数的方法
2019/06/14 Python
Python3 使用pillow库生成随机验证码
2019/08/26 Python
Django 实现Admin自动填充当前用户的示例代码
2019/11/18 Python
浅谈pytorch卷积核大小的设置对全连接神经元的影响
2020/01/10 Python
Java多线程实现四种方式原理详解
2020/06/02 Python
如何导出python安装的所有模块名称和版本号到文件中
2020/06/05 Python
用python爬虫批量下载pdf的实现
2020/12/01 Python
浅谈matplotlib默认字体设置探索
2021/02/03 Python
《两只鸟蛋》教学反思
2014/02/10 职场文书
大学生求职工作的自我评价
2014/02/13 职场文书
买房协议书
2014/04/11 职场文书
党务公开方案
2014/05/06 职场文书
2014年征兵标语
2014/06/20 职场文书
专家推荐信范文
2015/03/26 职场文书