Python爬取奶茶店数据分析哪家最好喝以及性价比


Posted in Python onSeptember 23, 2022

序篇

天气真的很热啊… 很想有一杯冰冰凉凉的奶茶来解渴~

但是现在奶茶店这么多, 到底哪一家最好喝、性价比最高呢?

数据获取

本文抓取了12个热门城市的奶茶店名单,

城市包括:北京、上海、广州、深圳、天津、西安、重庆、杭州、南京、武汉、成都和长沙。

共计68614家奶茶店,3万多个奶茶品牌。

在构建抓取URL时,

需要注意将城市的维度具体到城市商圈,

因为每个URL最多只显示32页内容,

保证抓取每个城市时的数据量是准确的。

Python爬取奶茶店数据分析哪家最好喝以及性价比

# 构建抓取URL
def get_url_1():
    for city,city_code in city_dict.items():
        for block_dict in area_dict[city]:
            for children in block_dict['children']:
                for page in range(1,33):
                    block_code = children['id']
                    offset = 32 * (page-1)
                    # print(city, area, block, block_code)
                    url = 'https://apimobile.meituan.com/group/v4/poi/pcsearch/{}?uuid=6ddabcb37fdd4a8e9cdf.1599125825.1.0.0&userid=280531290&limit=32&offset={}&cateId=-1&q=奶茶果汁&areaId={}&sort=solds'.format(city_code,offset,block_code)
                    redis_db.sadd('meituan_milk', url)

数据清洗

数据清洗部分,主要清洗了奶茶店铺名称,

但是同一个奶茶品牌会有多种格式,如1点点和1點點,

大卡司和大卡司DAKASI。

由于奶茶品牌数量众多,

并且真假难辨,所以只能进行针对性清洗,

对部分名气高的奶茶品牌名称要保证其统一。

# 清洗字段
def clean(x):
    title = re.sub(u"(.*?)", "", x['title'])
    title = title.replace('點點','点点').replace('(','').replace(')','')
    title = title.replace('一点点','1点点')
    if '一杯会说话的茶' in title:
        title = '1314一杯会说话的茶'
    elif '大卡司' in title:
        title = '大卡司DAKASI'
    elif '1点点' in title:
        title = '1点点'
    elif '都可' in title:
        title = 'CoCo都可'
    elif '书亦烧仙草' in title:
        title = '书亦烧仙草'
    elif '蜜雪冰城' in title:
        title = '蜜雪冰城'
    elif 'royal' in title or 'Royal' in title or 'ROYAL' in title:
        title = 'Royaltea皇茶'
    elif 'ALS' in title:
        title = 'ALS GONG CHA贡茶'
    elif 'GONG' in title:
        title = '贡茶'
    elif '茶百道' in title:
        title = '茶百道'
    elif '吾饮良品' in title:
        title = '吾饮良品'
    elif '悸动烧仙草' in title:
        title = '悸动烧仙草'
    elif '沪上阿姨' in title:
        title = '沪上阿姨'
    elif '7分甜' in title:
        title = '7分甜'
    elif '古茗' in title:
        title = '古茗'
    elif '奈雪' in title:
        title = '奈雪の茶'
    elif '悦色' in title:
        title = '茶颜悦色'
    else:
        pass
    return title
df['title'] = df.apply(clean, axis=1)

数据可视化

当小编在制作可视化图表的时候,

会发现有些奶茶品牌的名称极为相似,

让人有一种傻傻分不清楚的感觉。

Python爬取奶茶店数据分析哪家最好喝以及性价比

热门城市奶茶店铺数量情况

从全国12个热门城市来看奶茶店铺数量分布情况,

广州的店铺数量是最多的,拥有11419家,

之后是深圳(9367家)、上海(7940家)、成都(7361家)。

Python爬取奶茶店数据分析哪家最好喝以及性价比

特色奶茶分布情况

有些奶茶店很有自己的地域特色,

如果你想品尝它们的原版奶茶,

就可能需要跑到别的城市才能喝到,

因为它们大部分分店都只开在本土城市。

Python爬取奶茶店数据分析哪家最好喝以及性价比

大众奶茶分布情况

接下来介绍一下大众奶茶中的1点点,CoCo,书亦烧仙草和益禾堂的热门城市分布情况,

1点点和CoCo在上海的分店数量都是最多的,而书亦烧仙草在成都和长沙比较普遍,益禾堂则是在广州和深圳。

这4家奶茶品牌在广州分店数量均有上百家,也难怪走到哪都能看到这几家奶茶店。

Python爬取奶茶店数据分析哪家最好喝以及性价比

总结

此次小编只分析了12个热门城市的奶茶门店数据,

如果将范围扩展到全国进行分析,

或许能得到更多有意思的结果。

到此这篇关于Python爬取奶茶店数据分析哪家最好喝以及性价比的文章就介绍到这了,更多相关Python爬取奶茶店内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
gearman的安装启动及python API使用实例
Jul 08 Python
python实现二维码扫码自动登录淘宝
Dec 27 Python
Python通过OpenCV的findContours获取轮廓并切割实例
Jan 05 Python
Django实现全文检索的方法(支持中文)
May 14 Python
Python爬虫包BeautifulSoup学习实例(五)
Jun 17 Python
python实现诗歌游戏(类继承)
Feb 26 Python
python创造虚拟环境方法总结
Mar 04 Python
pytorch 可视化feature map的示例代码
Aug 20 Python
python判断单向链表是否包括环,若包含则计算环入口的节点实例分析
Oct 23 Python
pytorch+lstm实现的pos示例
Jan 14 Python
Python3打包exe代码2种方法实例解析
Feb 17 Python
python实现web邮箱扫描的示例(附源码)
Mar 30 Python
使用python生成大量数据写入es数据库并查询操作(2)
Sep 23 #Python
Python sklearn分类决策树方法详解
详解Golang如何实现支持随机删除元素的堆
python中validators库的使用方法详解
Sep 23 #Python
Python pyecharts案例超市4年数据可视化分析
Aug 14 #Python
Python编写车票订购系统 Python实现快递收费系统
Aug 14 #Python
Golang Web 框架Iris安装部署
Aug 14 #Python
You might like
无JS,完全php面向过程数据分页实现代码
2012/08/27 PHP
在js中单选框和复选框获取值的方式
2009/11/06 Javascript
Prototype框架详解
2015/11/25 Javascript
教你JS中的运算符乘方、开方及变量格式转换
2016/08/09 Javascript
基于vue实现分页/翻页组件paginator示例
2017/03/09 Javascript
学习使用Bootstrap栅格系统
2017/05/11 Javascript
jQuery Json数据格式排版高亮插件json-viewer.js使用方法详解
2017/06/12 jQuery
微信小程序 页面跳转传值实现代码
2017/07/27 Javascript
给vue项目添加ESLint的详细步骤
2017/09/29 Javascript
react-native封装插件swiper的使用方法
2018/03/20 Javascript
使用vue-cli创建项目的图文教程(新手入门篇)
2018/05/02 Javascript
解决vue项目使用font-awesome,build后路径的问题
2018/09/01 Javascript
vue中render函数的使用详解
2018/10/12 Javascript
vuejs+element UI点击编辑表格某一行时获取内容填入表单的示例
2018/10/31 Javascript
AngularJS上传文件的示例代码
2018/11/10 Javascript
vue实现移动端悬浮窗效果
2018/12/01 Javascript
微信小程序生成分享海报方法(附带二维码生成)
2019/03/29 Javascript
JS把字符串格式的时间转换成几秒前、几分钟前、几小时前、几天前等格式
2019/07/10 Javascript
Ant Design Vue table中列超长显示...并加提示语的实例
2020/10/31 Javascript
详解Typescript里的This的使用方法
2021/01/08 Javascript
[01:00] DOTA2英雄背景故事第五期之重力引力法则谜团
2020/07/16 DOTA
python获得一个月有多少天的方法
2015/06/04 Python
django批量导入xml数据
2016/10/16 Python
Python网络爬虫项目:内容提取器的定义
2016/10/25 Python
Linux RedHat下安装Python2.7开发环境
2017/05/20 Python
详解Python数据可视化编程 - 词云生成并保存(jieba+WordCloud)
2019/03/26 Python
python numpy实现多次循环读取文件 等间隔过滤数据示例
2020/03/14 Python
浅谈django框架集成swagger以及自定义参数问题
2020/07/07 Python
pycharm全局搜索的具体步骤
2020/07/28 Python
仓库管理制度
2014/01/21 职场文书
党支部承诺书
2015/01/20 职场文书
布达拉宫的导游词
2015/02/02 职场文书
2015应届毕业生求职信范文
2015/03/20 职场文书
2015迎新晚会开场白
2015/07/17 职场文书
创业计划书之冷饮店
2019/09/27 职场文书
安装pytorch时报sslerror错误的解决方案
2021/05/17 Python