Python爬虫入门案例之爬取去哪儿旅游景点攻略以及可视化分析


Posted in Python onOctober 16, 2021

知识点

  • requests 发送网络请求
  • parsel 解析数据
  • csv 保存数据

第三方库

  • requests >>> pip install requests
  • parsel >>> pip install parsel

开发环境:

  • 版 本: python 3.8
  • 编辑器:pycharm 2021.2

Python爬虫入门案例之爬取去哪儿旅游景点攻略以及可视化分析

【付费VIP完整版】只要看了就能学会的教程,80集Python基础入门视频教学

点这里即可免费在线观看

爬虫程序

导入模块

# 发送网络请求的模块
import requests
# 解析数据的模块
import parsel
import csv
import time
import random

发送请求

url = f'https://travel.qunar.com/travelbook/list.htm?page=1&order=hot_heat'
# <Response [200]>: 告诉我们 请求成功了
response = requests.get(url)

获取数据(网页源代码)

html_data = response.text

解析网页(re正则表达式,css选择器,xpath,bs4/六年没更新了,json)

# html_data: 字符串
# 我们现在要把这个字符串 变成一个对象
selector = parsel.Selector(html_data)
# ::attr(href) url_list:列表
url_list = selector.css('.b_strategy_list li h2 a::attr(href)').getall()
for detail_url in url_list:
    # 字符串的 替换方法
    detail_id = detail_url.replace('/youji/', '')
    url_1 = 'https://travel.qunar.com/travelbook/note/' + detail_id
    print(url_1)

向详情页网站发送请求(get,post)

# https://travel.qunar.com/travelbook/note/7701502
response_1 = requests.get(url_1).text

解析网页

selector_1 = parsel.Selector(response_1)
# :nth-child(): 伪类选择器
# ::text 提取文本内容
# * 代表所有
# 地点
title = selector_1.css('.b_crumb_cont *:nth-child(3)::text').get().replace('旅游攻略', '')
# 短评
comment = selector_1.css('.title.white::text').get()
# 出发日期
date = selector_1.css('#js_mainleft > div.b_foreword > ul > li.f_item.when > p > span.data::text').get()
# 天数
days = selector_1.css('#js_mainleft > div.b_foreword > ul > li.f_item.howlong > p > span.data::text').get()
# 人均消费
money = selector_1.css('#js_mainleft > div.b_foreword > ul > li.f_item.howmuch > p > span.data::text').get()
# 人物
character = selector_1.css('#js_mainleft > div.b_foreword > ul > li.f_item.who > p > span.data::text').get()
# 玩法
play_list = selector_1.css('#js_mainleft > div.b_foreword > ul > li.f_item.how > p > span.data span::text').getall()
play = ' '.join(play_list)
# 浏览量
count = selector_1.css('.view_count::text').get()
print(title, comment, date, days, money, character, play, count)

保存数据

# 保存成csv
csv_qne = open('去哪儿.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.writer(csv_qne)
# 写入数据
csv_writer.writerow(['地点', '短评', '出发时间', '天数', '人均消费', '人物', '玩法', '浏览量'])

Python爬虫入门案例之爬取去哪儿旅游景点攻略以及可视化分析

数据可视化

导入模块

import pandas as pd
from pyecharts.commons.utils import JsCode
from pyecharts.charts import *
from pyecharts import options as opts

导入数据

data = pd.read_csv('去哪儿_数分.csv')
data

Python爬虫入门案例之爬取去哪儿旅游景点攻略以及可视化分析

旅游胜地Top10及对应费用

bar=(
    Bar(init_opts=opts.InitOpts(height='500px',width='1000px',theme='dark'))
    .add_xaxis(m2)
    .add_yaxis(
        '目的地Top10',
        n2,
        label_opts=opts.LabelOpts(is_show=True,position='top'),
        itemstyle_opts=opts.ItemStyleOpts(
            color=JsCode("""new echarts.graphic.LinearGradient(
            0, 0, 0, 1,[{offset: 0,color: 'rgb(255,99,71)'}, {offset: 1,color: 'rgb(32,178,170)'}])
            """
            )
        )
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(
            title='目的地Top10'),
            xaxis_opts=opts.AxisOpts(name='景点名称',
            type_='category',                                           
            axislabel_opts=opts.LabelOpts(rotate=90),
        ),
        yaxis_opts=opts.AxisOpts(
            name='数量',
            min_=0,
            max_=120.0,
            splitline_opts=opts.SplitLineOpts(is_show=True,linestyle_opts=opts.LineStyleOpts(type_='dash'))
        ),
        tooltip_opts=opts.TooltipOpts(trigger='axis',axis_pointer_type='cross')
    )

    .set_series_opts(
        markline_opts=opts.MarkLineOpts(
            data=[
                opts.MarkLineItem(type_='average',name='均值'),
                opts.MarkLineItem(type_='max',name='最大值'),
                opts.MarkLineItem(type_='min',name='最小值'),
            ]
        )
    )
)
bar.render_notebook()

Python爬虫入门案例之爬取去哪儿旅游景点攻略以及可视化分析

bar=(
    Bar(init_opts=opts.InitOpts(height='500px',width='1000px',theme='dark'))
    .add_xaxis(loc)
    .add_yaxis(
        '人均费用',
        price_mean2,
        label_opts=opts.LabelOpts(is_show=True,position='top'),
        itemstyle_opts=opts.ItemStyleOpts(
            color=JsCode("""new echarts.graphic.LinearGradient(
            0, 0, 0, 1,[{offset: 0,color: 'rgb(255,99,71)'}, {offset: 1,color: 'rgb(32,178,170)'}])
            """
            )
        )
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(
            title='各景点人均费用'),
            xaxis_opts=opts.AxisOpts(name='景点名称',
            type_='category',                                           
            axislabel_opts=opts.LabelOpts(rotate=90),
        ),
        yaxis_opts=opts.AxisOpts(
            name='数量',
            min_=0,
            max_=2000.0,
            splitline_opts=opts.SplitLineOpts(is_show=True,linestyle_opts=opts.LineStyleOpts(type_='dash'))
        ),
        tooltip_opts=opts.TooltipOpts(trigger='axis',axis_pointer_type='cross')
    )

    .set_series_opts(
        markline_opts=opts.MarkLineOpts(
            data=[
                opts.MarkLineItem(type_='average',name='均值'),
                opts.MarkLineItem(type_='max',name='最大值'),
                opts.MarkLineItem(type_='min',name='最小值'),
            ]
        )
    )
)
bar.render_notebook()

Python爬虫入门案例之爬取去哪儿旅游景点攻略以及可视化分析

出游方式分析

pie = (Pie(init_opts=opts.InitOpts(theme='dark', width='1000px', height='800px'))
       .add("", [z for z in zip(m1,n1)],
            radius=["40%", "65%"])
       .set_global_opts(title_opts=opts.TitleOpts(title="去哪儿\n\n出游结伴方式", pos_left='center', pos_top='center',
                                               title_textstyle_opts=opts.TextStyleOpts(
                                                   color='#FF6A6A', font_size=30, font_weight='bold'),
                                               ),
                        visualmap_opts=opts.VisualMapOpts(is_show=False, 
                                          min_=38,
                                          max_=641,
                                          is_piecewise=False,
                                          dimension=0,
                                          range_color=['#9400D3', '#008afb', '#ffec4a', '#FFA500','#ce5777']),
                        legend_opts=opts.LegendOpts(is_show=False, pos_top='5%'),
                        )
       .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}", font_size=12),
                        tooltip_opts=opts.TooltipOpts(trigger="item", formatter="{b}: {c}"),
                        itemstyle_opts={"normal": {
                                                    "barBorderRadius": [30, 30, 30, 30],
                                                    'shadowBlur': 10,
                                                    'shadowColor': 'rgba(0,191,255,0.5)',
                                                    'shadowOffsetY': 1,
                                                    'opacity': 0.8
                                                }
                                       })
        
                        )
pie.render_notebook()

Python爬虫入门案例之爬取去哪儿旅游景点攻略以及可视化分析

出游时间分析

line = (
    Line()
    .add_xaxis(m4.tolist())
    .add_yaxis('',n4.tolist())
)
line.render_notebook()

Python爬虫入门案例之爬取去哪儿旅游景点攻略以及可视化分析

2021年的旅游时间曲线大约在五月一号起伏最大,原因肯定是因为假期调休延长至4天,为了调整自己生活及工作的状态,很多人利用这个假期去旅行放松自己。

出游玩法分析

m5 = []
n5 = []
for i in range(20):
    m5.append(list[i][0])
    n5.append(list[i][1])
m5.reverse()
m6 = m5
n5.reverse()
n6 = n5

bar = (
    Bar(init_opts=opts.InitOpts(theme='dark', width='1000px',height ='500px'))
    .add_xaxis(m6)
    .add_yaxis('', n6)
    .set_series_opts(label_opts=opts.LabelOpts(is_show=True, 
                                                       position='insideRight',
                                                       font_style='italic'),
                            itemstyle_opts=opts.ItemStyleOpts(
                                color=JsCode("""new echarts.graphic.LinearGradient(1, 0, 0, 0, 
                                             [{
                                                 offset: 0,
                                                 color: 'rgb(255,99,71)'
                                             }, {
                                                 offset: 1,
                                                 color: 'rgb(32,178,170)'
                                             }])"""))
                            )
    .set_global_opts(
        title_opts=opts.TitleOpts(title="出游玩法分析"),
        xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=45)),
        legend_opts=opts.LegendOpts(is_show=True))
    .reversal_axis()
)
bar.render_notebook()

Python爬虫入门案例之爬取去哪儿旅游景点攻略以及可视化分析

“摄影”和“美食”可谓与旅行息息相关,一次完整的旅行最不能缺的就是“摄影”,拍美食发到朋友圈、拍风景发到朋友圈、拍完美的自己发到朋友圈;工作之后就没有了寒暑假,所以利用周末来一次短途旅行就成为了大多数人的首选。

到此这篇关于Python爬虫入门案例之爬取去哪儿旅游景点攻略以及可视化分析的文章就介绍到这了,更多相关Python 爬取去哪儿内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python中enumerate的用法实例解析
Aug 18 Python
Python标准库之随机数 (math包、random包)介绍
Nov 25 Python
Python3指定路径寻找符合匹配模式文件
May 22 Python
Python模拟登录验证码(代码简单)
Feb 06 Python
浅析python中的分片与截断序列
Aug 09 Python
Python语言描述最大连续子序列和
Dec 05 Python
python取代netcat过程分析
Feb 10 Python
PyQt5图形界面播放音乐的实例
Jun 17 Python
Python OpenCV读取中文路径图像的方法
Jul 02 Python
Pycharm Plugins加载失败问题解决方案
Nov 28 Python
用Python 执行cmd命令
Dec 18 Python
Pytorch中使用ImageFolder读取数据集时忽略特定文件
Mar 23 Python
Python爬虫入门案例之爬取二手房源数据
Python爬虫入门案例之回车桌面壁纸网美女图片采集
Python Django模型详解
Python 阶乘详解
Oct 05 #Python
Python 实现Mac 屏幕截图详解
基于Python和openCV实现图像的全景拼接详细步骤
C3 线性化算法与 MRO之Python中的多继承
You might like
php过滤危险html代码
2008/08/18 PHP
查找mysql字段中固定字符串并替换的几个方法
2012/09/23 PHP
ThinkPHP使用心得分享-上传类UploadFile的使用
2014/05/15 PHP
php实现将数组转换为XML的方法
2015/03/09 PHP
thinkphp实现图片上传功能
2016/01/13 PHP
JS实多级联动下拉菜单类,简单实现省市区联动菜单!
2007/05/03 Javascript
jQuery对象和DOM对象相互转化
2009/04/24 Javascript
不提示直接关闭网页窗口的JS示例代码
2013/12/17 Javascript
jQuery UI设置固定日期选择特效代码分享
2015/08/27 Javascript
微信小程序 五星评分(包括半颗星评分)实例代码
2016/12/14 Javascript
angularjs数组判断是否含有某个元素的实例
2018/02/27 Javascript
vue.js动画中的js钩子函数的实现
2018/07/06 Javascript
微信打开网址添加在浏览器中打开提示的办法
2019/05/20 Javascript
python strip()函数 介绍
2013/05/24 Python
python定时采集摄像头图像上传ftp服务器功能实现
2013/12/23 Python
用Python实现通过哈希算法检测图片重复的教程
2015/04/02 Python
详解Django中的ifequal和ifnotequal标签使用
2015/07/16 Python
python使用MQTT给硬件传输图片的实现方法
2019/05/05 Python
Python基本数据结构之字典类型dict用法分析
2019/06/08 Python
如何通过python画loss曲线的方法
2019/06/26 Python
解决Django中多条件查询的问题
2019/07/18 Python
python使用beautifulsoup4爬取酷狗音乐代码实例
2019/12/04 Python
django admin管理工具自定义时间区间筛选器DateRangeFilter介绍
2020/05/19 Python
利用scikitlearn画ROC曲线实例
2020/07/02 Python
HTML5单页面手势滑屏切换原理
2016/03/21 HTML / CSS
施华洛世奇意大利官网:SWAROVSKI意大利
2018/07/23 全球购物
法国在线购买汽车轮胎网站:123pneus.fr
2019/02/25 全球购物
阿迪达斯英国官方网站:adidas英国
2019/08/13 全球购物
Yankee Candle官网:美国最畅销蜡烛品牌之一
2020/01/05 全球购物
应届毕业生如何写求职信
2014/02/16 职场文书
党员进社区活动总结
2015/05/07 职场文书
保密法制宣传月活动总结
2015/05/07 职场文书
电影复兴之路观后感
2015/06/02 职场文书
python用海龟绘图写贪吃蛇游戏
2021/06/18 Python
Nginx配置https的实现
2021/11/27 Servers
MySQL常见优化方案汇总
2022/01/18 MySQL