编程 Python

Python爬虫之自动爬取某车之家各车销售数据

Posted in Python onJune 02, 2021

一、目标网页分析

目标网站是某车之家关于品牌汽车车型的口碑模块相关数据，比如我们演示的案例奥迪Q5L的口碑页面如下：

https://k.autohome.com.cn/4851/#pvareaid=3311678

为了演示方式，大家可以直接打开上面这个网址，然后拖到全部口碑位置，找到我们本次采集需要的字段如下图所示：

Python爬虫之自动爬取某车之家各车销售数据

采集字段

我们进行翻页发现，浏览器网址发生了变化，大家可以对下如下几页的网址找出规律：

https://k.autohome.com.cn/4851/index_2.html#dataList
https://k.autohome.com.cn/4851/index_3.html#dataList
https://k.autohome.com.cn/4851/index_4.html#dataList

对于上面写网址，我们发现可变部分是车型（如4851）以及页码（如2,3,4），于是我们可以构建url参数如下：

# typeid是车型，page是页码
url = f'https://k.autohome.com.cn/{typeid}/index_{page}.html#dataList'

二、数据请求

通过简单的测试，发现似乎不存在反爬，那就简单了。

我们先引入需要用到的库：

import requests
import pandas as pd
import html
from lxml import etree
import re

然后创建一个数据请求的函数备用：

# 获取网页数据（传递参数 车型typeid和页码数）
def get_html(typeid,page):
    # 组合出请求地址
    url = f'https://k.autohome.com.cn/{typeid}/index_{page}.html#dataList'
    # 请求数据（因为没有反爬，这里没有设置请求头和其他参数）
    r = requests.get(url)
    # 请求的网页数据中有网页特殊字符，通过以下方法进行解析
    r = html.unescape(r.text)
    # 返回网页数据
    return r

请求来的数据就是网页html文本，我们接下来采用re解析出一共多少页码，再用xpath进行采集字段的解析。

三、数据解析

由于需要进行翻页，这里我们可以先通过re正则表达式获取总页码。通过查看网页数据，我们发现总页码可以通过如下方式获取：

try:
    pages = int(re.findall(r'共(\d+)页',r)[0])
# 如果请求不到页数，则表示该车型下没有口碑数据
except :
    print(f'{name} 没有数据！')
    continue

Python爬虫之自动爬取某车之家各车销售数据

总页码采集

关于待采集字段信息，我们发现都在节点div[@class="mouthcon-cont-left"]里，可以先定位这个节点数据，然后再进行逐一解析。

Python爬虫之自动爬取某车之家各车销售数据

待采集字段信息所在节点

此外，我们发现每一页最多15个车型口碑数据，因此我们每页可以定位15个待采集信息数据集，遍历采集代码：

divs = r_html.xpath('.//div[@class="mouthcon-cont-left"]')
# 遍历每个全部的车辆销售信息
for div in divs:
    # 找到车辆销售信息所在的地方
    mt = div.xpath('./div[@class="choose-con mt-10"]')[0]
    # 找到所需字段
    infos = mt.xpath('./dl[@class="choose-dl"]')
    # 设置空的字典，用于存储单个车辆信息
    item = {}
    # 遍历车辆信息字段
    for info in infos:
        key = info.xpath('.//dt/text()')[0]
        # 当字段为购买车型时，进行拆分为车型和配置
        if key == '购买车型':
            item[key] = info.xpath('.//dd/a/text()')[0]
            item['购买配置'] = info.xpath('.//span[@class="font-arial"]/text()')[0]
        # 当字段为购车经销商时，需要获取经销商的id参数，再调用api获取其真实经销商信息（这里有坑）
        elif key == '购车经销商':
            # 经销商id参数
            经销商id = info.xpath('.//dd/a/@data-val')[0] +','+ info.xpath('.//dd/a/@data-evalid')[0]
            # 组合经销商信息请求地址
            jxs_url = base_jxs_url+经销商id+'|'
            # 请求数据（为json格式）
            data = requests.get(jxs_url)
            j = data.json()
            # 获取经销商名称
            item[key] = j['result']['List'][0]['CompanySimple']
        else:
            # 其他字段时，替换转义字符和空格等为空
            item[key] = info.xpath('.//dd/text()')[0].replace("\r\n","").replace(' ','').replace('\xa0','')

四、数据存储

由于没啥反爬，这里直接将采集到的数据转化为pandas.DataFrame类型，然后存储为xlsx文件即可。

df = pd.DataFrame(items)
df = df[['购买车型', '购买配置', '购买地点', '购车经销商', '购买时间', '裸车购买价']]
# 数据存储在本地
df.to_excel(r'车辆销售信息.xlsx',index=None,sheet_name='data')

五、采集结果预览

整个爬虫过程比较简单，采集下来的数据也比较规范，以本文案例奥迪Q5L示例如下：

Python爬虫之自动爬取某车之家各车销售数据

到此这篇关于Python爬虫之自动采集某车之家各车销售数据的文章就介绍到这了,更多相关Python采集汽车销售数据内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Python爬虫之自动爬取某车之家各车销售数据

- Author -

程序员启航

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python网页请求urllib2模块简单封装代码

Feb 07 Python

Python利用带权重随机数解决抽奖和游戏爆装备问题

Jun 16 Python

R语言 vs Python对比：数据分析哪家强？

Nov 17 Python

Python分析学校四六级过关情况

Nov 22 Python

Python+matplotlib+numpy绘制精美的条形统计图

Jan 02 Python

Django中的文件的上传的几种方式

Jul 23 Python

python3判断url链接是否为404的方法

Aug 10 Python

Python银行系统实战源码

Oct 25 Python

DataFrame.to_excel多次写入不同Sheet的实例

Dec 02 Python

opencv-python 读取图像并转换颜色空间实例

Dec 09 Python

python实现贪吃蛇游戏源码

Mar 21 Python

使用Python实现将多表分批次从数据库导出到Excel

May 15 Python

从np.random.normal()到正态分布的拟合操作

golang特有程序结构入门教程

Jun 02 #Python

Python中的np.argmin()和np.argmax()函数用法

Jun 02 #Python

python之np.argmax()及对axis=0或者1的理解

Python import模块的缓存问题解决方案

Jun 02 #Python

Python3 类型标注支持操作

Jun 02 #Python

python 实现两个变量值进行交换的n种操作

You might like

世界咖啡生产者论坛呼吁：需要立即就咖啡价格采取认真行动

2021/03/06 咖啡文化

初探PHP5

2006/10/09 PHP

求帮忙修改个php curl模拟post请求内容后并下载文件的解决思路

2015/09/20 PHP

php中的登陆login实例代码

2016/06/20 PHP

TNC vs IO BO3 第二场2.13

2021/03/10 DOTA

基于JavaScript实现继承机制之原型链(prototype chaining)的详解

2013/05/07 Javascript

图片放大镜jquery.jqzoom.js使用实例附放大镜图标

2014/06/19 Javascript

JS实现Fisheye效果动感放大菜单代码

2015/10/21 Javascript

js放大镜放大购物图片效果

2017/01/18 Javascript

运用jQuery写的验证表单(实例讲解)

2017/07/06 jQuery

swiper在angularjs中使用循环轮播失效的解决方法

2018/09/27 Javascript

Electron-vue开发的客户端支付收款工具的实现

2019/05/24 Javascript

layui 数据表格点击分页按钮监听事件的实例

2019/09/02 Javascript

微信小程序自定义导航栏（模板化）

2019/11/15 Javascript

详解vue-cli项目在IE浏览器打开报错解决方法

2020/12/10 Vue.js

python 解析XML python模块xml.dom解析xml实例代码

2014/02/07 Python

python中利用h5py模块读取h5文件中的主键方法

2018/06/05 Python

django用户登录和注销的实现方法

2018/07/16 Python

pandas的唯一值、值计数以及成员资格的示例

2018/07/25 Python

Django 路由系统URLconf的使用

2018/10/11 Python

解决.ui文件生成的.py文件运行不出现界面的方法

2019/06/19 Python

PyQt5 QTableView设置某一列不可编辑的方法

2019/06/25 Python

python opencv 批量改变图片的尺寸大小的方法

2019/06/28 Python

Python Subprocess模块原理及实例

2019/08/26 Python

Python爬虫防封ip的一些技巧

2020/08/06 Python

浅谈CSS3动画的回调处理

2016/07/21 HTML / CSS

用HTML5 Canvas API中的clearRect()方法实现橡皮擦功能

2016/03/15 HTML / CSS

冰淇淋店的创业计划书

2014/02/07 职场文书

普通党员自我剖析材料

2014/10/07 职场文书

2014年测量员工作总结

2014/12/12 职场文书

幼儿园六一儿童节活动总结

2015/02/10 职场文书

升职自我推荐信范文

2015/03/25 职场文书

公司的力量观后感

2015/06/05 职场文书

庆祝教师节新闻稿

2015/07/17 职场文书

婚宴来宾致辞

2015/07/28 职场文书

装修安全责任协议书

2016/03/22 职场文书