编程 Python

Python爬取数据并实现可视化代码解析

Posted in Python onAugust 12, 2020

这次主要是爬了京东上一双鞋的相关评论：将数据保存到excel中并可视化展示相应的信息

主要的python代码如下：

文件1

#将excel中的数据进行读取分析
import openpyxl
import matplotlib.pyplot as pit #数据统计用的
wk=openpyxl.load_workbook('销售数据.xlsx')
sheet=wk.active #获取活动表
#获取最大行数和最大列数
rows=sheet.max_row
cols=sheet.max_column
lst=[] #用于存储鞋子码数
for i in range (2,rows+1):
  size=sheet.cell(i,3).value
  lst.append(size)
#以上已经将excel中的数据读取完毕
#一下操作就你行统计不同码数的数量
'''python中有一个数据结构叫做字典，使用鞋码做key，使用销售数量做value'''
dic_size={}
for item in lst:
  dic_size[item]=0

for item in lst:
  for size in dic_size:
    #遍历字典
    if item==size:
      dic_size[size]+=1
      break
for item in dic_size:
  print(item,dic_size[item])
#弄成百分比的形式
lst_total=[]
for item in dic_size:
  lst_total.append([item,dic_size[item],dic_size[item]/160*1.0])

#接下来进行数据的可视化(进行画饼操作)
labels=[item[0] +'码'for item in lst_total] #使用列表生成式，得到饼图的标签
fraces=[item[2] for item in lst_total] #饼图中的数据源
pit.rcParams['font.family']=['SimHei'] #单独的表格乱码的处理方式
pit.pie(x=fraces,labels=labels,autopct='%1.1f%%')
#pit.show()进行结果的图片的展示
pit.savefig('图.jpg')

文件2

#所涉及到的是requests和openpyxl数据的存储和数据的清洗以及统计然后就是matplotlib进行数据的可视化
#静态数据点击element中点击发现在html中，服务器已经渲染好的内容，直接发给浏览器，浏览器解释执行，
#动态数据：如果点击下一页。我们的地址栏（加后缀但是前面的地址栏没变也算）（也可以点击2和3页）没有发生任何变化说明是动态数据，说明我们的数据是后来被渲染到html中的。他的数据根本不在html中的。
#动态查看network然后用的url是network里面的headers
#安装第三方模块输入cmd之后pip install 加名字例如requests
import requests
import re
import time
import json
import openpyxl #用于操作 excel文件的
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'}#创建头部信息
def get_comments(productId,page):
  url = "https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId={0}&score=0&sortType=5&page={1}&pageSize=10&isShadowSku=0&fold=1".format(productId,page)
  resp = requests.get(url, headers=headers)
  s=resp.text.replace('fetchJSON_comment98(','')#进行替换操作。获取到所需要的相应的json，也就是去掉前后没用的东西
  s=s.replace(');','')
  json_data=json.loads(s)#进行数据json转换
  return json_data

#获取最大页数
def get_max_page(productId):
  dis_data=get_comments(productId,0)#调用刚才写的函数进行向服务器的访问请求，获取字典数据
  return dis_data['maxPage']#获取他的最大页数。每一页都有最大页数

#进行数据提取
def get_info(productId):
  max_page=get_max_page(productId)
  lst=[]#用于存储提取到的商品数据
  for page in range(1,max_page+1):
    #获取没页的商品评论
    comments=get_comments(productId,page)
    comm_list=comments['comments']#根据comnents获取到评论的列表(每页有10条评论)
    #遍历评论列表，获取其中的相应的数据
    for item in comm_list:
      #每条评论分别是一字典。在继续通过key来获取值
      content=item['content']
      color=item['productColor']
      size=item['productSize']
      lst.append([content,color,size])#将每条评论添加到列表当中
    time.sleep(3)#防止被京东封ip进行一个时间延迟。防止访问次数太频繁
  save(lst)

def save(lst):
  #把爬取到的数据进行存储,保存到excel中
  wk=openpyxl.Workbook()#用于创建工作簿对象
  sheet=wk.active #获取活动表（一个工作簿有三个表）
  #遍历列表将数据添加到excel中。列表中的一条数据在表中是一行
  biaotou='评论','颜色','大小'
  sheet.append(biaotou)
  for item in lst:
    sheet.append(item)
  #将excel保存到磁盘上
  wk.save('销售数据.xlsx')


if __name__=='__main__':
  productId='66749071789'
  get_info(productId)
  print("ok")

实现的效果如下：

Python爬取数据并实现可视化代码解析

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python爬取数据并实现可视化代码解析

- Author -

悄悄成长

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python网络编程之文件下载实例分析

May 20 Python

Python字符串的全排列算法实例详解

Jan 07 Python

Python 给屏幕打印信息加上颜色的实现方法

Apr 24 Python

Python中print和return的作用及区别解析

May 05 Python

python的sorted用法详解

Jun 25 Python

在Python3 numpy中mean和average的区别详解

Aug 24 Python

通过Python编写一个简单登录功能过程解析

Sep 04 Python

pyinstaller还原python代码过程图解

Jan 08 Python

使用jupyter notebook将文件保存为Markdown,HTML等文件格式

Apr 14 Python

python爬虫中PhantomJS加载页面的实例方法

Nov 12 Python

python模块内置属性概念及实例

Feb 18 Python

Django集成富文本编辑器summernote的实现步骤

May 31 Python

Python下载网易云歌单歌曲的示例代码

Aug 12 #Python

Python爬取12306车次信息代码详解

Aug 12 #Python

Python读取xlsx数据生成图标代码实例

Aug 12 #Python

Idea安装python显示无SDK问题解决方案

Aug 12 #Python

Python selenium如何打包静态网页并下载

Aug 12 #Python

Python selenium爬取微信公众号文章代码详解

Aug 12 #Python

PyQt5 QDockWidget控件应用详解

Aug 12 #Python

You might like

Dedecms常用函数解析

2008/02/01 PHP

详解PHP中的状态模式编程

2015/08/11 PHP

JS的IE和Firefox兼容性集锦

2006/12/11 Javascript

JQuery 写的个性导航菜单

2009/12/24 Javascript

JavaScript的单例模式（singleton in Javascript)

2010/06/11 Javascript

JavaScript的继承的封装介绍

2013/10/15 Javascript

实现图片预加载的三大方法及优缺点分析

2014/11/19 Javascript

javascript限制用户只能输汉字中文的方法

2014/11/20 Javascript

详解JavaScript基本类型和引用类型

2015/12/09 Javascript

JS结合bootstrap实现基本的增删改查功能

2016/07/22 Javascript

Vue.js一个文件对应一个组件实践

2016/10/27 Javascript

用Nodejs搭建服务器访问html、css、JS等静态资源文件

2017/04/28 NodeJs

理解nodejs的stream和pipe机制的原理和实现

2017/08/12 NodeJs

解决vue中修改了数据但视图无法更新的情况

2018/08/27 Javascript

对angularJs中2种自定义服务的实例讲解

2018/09/30 Javascript

vue 之 css module的使用方法

2018/12/04 Javascript

vue + typescript + video.js实现流媒体播放视频监控功能

2019/07/07 Javascript

解决Vue打包后访问图片/图标不显示的问题

2019/07/25 Javascript

详解JavaScript之Array.reduce源码解读

2020/11/01 Javascript

python实现应用程序在右键菜单中添加打开方式功能

2017/01/09 Python

利用Python将时间或时间间隔转为ISO 8601格式方法示例

2017/09/05 Python

Python3实战之爬虫抓取网易云音乐的热门评论

2017/10/09 Python

Python字典中的值为列表或字典的构造实例

2019/12/16 Python

浅谈python 调用open()打开文件时路径出错的原因

2020/06/05 Python

使用CSS3设计地图上的雷达定位提示效果

2016/04/05 HTML / CSS

使用HTML5的表单验证的简单示例

2015/09/09 HTML / CSS

高山背包：High Sierra

2017/11/23 全球购物

英国复古服装购物网站：Collectif

2019/10/30 全球购物

Wolford法国官网：奥地利奢侈内衣品牌

2020/08/11 全球购物

Servlet面试题库

2015/07/18 面试题

硕士生工作推荐信

2014/03/07 职场文书

实习单位评语

2014/04/26 职场文书

电子商务专业应届生求职信

2014/05/28 职场文书

简历自我评价模板

2015/03/11 职场文书

2015年社区综治工作总结

2015/04/21 职场文书

Vue如何清空对象

2022/03/03 Vue.js