Python爬虫爬取博客实现可视化过程解析


Posted in Python onJune 29, 2020

源码:

from pyecharts import Bar
import re
import requests
num=0
b=[]
for i in range(1,11):
  link='https://www.cnblogs.com/echoDetected/default.html?page='+str(i)
  headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'}
  r=requests.get(link,headers=headers)
  html=r.text
  post=re.findall('<span class="post-view-count">(.*?)</span>',html)
for i in post:
    i = i.replace("阅读(", "")
    i = i.replace(")","")
    b.append(i)
    num=num+1
columns=[]
for i in range(1,num+1):
#设置行名
  columns.append('博客'+str(i))
#设置数据
#设置柱状图的主标题与副标题
bar = Bar("柱状图", "每个博客阅读数量")
#添加柱状图的数据及配置项,先行后列
bar.add("阅读量", columns, b, mark_line=["average"], mark_point=["max", "min"])
#生成本地文件(默认为.html文件)
bar.render()

爬虫不是重点,只是拿来爬阅读数量,pyecharts是重点

这次爬的是我自己的博客,一共10页,每页10片文章,正好写了100篇博客

pyecharts安装:

pip install wheelpip install pyecharts==0.1.9.4

直接pip install pyecharts会下载最新版无法调用

注意点:pyecharts调用,貌似无法实现多个py文件一起调用(意思是编写时不能在多个文件里出现import语句)

步骤解释:

1.爬虫爬取阅读数

2.去除非法字符装入新的数组

3.设置横轴数据,生成柱状图

4.在当前目录下生成render.html,打开查看柱状图

结果:

Python爬虫爬取博客实现可视化过程解析

柱状图是动态的,不是静态的

Python爬虫爬取博客实现可视化过程解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python编程入门的一些基本知识
May 13 Python
Python获取央视节目单的实现代码
Jul 25 Python
python之Socket网络编程详解
Sep 29 Python
Python字典简介以及用法详解
Nov 15 Python
Python简单实现的代理服务器端口映射功能示例
Apr 08 Python
python和pygame实现简单俄罗斯方块游戏
Feb 19 Python
查看python下OpenCV版本的方法
Aug 03 Python
python机器学习之神经网络实现
Oct 13 Python
Python selenium根据class定位页面元素的方法
Feb 26 Python
Python 音频生成器的实现示例
Dec 24 Python
jupyter实现重新加载模块
Apr 16 Python
Python selenium爬取微博数据代码实例
May 22 Python
使用keras框架cnn+ctc_loss识别不定长字符图片操作
Jun 29 #Python
浅谈keras中的后端backend及其相关函数(K.prod,K.cast)
Jun 29 #Python
如何使用python记录室友的抖音在线时间
Jun 29 #Python
Python sublime安装及配置过程详解
Jun 29 #Python
keras K.function获取某层的输出操作
Jun 29 #Python
Python pytesseract验证码识别库用法解析
Jun 29 #Python
用Python开发app后端有优势吗
Jun 29 #Python
You might like
PHP目录函数实现创建、读取目录教程实例
2011/01/13 PHP
php数组转换js数组操作及json_encode的用法详解
2013/10/26 PHP
如何通过View::first使用Laravel Blade的动态模板详解
2017/09/21 PHP
YII2框架中ActiveDataProvider与GridView的配合使用操作示例
2020/03/18 PHP
RR vs IO BO3 第一场2.13
2021/03/10 DOTA
ie 调试javascript的工具
2009/04/29 Javascript
jquery事件机制扩展插件 jquery鼠标右键事件。
2011/12/26 Javascript
jquery获取被勾选的checked(选中)的那一行的3列和4列的值
2013/07/04 Javascript
JavaScript中使用Substring删除字符串最后一个字符
2013/11/03 Javascript
禁止ajax缓存获取程序最新数据的方法
2013/11/19 Javascript
javascript 数组操作详解
2015/01/29 Javascript
Bootstrap富文本组件wysiwyg数据保存到mysql的方法
2016/05/09 Javascript
基于jQuery实现仿微博发布框字数提示
2016/07/27 Javascript
JavaScript制作颜色反转小游戏
2016/09/25 Javascript
JQuery获取可视区尺寸和文档尺寸及制作悬浮菜单示例
2019/05/14 jQuery
[02:09]2018DOTA2亚洲邀请赛TNC赛前采访
2018/04/04 DOTA
shell命令行,一键创建 python 模板文件脚本方法
2018/03/20 Python
python获取文件真实链接的方法,针对于302返回码
2018/05/14 Python
在Python中append以及extend返回None的例子
2019/07/20 Python
python psutil模块使用方法解析
2019/08/01 Python
Django框架HttpRequest对象用法实例分析
2019/11/01 Python
使用python批量转换文件编码为UTF-8的实现
2020/04/03 Python
python爬取网易云音乐热歌榜实例代码
2020/08/07 Python
美国网上书店:Barnes & Noble
2018/08/15 全球购物
巴西购物网站:Submarino
2020/01/19 全球购物
娇韵诗Clarins意大利官方网站:法国天然护肤品牌
2020/03/11 全球购物
大学奖学金获奖感言
2014/08/15 职场文书
颂军魂爱军营演讲稿
2014/09/13 职场文书
纪念九一八事变演讲稿1000字
2014/09/14 职场文书
2014光棍节大学生联谊活动方案
2014/10/10 职场文书
行政执法队伍作风整顿个人剖析材料
2014/10/11 职场文书
安全隐患整改报告
2014/11/06 职场文书
2016银行求职自荐信
2016/01/28 职场文书
导游词之包公祠
2019/11/25 职场文书
简单总结SpringMVC拦截器的使用方法
2021/06/28 Java/Android
python非标准时间的转换
2021/07/25 Python