Python爬虫爬取博客实现可视化过程解析


Posted in Python onJune 29, 2020

源码:

from pyecharts import Bar
import re
import requests
num=0
b=[]
for i in range(1,11):
  link='https://www.cnblogs.com/echoDetected/default.html?page='+str(i)
  headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'}
  r=requests.get(link,headers=headers)
  html=r.text
  post=re.findall('<span class="post-view-count">(.*?)</span>',html)
for i in post:
    i = i.replace("阅读(", "")
    i = i.replace(")","")
    b.append(i)
    num=num+1
columns=[]
for i in range(1,num+1):
#设置行名
  columns.append('博客'+str(i))
#设置数据
#设置柱状图的主标题与副标题
bar = Bar("柱状图", "每个博客阅读数量")
#添加柱状图的数据及配置项,先行后列
bar.add("阅读量", columns, b, mark_line=["average"], mark_point=["max", "min"])
#生成本地文件(默认为.html文件)
bar.render()

爬虫不是重点,只是拿来爬阅读数量,pyecharts是重点

这次爬的是我自己的博客,一共10页,每页10片文章,正好写了100篇博客

pyecharts安装:

pip install wheelpip install pyecharts==0.1.9.4

直接pip install pyecharts会下载最新版无法调用

注意点:pyecharts调用,貌似无法实现多个py文件一起调用(意思是编写时不能在多个文件里出现import语句)

步骤解释:

1.爬虫爬取阅读数

2.去除非法字符装入新的数组

3.设置横轴数据,生成柱状图

4.在当前目录下生成render.html,打开查看柱状图

结果:

Python爬虫爬取博客实现可视化过程解析

柱状图是动态的,不是静态的

Python爬虫爬取博客实现可视化过程解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
sqlalchemy对象转dict的示例
Apr 22 Python
Python中os.path用法分析
Jan 15 Python
python二分查找算法的递归实现方法
May 12 Python
Python OpenCV实现图片上输出中文
Jan 22 Python
Python3 XML 获取雅虎天气的实现方法
Feb 01 Python
Django中间件基础用法详解
Jul 18 Python
基于pytorch的保存和加载模型参数的方法
Aug 17 Python
python线程中的同步问题及解决方法
Aug 29 Python
在flask中使用python-dotenv+flask-cli自定义命令(推荐)
Jan 05 Python
pandas的resample重采样的使用
Apr 24 Python
Python正则re模块使用步骤及原理解析
Aug 18 Python
如何使用 Python 读取文件和照片的创建日期
Sep 05 Python
使用keras框架cnn+ctc_loss识别不定长字符图片操作
Jun 29 #Python
浅谈keras中的后端backend及其相关函数(K.prod,K.cast)
Jun 29 #Python
如何使用python记录室友的抖音在线时间
Jun 29 #Python
Python sublime安装及配置过程详解
Jun 29 #Python
keras K.function获取某层的输出操作
Jun 29 #Python
Python pytesseract验证码识别库用法解析
Jun 29 #Python
用Python开发app后端有优势吗
Jun 29 #Python
You might like
php 将字符串按大写字母分隔成字符串数组
2010/04/30 PHP
Base64在线编码解码实现代码 演示与下载
2011/01/08 PHP
PHP下的浮点运算不准的解决方法
2016/10/27 PHP
jQuery的deferred对象使用详解
2011/08/20 Javascript
jquery访问ashx文件示例代码
2014/08/11 Javascript
JS获取iframe中marginHeight和marginWidth属性的方法
2015/04/01 Javascript
JQuery实现带排序功能的权限选择实例
2015/05/18 Javascript
dul无法加载bootstrap实现unload table/user恢复
2016/09/29 Javascript
Zabbix添加Node.js监控的方法
2016/10/20 Javascript
详解JavaScript的内置对象
2016/12/07 Javascript
Vue修改mint-ui默认样式的方法
2018/02/03 Javascript
Vue 实现列表动态添加和删除的两种方法小结
2018/09/07 Javascript
vue-cli3 karma单元测试的实现
2019/01/18 Javascript
VuePress 静态网站生成方法步骤
2019/02/14 Javascript
详解关于JSON.parse()和JSON.stringify()的性能小测试
2019/03/14 Javascript
用js简单提供增删改查接口
2019/05/12 Javascript
jQuery实现颜色打字机的完整代码
2020/03/19 jQuery
JavaScript 事件代理需要注意的地方
2020/09/08 Javascript
Python遍历目录中的所有文件的方法
2016/07/08 Python
遗传算法之Python实现代码
2017/10/10 Python
基于MTCNN/TensorFlow实现人脸检测
2018/05/24 Python
Django后台获取前端post上传的文件方法
2018/05/28 Python
python requests post多层字典的方法
2018/12/27 Python
numpy.where() 用法详解
2019/05/27 Python
python删除某个目录文件夹的方法
2020/05/26 Python
浅谈python opencv对图像颜色通道进行加减操作溢出
2020/06/03 Python
基于Python下载网络图片方法汇总代码实例
2020/06/24 Python
基于HTML5代码实现折叠菜单附源码下载
2015/11/27 HTML / CSS
意大利运动服减价商店:ScontoSport
2020/03/10 全球购物
法律专业实习鉴定
2013/12/22 职场文书
创业计划书——互联网商机
2014/01/12 职场文书
团日活动总结范文
2014/04/25 职场文书
小学生学习雷锋倡议书
2014/05/15 职场文书
重阳节活动总结
2014/08/27 职场文书
2015年出纳工作总结与计划
2015/05/18 职场文书
Python Django 后台管理之后台模型属性详解
2021/04/25 Python