Python爬虫爬取博客实现可视化过程解析


Posted in Python onJune 29, 2020

源码:

from pyecharts import Bar
import re
import requests
num=0
b=[]
for i in range(1,11):
  link='https://www.cnblogs.com/echoDetected/default.html?page='+str(i)
  headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'}
  r=requests.get(link,headers=headers)
  html=r.text
  post=re.findall('<span class="post-view-count">(.*?)</span>',html)
for i in post:
    i = i.replace("阅读(", "")
    i = i.replace(")","")
    b.append(i)
    num=num+1
columns=[]
for i in range(1,num+1):
#设置行名
  columns.append('博客'+str(i))
#设置数据
#设置柱状图的主标题与副标题
bar = Bar("柱状图", "每个博客阅读数量")
#添加柱状图的数据及配置项,先行后列
bar.add("阅读量", columns, b, mark_line=["average"], mark_point=["max", "min"])
#生成本地文件(默认为.html文件)
bar.render()

爬虫不是重点,只是拿来爬阅读数量,pyecharts是重点

这次爬的是我自己的博客,一共10页,每页10片文章,正好写了100篇博客

pyecharts安装:

pip install wheelpip install pyecharts==0.1.9.4

直接pip install pyecharts会下载最新版无法调用

注意点:pyecharts调用,貌似无法实现多个py文件一起调用(意思是编写时不能在多个文件里出现import语句)

步骤解释:

1.爬虫爬取阅读数

2.去除非法字符装入新的数组

3.设置横轴数据,生成柱状图

4.在当前目录下生成render.html,打开查看柱状图

结果:

Python爬虫爬取博客实现可视化过程解析

柱状图是动态的,不是静态的

Python爬虫爬取博客实现可视化过程解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python 基础学习第二弹 类属性和实例属性
Aug 27 Python
python的正则表达式re模块的常用方法
Mar 09 Python
Cpy和Python的效率对比
Mar 20 Python
举例详解Python中循环语句的嵌套使用
May 14 Python
深入理解NumPy简明教程---数组1
Dec 17 Python
详解python 发送邮件实例代码
Dec 22 Python
详解python里使用正则表达式的全匹配功能
Oct 19 Python
Python计算库numpy进行方差/标准方差/样本标准方差/协方差的计算
Dec 28 Python
Python 中 -m 的典型用法、原理解析与发展演变
Nov 11 Python
在python中利用try..except来代替if..else的用法
Dec 19 Python
浅谈PyTorch中in-place operation的含义
Jun 27 Python
Python基础学习之奇异的GUI对话框
May 27 Python
使用keras框架cnn+ctc_loss识别不定长字符图片操作
Jun 29 #Python
浅谈keras中的后端backend及其相关函数(K.prod,K.cast)
Jun 29 #Python
如何使用python记录室友的抖音在线时间
Jun 29 #Python
Python sublime安装及配置过程详解
Jun 29 #Python
keras K.function获取某层的输出操作
Jun 29 #Python
Python pytesseract验证码识别库用法解析
Jun 29 #Python
用Python开发app后端有优势吗
Jun 29 #Python
You might like
php下使用以下代码连接并测试
2008/04/09 PHP
通俗易懂的php防注入代码
2010/04/07 PHP
PHP中数字检测is_numeric与ctype_digit的区别介绍
2012/10/04 PHP
PHP中变量引用与变量销毁机制分析
2014/11/15 PHP
Yii操作数据库实现动态获取表名的方法
2016/03/29 PHP
PHP正则+Snoopy抓取框架实现的抓取淘宝店信誉功能实例
2017/05/17 PHP
PHP实现求解最长公共子串问题的方法
2017/11/17 PHP
JS鼠标事件大全 推荐收藏
2011/11/01 Javascript
再谈Jquery Ajax方法传递到action(补充)
2014/05/12 Javascript
js中取得变量绝对值的方法
2015/01/03 Javascript
JS组件Bootstrap Table表格行拖拽效果实现代码
2020/08/27 Javascript
Node.js实用代码段之获取Buffer对象字节长度
2016/03/17 Javascript
JavaScript 闭包详细介绍
2016/09/28 Javascript
JS基于正则表达式的替换操作(replace)用法示例
2017/04/28 Javascript
bootstrap table列和表头对不齐的解决方法
2019/07/19 Javascript
Element-ui DatePicker显示周数的方法示例
2019/07/19 Javascript
利用d3.js制作连线动画图与编辑器的方法实例
2019/09/05 Javascript
JQuery样式与属性设置方法分析
2019/12/07 jQuery
js实现视图和数据双向绑定的方法分析
2020/02/05 Javascript
[01:42]DOTA2 – 虚无之灵
2019/08/25 DOTA
详解在Python中处理异常的教程
2015/05/24 Python
插入排序_Python与PHP的实现版(推荐)
2017/05/11 Python
Python批量查询域名是否被注册过
2017/06/21 Python
pytorch中图像的数据格式实例
2020/02/11 Python
Django用数据库表反向生成models类知识点详解
2020/03/25 Python
python:删除离群值操作(每一行为一类数据)
2020/06/08 Python
python使用opencv resize图像不进行插值的操作
2020/07/05 Python
Python私有属性私有方法应用实例解析
2020/09/15 Python
基于CSS3特效之动画:animation的应用
2013/05/09 HTML / CSS
Puccini乌克兰:购买行李箱、女士手袋网上商店
2020/08/06 全球购物
幼儿园保教管理制度
2014/02/03 职场文书
阳光体育运动标语口号
2015/12/26 职场文书
创业计划书之干洗店
2019/09/10 职场文书
sql通过日期判断年龄函数的示例代码
2021/07/16 SQL Server
Oracle 触发器trigger使用案例
2022/02/24 Oracle
MySql分区类型及创建分区的方法
2022/04/13 MySQL