Python爬虫分析微博热搜关键词的实现代码


Posted in Python onFebruary 22, 2021

1,使用到的第三方库
requests
BeautifulSoup 美味汤
worldcloud 词云
jieba 中文分词
matplotlib 绘图
2,代码实现部分

import requests
import wordcloud
import jieba
from bs4 import BeautifulSoup
from matplotlib import pyplot as plt
from pylab import mpl

#设置字体
mpl.rcParams['font.sans-serif'] = ['SimHei']
mpl.rcParams['axes.unicode_minus'] = False

url = 'https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6'

try:
  #获取数据
  r = requests.get(url)
  r.raise_for_status()
  r.encoding = r.apparent_encoding
  soup = BeautifulSoup(r.text,'html.parser')
  data = soup.find_all('a')
  d_list = []
  for item in data:
    d_list.append(item.text)
  words = d_list[4:-11:]
  #中文分词
  result = list(jieba.cut(words[0]))
  for word in words[1::]:
    result.extend(jieba.cut(word))
  redata = []
  for it in result:
    if len(it) <= 1:
      continue
    else:
      redata.append(it)
  result_str = ' '.join(redata)
  #输出词云图
  font = r'C:\Windows\Fonts\simhei.ttf'
  w = wordcloud.WordCloud(font_path=font,width=600,height=400)
  w.generate(result_str)
  w.to_file('微博热搜关键词词云.png')
  key = list(set(redata))
  x,y = [],[]
  #筛选数据
  for st in key:
    count = redata.count(st)
    if count <= 1:
      continue
    else:
      x.append(st)
      y.append(count)
  x.sort()
  y.sort()
  #绘制结果图
  plt.plot(x,y)
  plt.show()
except Exception as e:
  print(e)

 

3,运行结果

Python爬虫分析微博热搜关键词的实现代码
Python爬虫分析微博热搜关键词的实现代码

到此这篇关于Python爬虫分析微博热搜关键词的文章就介绍到这了,更多相关Python爬虫微博热搜内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python Queue模块详解
Nov 30 Python
Python实现MySQL操作的方法小结【安装,连接,增删改查等】
Jul 12 Python
Python入门必须知道的11个知识点
Mar 21 Python
python list元素为tuple时的排序方法
Apr 18 Python
详解pandas安装若干异常及解决方案总结
Jan 10 Python
python3 pygame实现接小球游戏
May 14 Python
Python3 pandas 操作列表实例详解
Sep 23 Python
python GUI库图形界面开发之PyQt5滑块条控件QSlider详细使用方法与实例
Feb 28 Python
Python运行提示缺少模块问题解决方案
Apr 02 Python
Python 如何定义匿名或内联函数
Aug 01 Python
Django ModelForm组件原理及用法详解
Oct 12 Python
Python import模块的缓存问题解决方案
Jun 02 Python
anaconda升级sklearn版本的实现方法
Feb 22 #Python
详解Python 中的 defaultdict 数据类型
Feb 22 #Python
python快速安装OpenCV的步骤记录
Feb 22 #Python
Python中生成ndarray实例讲解
Feb 22 #Python
python爬虫利用代理池更换IP的方法步骤
Feb 21 #Python
Python用requests库爬取返回为空的解决办法
Feb 21 #Python
python利用proxybroker构建爬虫免费IP代理池的实现
Feb 21 #Python
You might like
请php正则走开
2008/03/15 PHP
PHP处理Json字符串解码返回NULL的解决方法
2014/09/01 PHP
php隐藏实际地址的文件下载方法
2015/04/18 PHP
php时间函数用法分析
2016/05/28 PHP
windows server 2008/2012安装php iis7 mysql环境搭建教程
2016/06/30 PHP
php 处理png图片白色背景色改为透明色的实例代码
2018/12/10 PHP
js 模拟实现类似c#下的hashtable的简单功能代码
2010/01/24 Javascript
jquery ajax实现下拉框三级无刷新联动,且保存保持选中值状态
2013/10/29 Javascript
Javascript字符串对象的常用方法简明版
2014/06/26 Javascript
判断字符串的长度(优化版)中文占两个字符
2014/10/30 Javascript
简介AngularJS的视图功能应用
2015/06/17 Javascript
JavaScript绑定事件监听函数的通用方法
2016/05/14 Javascript
jQuery插件HighCharts绘制简单2D柱状图效果示例【附demo源码】
2017/03/21 jQuery
微信小程序开发之从相册获取图片 使用相机拍照 本地图片上传
2017/04/18 Javascript
JavaScript纯色二维码变成彩色二维码
2020/07/23 Javascript
JS继承与闭包及JS实现继承的三种方式
2017/10/15 Javascript
解决JavaScript中0.1+0.2不等于0.3问题
2018/10/23 Javascript
Vue批量图片显示时遇到的路径被解析问题
2019/03/28 Javascript
Element实现表格分页数据选择+全选所有完善批量操作
2019/06/07 Javascript
详解JavaScript中精度失准问题及解决方法
2020/02/04 Javascript
JS监听组合按键思路及实现过程
2020/04/17 Javascript
Python中getpass模块无回显输入源码解析
2018/01/11 Python
使用matplotlib画散点图的方法
2018/05/25 Python
Django保护敏感信息的方法示例
2019/05/09 Python
Python中函数的基本定义与调用及内置函数详解
2019/05/13 Python
python如何使用jt400.jar包代码实例
2019/12/20 Python
利用Python实现Json序列化库的方法步骤
2020/09/09 Python
香港卓悦化妆品官网:BONJOUR
2017/09/21 全球购物
新加坡第一大健康与美容零售商:屈臣氏新加坡(Watsons Singapore)
2020/12/11 全球购物
寒假思想汇报
2014/01/10 职场文书
节约粮食标语
2014/06/18 职场文书
2015年幼儿园卫生保健工作总结
2015/05/12 职场文书
《珍珠鸟》教学反思
2016/02/16 职场文书
合作意向书范本
2019/04/17 职场文书
如何设计高效合理的MySQL查询语句
2021/05/26 MySQL
Java十分钟精通进阶适配器模式
2022/04/06 Java/Android