用python结合jieba和wordcloud实现词云效果


Posted in Python onSeptember 05, 2017

0x00 前言

突然想做一个漏洞词云,看看哪些漏洞比较高频,如果某些厂商有漏洞公开(比如ly),也好针对性挖掘。就选x云吧(镜像站 http://wy.hxsec.com/bugs.php )。用jieba和wordcloud两个强大的第三方库,就可以轻松打造出x云漏洞词云。

github地址: https://github.com/theLSA/wooyun_wordcloud

本站下载地址:wooyun_wordcloud

0x01 爬取标题

直接上代码:

#coding:utf-8
#Author:LSA
#Description:wordcloud for wooyun
#Date:20170904

import urllib
import urllib2
import re
import threading
import Queue

q0 = Queue.Queue()

threads = 20

threadList = []

def gettitle():
 while not q0.empty():

 i = q0.get()
 url = 'http://wy.hxsec.com/bugs.php?page=' + str(i)
 html = urllib.urlopen(url).read()
 reg = re.compile(r'<li style="width:60%;height:25px;background-color:#FFFFFF;float:left" ><a href=".*?" rel="external nofollow" >(.*?)</a>')
 titleList = re.findall(reg,html)
 fwy = open("wooyunBugTitle.txt","a")
 for title in titleList:
 fwy.write(title+'\n')
 fwy.flush()
 fwy.close()
 print 'Page ' + str(i) + ' over!'

def main():
 for page in range(1,2962):
 q0.put(page)
 for thread in range(threads):
 t = threading.Thread(target=gettitle)
 t.start()
 threadList.append(t)
 for th in threadList:
 th.join()

 print '***********************All pages over!**********************'

if __name__ == '__main__':
 main()

0x02 打造词云

还是直接上代码:

# coding: utf-8

import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt

data = open("wooyunBugTitle.txt","r").read()
cutData = jieba.cut(data, cut_all=True)
word = " ".join(cutData)

cloud = WordCloud(
 #设置字体,不指定可能会出现中文乱码
 font_path="msyh.ttf",
 #font_path=path.join(e,'xxx.ttc'),
 #设置背景色
 background_color='white',
 #词云形状
 #mask=color_mask,
 #允许最大词汇
 max_words=2000,
 #最大号字体
 max_font_size=40
 )

wc = cloud.generate(word)
wc.to_file("wooyunwordcloud.jpg") 
plt.imshow(wc)
plt.axis("off")
plt.show()

0x03 效果演示:

用python结合jieba和wordcloud实现词云效果

用python结合jieba和wordcloud实现词云效果

用python结合jieba和wordcloud实现词云效果

0x04 结语

由词云图可以看出,SQL注入依旧风光无限,其次是命令执行,继而是信息泄漏,整体看还是比较直观的。

Python 相关文章推荐
Python中列表(list)操作方法汇总
Aug 18 Python
在Python程序中进行文件读取和写入操作的教程
Apr 28 Python
小小聊天室Python代码实现
Aug 17 Python
代码讲解Python对Windows服务进行监控
Feb 11 Python
Python如何实现转换URL详解
Jul 02 Python
pandas 使用均值填充缺失值列的小技巧分享
Jul 04 Python
基于python cut和qcut的用法及区别详解
Nov 22 Python
python读写文件write和flush的实现方式
Feb 21 Python
基于Python数据分析之pandas统计分析
Mar 03 Python
python实现FTP文件传输的方法(服务器端和客户端)
Mar 20 Python
Python使用OpenPyXL处理Excel表格
Jul 02 Python
彻底解决pip下载pytorch慢的问题方法
Mar 01 Python
python基础_文件操作实现全文或单行替换的方法
Sep 04 #Python
python 生成器协程运算实例
Sep 04 #Python
python 文件操作删除某行的实例
Sep 04 #Python
Django数据库操作的实例(增删改查)
Sep 04 #Python
python中Matplotlib实现绘制3D图的示例代码
Sep 04 #Python
Python2实现的LED大数字显示效果示例
Sep 04 #Python
Python2随机数列生成器简单实例
Sep 04 #Python
You might like
mysql中存储过程、函数的一些问题
2007/02/14 PHP
Cakephp 执行主要流程
2010/03/24 PHP
php遍历目录输出目录及其下的所有文件示例
2014/01/27 PHP
CentOS 7.2 下编译安装PHP7.0.10+MySQL5.7.14+Nginx1.10.1的方法详解(mini版本)
2016/09/01 PHP
PHP 7安装使用体验之性能大提升,兼容性强,扩展支持不够(升级PHP要谨慎)
2017/07/27 PHP
js 通用javascript函数库整理
2011/08/14 Javascript
使用jquery 简单实现下拉菜单
2015/01/14 Javascript
jquery插件orbit.js实现图片折叠轮换特效
2015/04/14 Javascript
js实现温度计时间样式代码分享
2015/08/21 Javascript
jquery实现点击向下展开菜单项(伸缩导航)效果
2015/08/22 Javascript
使用OpenLayers3 添加地图鼠标右键菜单
2015/12/29 Javascript
如何使用Bootstrap的modal组件自定义alert,confirm和modal对话框
2016/03/01 Javascript
jQuery.ajax 跨域请求webapi设置headers的解决方案
2016/08/08 Javascript
jQuery扩展_动力节点Java学院整理
2017/07/05 jQuery
关于Google发布的JavaScript代码规范你要知道哪些
2018/04/04 Javascript
Nodejs实现的操作MongoDB数据库功能完整示例
2019/02/02 NodeJs
js获取对象,数组所有属性键值(key)和对应值(value)的方法示例
2019/06/19 Javascript
python笔记(1) 关于我们应不应该继续学习python
2012/10/24 Python
python不带重复的全排列代码
2013/08/13 Python
Python控制多进程与多线程并发数总结
2016/10/26 Python
python中安装模块包版本冲突问题的解决
2017/05/02 Python
python3之模块psutil系统性能信息使用
2018/05/30 Python
python opencv旋转图像(保持图像不被裁减)
2018/07/26 Python
如何为Python终端提供持久性历史记录
2019/09/03 Python
Python接口测试文件上传实例解析
2020/05/22 Python
Python爬虫防封ip的一些技巧
2020/08/06 Python
常用UNIX 命令(Linux的常用命令)
2015/12/26 面试题
销售业务实习自我鉴定
2013/09/23 职场文书
挑战杯创业计划书的写作指南
2014/01/07 职场文书
优秀教师先进事迹
2014/01/22 职场文书
入党自我评价优缺点
2014/01/25 职场文书
期终自我鉴定
2014/02/17 职场文书
介绍信如何写
2015/01/31 职场文书
保管员岗位职责
2015/02/14 职场文书
党章党规党纪学习心得体会
2016/01/14 职场文书
SQL基础查询和LINQ集成化查询
2022/01/18 MySQL