用python结合jieba和wordcloud实现词云效果


Posted in Python onSeptember 05, 2017

0x00 前言

突然想做一个漏洞词云,看看哪些漏洞比较高频,如果某些厂商有漏洞公开(比如ly),也好针对性挖掘。就选x云吧(镜像站 http://wy.hxsec.com/bugs.php )。用jieba和wordcloud两个强大的第三方库,就可以轻松打造出x云漏洞词云。

github地址: https://github.com/theLSA/wooyun_wordcloud

本站下载地址:wooyun_wordcloud

0x01 爬取标题

直接上代码:

#coding:utf-8
#Author:LSA
#Description:wordcloud for wooyun
#Date:20170904

import urllib
import urllib2
import re
import threading
import Queue

q0 = Queue.Queue()

threads = 20

threadList = []

def gettitle():
 while not q0.empty():

 i = q0.get()
 url = 'http://wy.hxsec.com/bugs.php?page=' + str(i)
 html = urllib.urlopen(url).read()
 reg = re.compile(r'<li style="width:60%;height:25px;background-color:#FFFFFF;float:left" ><a href=".*?" rel="external nofollow" >(.*?)</a>')
 titleList = re.findall(reg,html)
 fwy = open("wooyunBugTitle.txt","a")
 for title in titleList:
 fwy.write(title+'\n')
 fwy.flush()
 fwy.close()
 print 'Page ' + str(i) + ' over!'

def main():
 for page in range(1,2962):
 q0.put(page)
 for thread in range(threads):
 t = threading.Thread(target=gettitle)
 t.start()
 threadList.append(t)
 for th in threadList:
 th.join()

 print '***********************All pages over!**********************'

if __name__ == '__main__':
 main()

0x02 打造词云

还是直接上代码:

# coding: utf-8

import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt

data = open("wooyunBugTitle.txt","r").read()
cutData = jieba.cut(data, cut_all=True)
word = " ".join(cutData)

cloud = WordCloud(
 #设置字体,不指定可能会出现中文乱码
 font_path="msyh.ttf",
 #font_path=path.join(e,'xxx.ttc'),
 #设置背景色
 background_color='white',
 #词云形状
 #mask=color_mask,
 #允许最大词汇
 max_words=2000,
 #最大号字体
 max_font_size=40
 )

wc = cloud.generate(word)
wc.to_file("wooyunwordcloud.jpg") 
plt.imshow(wc)
plt.axis("off")
plt.show()

0x03 效果演示:

用python结合jieba和wordcloud实现词云效果

用python结合jieba和wordcloud实现词云效果

用python结合jieba和wordcloud实现词云效果

0x04 结语

由词云图可以看出,SQL注入依旧风光无限,其次是命令执行,继而是信息泄漏,整体看还是比较直观的。

Python 相关文章推荐
python距离测量的方法
Mar 06 Python
python实现两张图片的像素融合
Feb 23 Python
python 解决mysql where in 对列表(list,,array)问题
Jun 06 Python
Python Scrapy图片爬取原理及代码实例
Jun 12 Python
python实现数字炸弹游戏程序
Jul 17 Python
python识别验证码的思路及解决方案
Sep 13 Python
基于Python的身份证验证识别和数据处理详解
Nov 14 Python
python中remove函数的踩坑记录
Jan 04 Python
pandas DataFrame.shift()函数的具体使用
May 24 Python
Python数据类型最全知识总结
May 31 Python
python tqdm用法及实例详解
Jun 16 Python
Python道路车道线检测的实现
Jun 27 Python
python基础_文件操作实现全文或单行替换的方法
Sep 04 #Python
python 生成器协程运算实例
Sep 04 #Python
python 文件操作删除某行的实例
Sep 04 #Python
Django数据库操作的实例(增删改查)
Sep 04 #Python
python中Matplotlib实现绘制3D图的示例代码
Sep 04 #Python
Python2实现的LED大数字显示效果示例
Sep 04 #Python
Python2随机数列生成器简单实例
Sep 04 #Python
You might like
php 无限分类的树类代码
2009/12/03 PHP
Javascript中Eval函数的使用
2010/03/23 Javascript
深入理解JavaScript系列(31):设计模式之代理模式详解
2015/03/03 Javascript
20分钟轻松创建自己的Bootstrap站点
2016/05/12 Javascript
js自定义select下拉框美化特效
2016/05/12 Javascript
jQuery+ajax实现滚动到页面底部自动加载图文列表效果(类似图片懒加载)
2016/06/07 Javascript
Jquery和BigFileUpload实现大文件上传及进度条显示
2016/06/27 Javascript
Bootstrap源码解读下拉菜单(4)
2016/12/23 Javascript
微信小程序的生命周期的详解
2017/10/19 Javascript
webstorm+vue初始化项目的方法
2018/10/18 Javascript
微信小程序实现通过js操作wxml的wxss属性示例
2018/12/06 Javascript
小程序两种滚动公告栏的实现方法
2019/09/17 Javascript
在Koa.js中实现文件上传的接口功能
2019/10/08 Javascript
BootstrapValidator实现表单验证功能
2019/11/08 Javascript
JavaScript如何实现防止重复的网络请求的示例
2021/01/28 Javascript
[40:05]LGD vs Winstrike 2018国际邀请赛小组赛BO2 第二场 8.17
2018/08/18 DOTA
python基础教程之lambda表达式使用方法
2014/02/12 Python
Python读取mp3中ID3信息的方法
2015/03/05 Python
python实现字符串和日期相互转换的方法
2015/05/13 Python
Python绘制KS曲线的实现方法
2018/08/13 Python
解决pycharm工程启动卡住没反应的问题
2019/01/19 Python
纯CSS3发光分享按钮的实现教程
2014/09/06 HTML / CSS
美国性感女装网站:bebe
2017/03/04 全球购物
俄罗斯天然和有机产品、健康生活网上商店:Fitomarket.ru
2020/10/09 全球购物
如何在C# winform中异步调用web services
2015/09/21 面试题
优秀毕业大学生推荐信
2013/11/13 职场文书
工厂门卫岗位职责
2013/11/25 职场文书
教师节活动主持词
2014/04/02 职场文书
融资租赁计划书
2014/04/29 职场文书
法定代表人资格证明书
2014/09/11 职场文书
党的群众路线对照检查材料思想汇报(学校)
2014/10/04 职场文书
2014年安全生产工作总结
2014/11/13 职场文书
2014年乡镇卫生院工作总结
2014/11/24 职场文书
行政司机岗位职责
2015/04/10 职场文书
《百分数的认识》教学反思
2016/02/19 职场文书
OpenCV-Python实现图像平滑处理操作
2021/06/08 Python