python爬虫_自动获取seebug的poc实例


Posted in Python onAugust 05, 2017

简单的写了一个爬取www.seebug.org上poc的小玩意儿~

首先我们进行一定的抓包分析

我们遇到的第一个问题就是seebug需要登录才能进行下载,这个很好处理,只需要抓取返回值200的页面,将我们的headers信息复制下来就行了

(这里我就不放上我的headers信息了,不过headers里需要修改和注意的内容会在下文讲清楚)

headers = {
 'Host':******,
 'Connection':'close',
 'Accept':******,
 'User-Agent':******,
 'Referer':'https://www.seebug.org/vuldb/ssvid-',
 'Accept-Language':'zh-CN,zh;q=0.8',
 'Cookie':***********
}

由上所知,我们的中点就是referer这一项,是我们后面要进行修改的

那么怎么去修改这个呢?

我先进行点击下载链接抓包发现,seebug的poc下载链接特别的整齐:

'https://www.seebug.org/vuldb/downloadPoc/xxxxx',

后面只需要加上一个五位数就行,而且五位数是连号的哦!

这就一目了然,我更改了五位数再次进行请求时发现,并没有返回美丽的200状态码,瞄了一眼header,发现了referer这一项:

'Referer':'https://www.seebug.org/vuldb/ssvid-xxxxx'

也就是说referer这一项的五位数字也要随之变化,这样我们的get请求头部就完成了

接下来是线程的问题

使用了queue和threading进行多线程处理,发现我们不能图快,不然会被反爬虫发现

于是导入time增加time.sleep(1),能有一秒的休眠就行了,线程数给了2个(这样看来好像线程的意义并不大,不过也就这么写啦)

# coding=utf-8

import requests
import threading
import Queueimport time 

headers = {
   ******
  }
url_download = 'https://www.seebug.org/vuldb/downloadPoc/'

class SeeBugPoc(threading.Thread):
 def __init__(self,queue):
  threading.Thread.__init__(self)
  self._queue = queue

 def run(self):
  while not self._queue.empty():
   url_download = self._queue.get_nowait()
   self.download_file(url_download)


 def download_file(self,url_download):
  r = requests.get(url = url_download,headers = headers)
  print r.status_code
  name = url_download.split('/')[-1]
  print name 
  if r.status_code == 200:
   f = open('E:/poc/'+name+'.txt','w')
   f.write(r.content)
   f.close()
   print 'it ok!'
  else:
   print 'what fuck !'
  time.sleep(1)
'''
 def get_html(self,url):

  r = requests.get(url = url,headers = headers)
  print r.status_code
  print time.time()
'''


def main():
 queue = Queue.Queue()
 for i in range(93000,93236):
  headers['Referer'] = 'https://www.seebug.org/vuldb/ssvid-'+str(i)
  queue.put('https://www.seebug.org/vuldb/downloadPoc/'+str(i))


  #queue用来存放设计好的url,将他们放入一个队列中,以便后面取用

 threads = []
 thread_count = 2
 for i in range(thread_count):
  threads.append(SeeBugPoc(queue))

 for i in threads:
  i.start()

 for i in threads:
  i.join()

if __name__ == '__main__':
 main()

代码如上

控制下载的range()中的两个五位数,大家只要去seebug库中找一找想要扫描的库的开头和结尾编码的五位数就行了(也就是他们的编号)

关于返回的状态码,如果项目不提供poc下载、poc下载不存在、poc需要兑换币才能下载,就不能够返回正常的200啦(非正常:404/403/521等)

当然,如果一直出现521,可以考虑刷新网页重新获取header并修改代码

最后进行一个状态码的判断,并且将200的文件写出来就好了
 

表示惭愧感觉自己写的很简单

如果大家发现错误或者有疑惑可以留言讨论哦

以上这篇python爬虫_自动获取seebug的poc实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
简单讲解Python编程中namedtuple类的用法
Jun 21 Python
使用Python对Access读写操作
Mar 30 Python
Python生成随机数组的方法小结
Apr 15 Python
Python3实现抓取javascript动态生成的html网页功能示例
Aug 22 Python
Python人脸识别第三方库face_recognition接口说明文档
May 03 Python
python opencv调用笔记本摄像头
Aug 28 Python
python 调试冷知识(小结)
Nov 11 Python
Python魔法方法 容器部方法详解
Jan 02 Python
Python+OpenCV图像处理—— 色彩空间转换
Oct 22 Python
详解matplotlib中pyplot和面向对象两种绘图模式之间的关系
Jan 22 Python
python geopandas读取、创建shapefile文件的方法
Jun 29 Python
Python捕获、播放和保存摄像头视频并提高视频清晰度和对比度
Apr 14 Python
python中的break、continue、exit()、pass全面解析
Aug 05 #Python
Python基于递归算法实现的走迷宫问题
Aug 04 #Python
Python实现的科学计算器功能示例
Aug 04 #Python
Python中用字符串调用函数或方法示例代码
Aug 04 #Python
Python编程实现的图片识别功能示例
Aug 03 #Python
详解python实现读取邮件数据并下载附件的实例
Aug 03 #Python
详解 Python中LEGB和闭包及装饰器
Aug 03 #Python
You might like
php错误级别的设置方法
2013/06/17 PHP
浅析php单例模式
2014/11/25 PHP
PHP实现原比例生成缩略图的方法
2016/02/03 PHP
基于php数组中的索引数组和关联数组详解
2018/03/12 PHP
javascript多种数据类型表格排序代码分析
2010/09/11 Javascript
js的匿名函数使用介绍
2013/12/11 Javascript
jquery修改网页背景颜色通过css方法实现
2014/06/06 Javascript
深入探讨javascript中的数据类型
2015/03/04 Javascript
浅谈javascript的Touch事件
2015/09/27 Javascript
javascript实现tab切换特效
2015/11/12 Javascript
jquery淡入淡出效果简单实例
2016/01/14 Javascript
js判断鼠标位置是否在某个div中的方法
2016/02/26 Javascript
Jquery中map函数的用法
2016/06/03 Javascript
深入理解JS DOM事件机制
2016/08/06 Javascript
js原生实现FastClick事件的实例
2016/11/20 Javascript
BootStrap Table 设置height表头与内容无法对齐的问题
2016/12/28 Javascript
Vue.js事件处理器与表单控件绑定详解
2017/03/20 Javascript
js将URL网址转为16进制加密与解密函数
2020/03/04 Javascript
更改Ubuntu默认python版本的两种方法python-> Anaconda
2016/12/18 Python
Python基于回溯法子集树模板实现8皇后问题
2017/09/01 Python
Django migrations 默认目录修改的方法教程
2018/09/28 Python
python 将列表中的字符串连接成一个长路径的方法
2018/10/23 Python
windows环境中利用celery实现简单任务队列过程解析
2019/11/29 Python
Python搭建Keras CNN模型破解网站验证码的实现
2020/04/07 Python
django queryset相加和筛选教程
2020/05/18 Python
HTML5中的拖放实现详解
2017/08/23 HTML / CSS
竞聘书模板
2014/03/31 职场文书
结婚保证书范文
2014/04/29 职场文书
解除劳动关系协议书范文
2014/09/11 职场文书
出租房屋协议书
2014/09/14 职场文书
党的群众路线教育实践活动领导班子整改方案
2014/10/25 职场文书
华山导游词
2015/02/03 职场文书
小学班主任教育随笔
2015/08/15 职场文书
2016关于军训的心得体会
2016/01/11 职场文书
委托书范本格式
2019/04/18 职场文书
gojs实现蚂蚁线动画效果
2022/02/18 Javascript