编程 Python

python实现web邮箱扫描的示例(附源码)

Posted in Python onMarch 30, 2021

信息收集是进行渗透测试的关键部分，掌握大量的信息对于攻击者来说是一件非常重要的事情，比如，我们知道一个服务器的版本信息，我们就可以利用该服务器框架的相关漏洞对该服务器进行测试。那么如果我们掌握了该服务器的管理员的邮箱地址，我们就可以展开一个钓鱼攻击。所以，对web站点进行邮箱扫描，是进行钓鱼攻击的一种前提条件。

下面，我们利用python脚本来实现一个web站点的邮箱扫描爬取。目的是在实现这个脚本的过程中对python进行学习

最后有完整代码

基本思路

我们向工具传入目标站点之后，首先要对输入进行一个基本的检查和分析，因为我们会可能会传入各种样式的地址，比如http://www.xxxx.com/、http://www.xxxx.com/123/456/789.html等等，我们需要对其进行简单的拆分，以便于后面链接的爬取
通过requests库爬取目标地址的内容，并且在内容通过正则表达式中寻找邮箱地址
查找爬取的网站中的超链接，通过这些超链接我们就能进入到该站点的另外一个页面继续寻找我们想要的邮箱地址。
开工：

该脚本所需要的一些库

from bs4 import BeautifulSoup #BeautifulSoup最主要的功能是从网页抓取数据，Beautiful Soup自动将输入文档转换为Unicode编码
import requests #requests是python实现的最简单易用的HTTP库
import requests.exceptions
import urllib.parse
from collections import deque #deque 是一个双端队列, 如果要经常从两端append 的数据, 选择这个数据结构就比较好了, 如果要实现随机访问,不建议用这个,请用列表. 
import re #是一个正则表达式的库

获取扫描目标

user_url=str(input('[+] Enter Target URL to Scan:'))
urls =deque([user_url]) #把目标地址放入deque对象列表

scraped_urls= set()#set() 函数创建一个无序不重复元素集，可进行关系测试，删除重复数据，还可以计算交集、差集、并集等。
emails = set()

对网页进行邮箱地址爬取（100条）

首先要对目标地址进行分析，拆分目标地址的协议，域名以及路径。然后利用requests的get方法访问网页，通过正则表达式过滤出是邮箱地址的内容。'[a-z0-0.-+]+@[a-z0-9.-+]+.[a-z]+'，符合邮箱格式的内容就进行收录。

count=0
try:
  while len(urls):  #如果urls有长度的话进行循环
    count += 1		#添加计数器来记录爬取链接的条数 
    if count ==101:
      break
    url = urls.popleft() #popleft（）会删除urls里左边第一条数据并传给url
    scraped_urls.add(url)

    parts = urllib.parse.urlsplit(url) # 打印 parts会显示：SplitResult(scheme='http', netloc='www.baidu.com', path='', query='', fragment='')
    base_url = '{0.scheme}://{0.netloc}'.format(parts)#scheme：协议；netloc：域名 

    path = url[:url.rfind('/')+1] if '/' in parts.path else url#提取路径
    print('[%d] Processing %s' % (count,url))
   
    try:
      head = {'User-Agent':"Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11"}
      response = requests.get(url,headers = head)
    except(requests.exceptions.MissingSchema,requests.exceptions.ConnectionError):
      continue
    new_emails = set(re.findall(r'[a-z0-0\.\-+_]+@[a-z0-9\.\-+_]+\.[a-z]+', response.text ,re.I))#通过正则表达式从获取的网页中提取邮箱，re.I表示忽略大小写
    emails.update(new_emails)#将获取的邮箱地址存在emalis中。

通过锚点进入下一网页继续搜索

soup = BeautifulSoup(response.text, features='lxml')

    for anchor in soup.find_all('a'):  #寻找锚点。在html中，<a>标签代表一个超链接，herf属性就是链接地址
      link = anchor.attrs['href'] if 'href' in anchor.attrs else '' #如果，我们找到一个超链接标签，并且该标签有herf属性，那么herf后面的地址就是我们需要锚点链接。
      if link.startswith('/'):#如果该链接以/开头，那它只是一个路径，我们就需要加上协议和域名，base_url就是刚才分离出来的协议+域名
        link = base_url + link
      elif not link.startswith('http'):#如果不是以/和http开头的话，就要加上路径。
        link =path + link
      if not link in urls and not link in scraped_urls:#如果该链接在之前没还有被收录的话，就把该链接进行收录。
        urls.append(link)
except KeyboardInterrupt:
  print('[+] Closing')

for mail in emails:
  print(mail)

完整代码

from bs4 import BeautifulSoup
import requests
import requests.exceptions
import urllib.parse
from collections import deque
import re

user_url=str(input('[+] Enter Target URL to Scan:'))
urls =deque([user_url])

scraped_urls= set()
emails = set()


count=0
try:
  while len(urls):
    count += 1
    if count ==100:
      break
    url = urls.popleft()
    scraped_urls.add(url)

    parts = urllib.parse.urlsplit(url)
    base_url = '{0.scheme}://{0.netloc}'.format(parts)

    path = url[:url.rfind('/')+1] if '/' in parts.path else url

    print('[%d] Processing %s' % (count,url))
    try:
      head = {'User-Agent':"Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11"}
      response = requests.get(url,headers = head)
    except(requests.exceptions.MissingSchema,requests.exceptions.ConnectionError):
      continue
    new_emails = set(re.findall(r'[a-z0-0\.\-+_]+@[a-z0-9\.\-+_]+\.[a-z]+', response.text ,re.I))
    emails.update(new_emails)

    soup = BeautifulSoup(response.text, features='lxml')

    for anchor in soup.find_all('a'):
      link = anchor.attrs['href'] if 'href' in anchor.attrs else ''
      if link.startswith('/'):
        link = base_url + link
      elif not link.startswith('http'):
        link =path + link
      if not link in urls and not link in scraped_urls:
        urls.append(link)
except KeyboardInterrupt:
  print('[+] Closing')

for mail in emails:
  print(mail)

实验………………

python实现web邮箱扫描的示例(附源码)

以上就是python实现web邮箱扫描的示例(附源码)的详细内容，更多关于python web邮箱扫描的资料请关注三水点靠木其它相关文章！

python实现web邮箱扫描的示例(附源码)

- Author -

Giopi

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python类参数self使用示例

Feb 17 Python

深入探究Python中变量的拷贝和作用域问题

May 05 Python

Python脚本文件打包成可执行文件的方法

Jun 02 Python

python简单实现计算过期时间的方法

Jun 09 Python

Ubuntu 下 vim 搭建python 环境配置

Jun 12 Python

Flask框架实现给视图函数增加装饰器操作示例

Jul 16 Python

python3调用百度翻译API实现实时翻译

Aug 16 Python

Python Pandas批量读取csv文件到dataframe的方法

Oct 08 Python

python调用其他文件函数或类的示例

Jul 16 Python

python爬虫开发之Request模块从安装到详细使用方法与实例全解

Mar 09 Python

Python-jenkins模块之folder相关操作介绍

May 12 Python

详解Python GUI编程之PyQt5入门到实战

Dec 10 Python

python函数指定默认值的实例讲解

Mar 29 #Python

pytest进阶教程之fixture函数详解

python中pandas.read_csv()函数的深入讲解

Mar 29 #Python

python编写函数注意事项总结

Mar 29 #Python

python基于tkinter制作无损音乐下载工具

Python requests库参数提交的注意事项总结

Python爬虫爬取全球疫情数据并存储到mysql数据库的步骤

You might like

php 服务器调试 Zend Debugger 的安装教程

2009/09/25 PHP

PHP开发中四种查询返回结果分析

2011/01/02 PHP

解析PHP工厂模式的好处

2013/06/18 PHP

PHP过滤★等特殊符号的正则

2014/01/27 PHP

php中smarty模板条件判断用法实例

2015/06/11 PHP

PHP简单判断手机设备的方法

2016/08/23 PHP

Jquery AutoComplete自动完成的使用方法实例

2010/03/19 Javascript

FileUpload上传图片(图片不变形)

2010/08/05 Javascript

Js日期选择自动填充到输入框(界面漂亮兼容火狐)

2013/08/02 Javascript

关闭浏览器输入框自动补齐兼容IE,FF,Chrome等主流浏览器

2014/02/11 Javascript

基于javascript的COOkie的操作实现只能点一次

2014/12/26 Javascript

JavaScript模拟重力状态下抛物运动的方法

2015/03/03 Javascript

JS实现双击屏幕滚动效果代码

2015/10/28 Javascript

谈一谈JS消息机制和事件机制的理解

2016/04/14 Javascript

jQuery实现的tab标签切换效果示例

2016/09/05 Javascript

AngularJS出现$http异步后台无法获取请求参数问题的解决方法

2016/11/03 Javascript

详解Angular.js的$q.defer()服务异步处理

2016/11/06 Javascript

Javascript 实现匿名递归的实例代码

2017/05/25 Javascript

jQuery+koa2实现简单的Ajax请求的示例

2018/03/06 jQuery

Vue中保存数据到磁盘文件的方法

2018/09/06 Javascript

vue使用echarts图表的详细方法

2018/10/22 Javascript

解决vue单页面应用进入页面加载所有 js 的问题

2020/08/12 Javascript

[41:37]DOTA2北京网鱼队选拔赛——冲击职业之路

2015/04/13 DOTA

python中管道用法入门实例

2015/06/04 Python

使用pyecharts在jupyter notebook上绘图

2020/04/23 Python

python Web开发你要理解的WSGI & uwsgi详解

2018/08/01 Python

JAVA及PYTHON质数计算代码对比解析

2020/06/10 Python

学python最电脑配置有要求么

2020/07/05 Python

GMP办公室主任岗位职责

2014/03/14 职场文书

六查六看自查报告

2014/10/14 职场文书

2014年工会工作总结

2014/11/12 职场文书

学雷锋广播稿大全

2015/08/19 职场文书

2016年幼儿园教师政治学习心得体会

2016/01/23 职场文书

tensorflow中的梯度求解及梯度裁剪操作

2021/05/26 Python

浅谈MySQL之select优化方案

2021/08/07 MySQL

CSS实现五种常用的2D转换

2021/12/06 HTML / CSS