编程 Python

Python实现短网址ShortUrl的Hash运算实例讲解

Posted in Python onAugust 10, 2015

本文实例讲述了Python实现短网址ShortUrl的Hash运算方法。分享给大家供大家参考。具体如下：

shorturl实现常见的做法都是将原始Url存储到数据库，由数据库返回一个对应ID。

以下要实现的是不用数据库支持就对原始URL进行shorturl hash。说到这里我们很容易想到MD5，固定长度，冲突概率小，但是32个字符，太长？我们以MD5为基础，将其字符缩短，同时要保证一定数量范围内hash不会冲突。

我们分成两个步骤来实现。

第一步算法：

① 将长网址用md5算法生成32位签名串，分为4段,，每段8个字符；
② 对这4段循环处理，取每段的8个字符, 将他看成16进制字符串与0x3fffffff(30位1)的位与操作，超过30位的忽略处理；
③ 将每段得到的这30位又分成6段，每5位的数字作为字母表的索引取得特定字符，依次进行获得6位字符串；
④ 这样一个md5字符串可以获得4个6位串，取里面的任意一个就可作为这个长url的短url地址。
（出现重复的几率大约是n/(32^6) 也就是n/1,073,741,824，其中n是数据库中记录的条数）

我们就得到了4个6位串，可是选哪个作为最终的hash结果呢，随机选肯定是不行的，同样的url两次hash就会得出不同的结果。接下来根据原始url的特征进行选择，并且将hash冲突的可能性控制在同一个domain内：

第二步算法：

①从原始url中提取域名，提取数字（最多后6位）；
②将所得的数字与4取模，根据所得的余数决定从第一步算法中得到的4个shorturl中选取哪一个；
③从域名中提取特征串：一级域名中的第一个字符和后面二个辅音（如果辅音不足2个取任意前两个）；
④域名特征串和选定的shorturl拼接成9位字符为最终的shorturl；
（后两个步骤是将冲突控制在一个domain内）

ShortUrl.py

#encoding:utf-8
__author__ = 'James Lau'
import hashlib
import re
def __original_shorturl(url):
  '''
  算法：
  ① 将长网址用md5算法生成32位签名串，分为4段,，每段8个字符；
  ② 对这4段循环处理，取每段的8个字符, 将他看成16进制字符串与0x3fffffff(30位1)的位与操作，超过30位的忽略处理；
  ③ 将每段得到的这30位又分成6段，每5位的数字作为字母表的索引取得特定字符，依次进行获得6位字符串；
  ④ 这样一个md5字符串可以获得4个6位串，取里面的任意一个就可作为这个长url的短url地址。
  （出现重复的几率大约是n/(32^6) 也就是n/1,073,741,824，其中n是数据库中记录的条数）
  '''
  base32 = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h',
       'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p',
       'q', 'r', 's', 't', 'u', 'v', 'w', 'x',
       'y', 'z',
       '0', '1', '2', '3', '4', '5'
  ]
  m = hashlib.md5()
  m.update(url)
  hexStr = m.hexdigest()
  hexStrLen = len(hexStr)
  subHexLen = hexStrLen / 8
  output = []
  for i in range(0,subHexLen):
    subHex = '0x'+hexStr[i*8:(i+1)*8]
    res = 0x3FFFFFFF & int(subHex,16)
    out = ''
    for j in range(6):
      val = 0x0000001F & res
      out += (base32[val])
      res = res >> 5
    output.append(out)
  return output
def shorturl(url):
  '''
  算法：
  ①从原始url中提取域名，提取数字（最多后6位）；
  ②将所得的数字与4取模，根据所得的余数决定从第一步算法中得到的4个shorturl中选取哪一个；
  ③从域名中提取特征串：一级域名中的第一个字符和后面二个辅音（如果辅音不足2个取任意前两个）；
  ④域名特征串和选定的shorturl拼接成9位字符为最终的shorturl；
  （后两个步骤是将冲突控制在一个domain内）
  '''
  match_full_domain_regex = re.compile(u'^https?:\/\/(([a-zA-Z0-9_\-\.]+[a-zA-Z0-9_\-]+\.[a-zA-Z]+)|([a-zA-Z0-9_\-]+\.[a-zA-Z]+)).*$')
  match_full_domain = match_full_domain_regex.match(url)
  if match_full_domain is not None:
    full_domain = match_full_domain.group(1)
  else:
    return None
  not_numeric_regex = re.compile(u'[^\d]+')
  numeric_string = not_numeric_regex.sub(r'',url)
  if numeric_string is None or numeric_string=='':
    numeric_string = '0'
  else:
    numeric_string = numeric_string[-6:]
  domainArr = full_domain.split('.')
  domain = domainArr[1] if len(domainArr)==3 else domainArr[0]
  vowels = 'aeiou0-9'
  if len(domain)<=3:
    prefix = domain
  else:
    prefix = re.compile(u'[%s]+'%vowels).sub(r'',domain[1:])
    prefix = '%s%s'%(domain[0],prefix[:2]) if len(prefix)>=2 else domain[0:3]
  t_shorturl = __original_shorturl(url)
  t_choose = int(numeric_string)%4
  result = '%s%s'%(prefix,t_shorturl[t_choose])
  return result

希望本文所述对大家的Python程序设计有所帮助。

Python实现短网址ShortUrl的Hash运算实例讲解

- Author -

水熊宝宝

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python操作xml文件示例

Apr 07 Python

浅谈Python里面小数点精度的控制

Jul 16 Python

python特性语法之遍历、公共方法、引用

Aug 08 Python

python递归法实现简易连连看小游戏

Mar 25 Python

Django项目后台不挂断运行的方法

Aug 31 Python

window7下的python2.7版本和python3.5版本的opencv-python安装过程

Oct 24 Python

python调用接口的4种方式代码实例

Nov 19 Python

Python3操作YAML文件格式方法解析

Apr 10 Python

python使用hdfs3模块对hdfs进行操作详解

Jun 06 Python

python Matplotlib数据可视化（2）：详解三大容器对象与常用设置

Sep 30 Python

python实现PolynomialFeatures多项式的方法

Jan 06 Python

Python利用capstone实现反汇编

Apr 06 Python

python实现web方式logview的方法

Aug 10 #Python

python实现JAVA源代码从ANSI到UTF-8的批量转换方法

Aug 10 #Python

python用10行代码实现对黄色图片的检测功能

Aug 10 #Python

详解Python中dict与set的使用

Aug 10 #Python

分析并输出Python代码依赖的库的实现代码

Aug 09 #Python

python根据京东商品url获取产品价格

Aug 09 #Python

python制作一个桌面便签软件

Aug 09 #Python

You might like

动画《Pokemon Sword·Shield》系列WEB动画《薄明之翼》第2话声优阵容公开！

2020/03/06 日漫

PHP开发入门教程之面向对象

2006/12/05 PHP

ThinkPHP的RBAC(基于角色权限控制)深入解析

2013/06/17 PHP

php递归删除目录下的文件但保留的实例分享

2014/05/10 PHP

PHP实现懒加载的方法

2015/03/07 PHP

Redis使用Eval多个键值自增的操作实例

2016/11/04 PHP

php实现微信扫码支付

2017/03/26 PHP

用js实现计算代码行数的简单方法附代码

2007/08/13 Javascript

JQuery Tips(4) 一些关于提高JQuery性能的Tips

2009/12/19 Javascript

理解Javascript_08_函数对象

2010/10/15 Javascript

javascript object array方法使用详解

2012/12/03 Javascript

JS获取图片实际宽高及根据图片大小进行自适应

2013/08/11 Javascript

JSuggest自动匹配下拉框使用方法(示例代码)

2013/12/27 Javascript

一个判断抢购时间是否到达的简单的js函数

2014/06/23 Javascript

原生javascript实现addClass,removeClass,hasClass函数

2016/02/25 Javascript

浅谈JavaScript中小数和大整数的精度丢失

2016/05/31 Javascript

Angularjs中$http以post请求通过消息体传递参数的实现方法

2016/08/05 Javascript

对Angular.js Controller如何进行单元测试

2016/10/25 Javascript

教你用十行node.js代码读取docx的文本

2017/03/08 Javascript

详解Nodejs之静态资源处理

2017/06/05 NodeJs

详解Vue.use自定义自己的全局组件

2017/06/14 Javascript

基于Vue生产环境部署详解

2017/09/15 Javascript

javaScript动态添加Li元素的实例

2018/02/24 Javascript

使用VueCli3+TypeScript+Vuex一步步构建todoList的方法

2019/07/25 Javascript

ES2020 新特性(种草)

2020/01/12 Javascript

[00:43]TI7不朽珍藏III——幽鬼不朽展示

2017/07/15 DOTA

由Python运算π的值深入Python中科学计算的实现

2015/04/17 Python

python实现一个点绕另一个点旋转后的坐标

2019/12/04 Python

Python3.x+迅雷x 自动下载高分电影的实现方法

2020/01/12 Python

解决Tensorflow 使用时cpu编译不支持警告的问题

2020/02/03 Python

python模块如何查看

2020/06/16 Python

python连接mongodb数据库操作数据示例

2020/11/30 Python

幼儿园安全工作总结2015

2015/04/20 职场文书

专项资金申请报告

2015/05/15 职场文书

Pyhton模块和包相关知识总结

2021/05/12 Python

java项目构建Gradle的使用教程

2022/03/24 Java/Android