编程 Python

python验证码识别教程之滑动验证码

Posted in Python onJune 04, 2018

前言

上篇文章记录了2种分割验证码的方法，此外还有一种叫做”滴水算法”(Drop Fall Algorithm)的方法，但本人智商原因看这个算法看的云里雾里的，所以今天记录滑动验证码的处理吧。网上据说有大神已经破解了滑动验证码的算法，可以不使用selenium来破解，但本人能力不足还是使用笨方法吧。

基础原理很简单，首先点击验证码按钮后的图片是滑动后的完整结果，点击一下滑块后会出现拼图，对这2个分别截图后比较像素值来找出滑动距离，并结合selenium来实现拖拽效果。

至于selenium怎么安装就不说了，滑动验证码的一个难点就是要模拟人的拖拽行为，移动快了不行，慢了也不行。

这里以国家企业公示网站为例：

# -*- coding: utf-8 -*-
import time
import random
from io import BytesIO
from PIL import Image
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver import ActionChains
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC


class Slide(object):
 """滑动验证码破解"""

 def __init__(self, target):
 self.target = target # 要搜索的公司名称
 self.driver = webdriver.Chrome()
 self.wait = WebDriverWait(self.driver, 10)

 def crop(self, left, top, right, bottom, pic_name):
 """截屏并裁剪"""
 ss = Image.open(BytesIO(self.driver.get_screenshot_as_png()))
 cp = ss.crop((left, top, right, bottom)) # 注意这里顺序
 cp.save(pic_name)
 return cp

 def calc_move(self, pic1, pic2):
 """根据阈值计算移动距离"""
 pix1 = pic1.load()
 pix2 = pic2.load()
 threshold = 200
 move = 0
 # 因为滑块都从左向右滑动，而碎片本身宽度为60所以从60开始遍历
 for i in range(60, pic1.size[0]):
  flag = False
  for j in range(pic1.size[1]):
  r = abs(pix1[i, j][0] - pix2[i, j][0])
  g = abs(pix1[i, j][1] - pix2[i, j][1])
  b = abs(pix1[i, j][2] - pix2[i, j][2])
  # if r > threshold and g > threshold and b > threshold:
  # 方法1：分别判断rgb大于阈值
  # flag = True
  # break
  if r + g + b > threshold:
   # 方法2：判断rgb总和跟阈值比较，效果比1好 为什么呢？？
   flag = True
   break
  if flag:
  move = i
  break
 return move

 def path1(self, distance):
 """绘制移动路径方法1，构造一个等比数列"""
 q = 0.4 # 测试后发现0.4效果最佳
 n = 10 # 最多移动几次
 a1 = ((1 - q) * distance) / (1 - q**n)
 result = []
 for o in range(1, n + 1):
  an = a1 * q**(o - 1)
  if an < 0.1: # 小于移动阈值的就不要了
  break
  t = random.uniform(0, 0.5) # 测试后0.5秒的间隔成功率最高
  result.append([an, 0, t])
 return result

 def path2(self, distance):
 """绘制移动路径方法2,模拟物理加速、减速运动，效果比1好"""
 result = []
 current = 0
 # 减速阈值
 mid = distance * 4 / 5
 # 计算间隔
 t = 0.2
 # 初速度
 v = 0
 while current < (distance - 10):
  if current < mid:
  # 加速度为正2
  a = 2
  else:
  # 加速度为负3
  a = -3
  # 初速度v0
  v0 = v
  # 当前速度v = v0 + at
  v = v0 + a * t
  # 移动距离x = v0t + 1/2 * a * t^2
  move = v0 * t + 0.5 * a * t * t
  # 当前位移
  current += move
  # 加入轨迹
  result.append([round(move), 0, random.uniform(0, 0.5)])
 return result

 def run(self):
 self.driver.get("http://www.gsxt.gov.cn/index")
 input_box = self.driver.find_element_by_id('keyword')
 input_box.send_keys(self.target)
 search_btn = self.driver.find_element_by_id('btn_query')
 time.sleep(3) # 注意这里等一下再点，否则会出现卡死现象
 search_btn.click()
 # 等待验证码弹出
 bg_pic = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME,
         "gt_cut_fullbg")))
 # html中坐标原点是左上角，右为x轴正方向，下为y轴正方向
 # 输出的x为正就是此元素距离屏幕左侧距离
 # 输出的y为正就是此元素距离屏幕上侧距离
 # 所以我们需要截图的四个距离如下：
 top, bottom, left, right = (
  bg_pic.location['y'], bg_pic.location['y'] + bg_pic.size['height'],
  bg_pic.location['x'], bg_pic.location['x'] + bg_pic.size['width'])
 time.sleep(1)
 cp1 = self.crop(left, top, right, bottom, '1.png')

 # 获取滑块按钮并点击一下
 slide = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME,
        "gt_slider_knob")))
 slide.click()
 time.sleep(3) # 等3秒报错信息消失 TODO 这里应该可以改进
 cp2 = self.crop(left, top, right, bottom, '2.png')
 move = self.calc_move(cp1, cp2)

 result = self.path1(move)
 # result = self.path2(move)

 # 拖动滑块
 ActionChains(self.driver).click_and_hold(slide).perform()
 for x in result:
  ActionChains(self.driver).move_by_offset(xoffset=x[0],yoffset=x[1]).perform()
  # ActionChains(driver).move_to_element_with_offset(to_element=slide,xoffset=x[0],yoffset=x[1]).perform()
  time.sleep(x[-1]) # 如果使用方法1则需要sleep
 time.sleep(0.5)
 ActionChains(self.driver).release(slide).perform() # 释放按钮

 time.sleep(0.8)
 element = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME, "gt_info_text")))
 ans = element.text
 if u"通过" in ans:
  # 这里也需要等一下才能获取到具体的链接
  element = self.wait.until(EC.presence_of_all_elements_located((By.CLASS_NAME, "search_list_item")))
  for o in self.driver.find_elements_by_xpath(u"//a[@target='_blank']"):
  print(o.get_attribute("href"))
  self.driver.quit()
 else:
  print("识别失败")
  self.driver.quit()


if __name__ == '__main__':
 s = Slide('中国平安')
 s.run()

代码中注释很详细就不多说了，如果运行时候提示

selenium.common.exceptions.WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see https://sites.google.com/a/chromium.org/chromedriver/home

则需要到 https://sites.google.com/a/chromium.org/chromedriver/home 下载驱动后解压到/usr/local/bin目录即可。
使用服务器运行时使用phantomjs替换chrome，另外失败的时候可以进行判断自动重试，有兴趣的小伙伴可以自己补充完善。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，如果有疑问大家可以留言交流，谢谢大家对三水点靠木的支持。

python验证码识别教程之滑动验证码

- Author -

Hi!Roy!

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

举例讲解Python程序与系统shell交互的方式

Apr 09 Python

Python中__new__与__init__方法的区别详解

May 04 Python

100行python代码实现跳一跳辅助程序

Jan 15 Python

pytorch 转换矩阵的维数位置方法

Dec 08 Python

浅谈Python 多进程默认不能共享全局变量的问题

Jan 11 Python

Python 抓取微信公众号账号信息的方法

Jun 14 Python

详解如何减少python内存的消耗

Aug 09 Python

python encrypt 实现AES加密的实例详解

Feb 20 Python

python实现控制台输出彩色字体

Apr 05 Python

Python 分布式缓存之Reids数据类型操作详解

Jun 24 Python

用python制作个音乐下载器

Jan 30 Python

pyqt5打包成exe可执行文件的方法

May 14 Python

python验证码识别教程之利用投影法、连通域法分割图片

Jun 04 #Python

python验证码识别教程之灰度处理、二值化、降噪与tesserocr识别

Jun 04 #Python

实用自动化运维Python脚本分享

Jun 04 #Python

python中验证码连通域分割的方法详解

Jun 04 #Python

python 匹配url中是否存在IP地址的方法

Jun 04 #Python

Python实现ping指定IP的示例

Jun 04 #Python

用Python3创建httpServer的简单方法

Jun 04 #Python

You might like

php中FTP函数ftp_connect、ftp_login与ftp_chmod用法

2014/11/18 PHP

基于php实现的验证码小程序

2016/12/13 PHP

PHP验证类的封装与使用方法详解

2019/01/10 PHP

JQuery 插件制作实践 xMarquee插件V1.0

2010/04/02 Javascript

jQuery之尺寸调整组件的深入解析

2013/06/19 Javascript

jQuery.extend()的实现方式详解及实例

2013/06/29 Javascript

jquery购物车实时结算特效实现思路

2013/09/23 Javascript

jquery cookie的用法总结

2013/11/18 Javascript

jQuery插件实现文字无缝向上滚动效果代码

2016/02/25 Javascript

Vue.js使用v-show和v-if的注意事项

2016/12/13 Javascript

JavaScript中日常收集常见的10种错误(推荐)

2017/01/08 Javascript

利用Vue构造器创建Form组件的通用解决方法

2018/12/03 Javascript

jQuery实现的卷帘门滑入滑出效果【案例】

2019/02/18 jQuery

Electron vue的使用教程图文详解

2019/07/05 Javascript

javascript严格模式详解（含严格模式与非严格模式的区别）

2019/11/12 Javascript

对vuex中store和$store的区别说明

2020/07/24 Javascript

用Python实现一个简单的能够发送带附件的邮件程序的教程

2015/04/08 Python

win10系统中安装scrapy-1.1

2016/07/03 Python

Python爬虫中urllib库的进阶学习

2018/01/05 Python

python实现朴素贝叶斯分类器

2018/03/28 Python

python接口自动化（十七）--Json 数据处理---一次爬坑记（详解）

2019/04/18 Python

python3的UnicodeDecodeError解决方法

2019/12/20 Python

CSS3实现王者匹配时的粒子动画效果

2019/04/12 HTML / CSS

美国学校用品、教室和教学商店：Discount School Supply

2018/04/04 全球购物

乌克兰鞋类购物网站：Eobuv.com.ua

2020/11/28 全球购物

银行营业厅大堂经理岗位职责

2014/01/06 职场文书

《李时珍夜宿古寺》教学反思

2014/04/09 职场文书

中国文明网向国旗敬礼活动精彩寄语2014

2014/09/27 职场文书

党员学习新党章思想汇报

2014/10/25 职场文书

第二批党的群众路线教育实践活动总结报告

2014/10/30 职场文书

个人简历自我评价怎么写

2015/03/10 职场文书

学校青年志愿者活动总结

2015/05/06 职场文书

2015年公司后勤管理工作总结

2015/05/13 职场文书

小学生读书笔记

2015/07/01 职场文书

MySQL实现配置主从复制项目实践

2022/03/31 MySQL

Python自动化实战之接口请求的实现

2022/05/30 Python