详解python 爬取12306验证码


Posted in Python onMay 10, 2019

一个简单的验证码爬取程序

本文介绍了在Python2.7环境下爬取网站验证码:

思路就是获取验证码对应的url,然后发起requst请求,读取该URL对应的内容,然后写入到一个本地文件,实现一个验证码的保存。大量下载可以把以上程序写入一个死循环

代码实现部分:

import ssl
import urllib2
i=1
import time
while(1):

 #不加的话,无法访问12306 
  ssl._create_default_https_context = ssl._create_unverified_context
  # headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36"}
  # req = urllib2.Request("http://211.87.155.19/(yfsvlfreem4d0b553vkfzfzt)/CheckCode.aspx", headers=headers)
  # https: // www.zhihu.com / captcha.gif?r = 1495351271125 & type = login
  req = urllib2.Request("https://kyfw.12306.cn/otn/passcodeNew/getPassCodeNew?module=login&rand=sjrand&0.7174227166135074")
  u=urllib2.urlopen(req)
  data = u.read()
  f = open("C:/Users/123/Desktop/4/"+str(i)+".jpg",'wb')
  print i
  # time.sleep(1)#有时需要加延时,以防被封。
  i=i+1
  f.write(data)
  f.close()

以下就是爬取的照片的截图

详解python 爬取12306验证码

12306的验证码经常让人眼花缭乱,眼睛仔细看也不能100%的对,算是验证码中比较难是别的。一般由八幅图和一个问题组成,而且图片大小位置固定,问题的位置也是固定的,这也稍微降低了识别的难度。八幅图中一般有两幅图是同一物体,有一个和它比较像。不过有一点暂时没法确定,就是样本库到底有多大,或者说是到底有多少个类别,如果进行训练的话,我们必须获取每个类别个的一定数量的图片作为样本。

以上所述是小编给大家介绍的python爬取12306验证码详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
浅谈配置OpenCV3 + Python3的简易方法(macOS)
Apr 02 Python
Python面向对象程序设计OOP入门教程【类,实例,继承,重载等】
Jan 05 Python
Python后台管理员管理前台会员信息的讲解
Jan 28 Python
python 实现提取某个索引中某个时间段的数据方法
Feb 01 Python
浅析python的Lambda表达式
Feb 27 Python
Python玩转加密的技巧【推荐】
May 13 Python
python自制包并用pip免提交到pypi仅安装到本机【推荐】
Jun 03 Python
解决windows下python3使用multiprocessing.Pool出现的问题
Apr 08 Python
使用python实现微信小程序自动签到功能
Apr 27 Python
浅析Python requests 模块
Oct 09 Python
Pandas加速代码之避免使用for循环
May 30 Python
关于python pygame游戏进行声音添加的技巧
Oct 24 Python
详解用python写一个抽奖程序
May 10 #Python
python实现小球弹跳效果
May 10 #Python
基于python实现百度翻译功能
May 09 #Python
python使用time、datetime返回工作日列表实例代码
May 09 #Python
python 对字典按照value进行排序的方法
May 09 #Python
使用Django开发简单接口实现文章增删改查
May 09 #Python
python GUI实现小球满屏乱跑效果
May 09 #Python
You might like
PHP实现远程下载文件到本地
2015/05/17 PHP
PHP实现多图上传(结合uploadify插件)思路分析
2016/11/30 PHP
一款js和css代码压缩工具[附JAVA环境配置方法]
2010/04/16 Javascript
js String对象中常用方法小结(字符串操作)
2012/01/27 Javascript
js优化针对IE6.0起作用(详细整理)
2012/12/25 Javascript
解决Jquery鼠标经过不停滑动的问题
2014/03/03 Javascript
深入探究JavaScript中for循环的效率问题及相关优化
2016/03/13 Javascript
浅谈Sticky组件的改进实现
2016/03/22 Javascript
javascript弹出带文字信息的提示框效果
2016/07/19 Javascript
JS跨域请求外部服务器的资源
2017/02/06 Javascript
JS同步、异步、延迟加载的方法
2018/05/05 Javascript
详解一个基于react+webpack的多页面应用配置
2019/01/21 Javascript
vue的滚动条插件实现代码
2019/09/07 Javascript
wxPython窗口的继承机制实例分析
2014/09/28 Python
Python编程之多态用法实例详解
2015/05/19 Python
python编码最佳实践之总结
2016/02/14 Python
详解如何使用Python编写vim插件
2017/11/28 Python
Request的中断和ErrorHandler实例解析
2018/02/12 Python
解决selenium+Headless Chrome实现不弹出浏览器自动化登录的问题
2021/01/09 Python
CSS3实现swap交换动画
2016/01/19 HTML / CSS
关于 HTML5 的七个传说小结
2012/04/12 HTML / CSS
10个最常见的HTML5面试题 附答案
2016/06/06 HTML / CSS
美国最大的骑马用品零售商:HorseLoverZ
2017/01/12 全球购物
Java文件和目录(IO)操作
2014/08/26 面试题
自我评价范文点评
2013/12/04 职场文书
总经理助理工作职责
2014/02/06 职场文书
《燕子》教学反思
2014/02/18 职场文书
行政主管职责范本
2014/03/07 职场文书
产品发布会策划方案
2014/05/12 职场文书
机械工程师岗位职责
2014/06/16 职场文书
党员国庆节演讲稿范文2014
2014/09/21 职场文书
公安交警中队队长个人对照检查材料思想汇报
2014/10/05 职场文书
2015年物业公司保洁工作总结
2015/10/22 职场文书
保险公司岗前培训工作总结
2015/10/24 职场文书
初一数学教学反思
2016/02/17 职场文书
2016年小学“公民道德宣传日”活动总结
2016/04/01 职场文书