详解python 爬取12306验证码


Posted in Python onMay 10, 2019

一个简单的验证码爬取程序

本文介绍了在Python2.7环境下爬取网站验证码:

思路就是获取验证码对应的url,然后发起requst请求,读取该URL对应的内容,然后写入到一个本地文件,实现一个验证码的保存。大量下载可以把以上程序写入一个死循环

代码实现部分:

import ssl
import urllib2
i=1
import time
while(1):

 #不加的话,无法访问12306 
  ssl._create_default_https_context = ssl._create_unverified_context
  # headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36"}
  # req = urllib2.Request("http://211.87.155.19/(yfsvlfreem4d0b553vkfzfzt)/CheckCode.aspx", headers=headers)
  # https: // www.zhihu.com / captcha.gif?r = 1495351271125 & type = login
  req = urllib2.Request("https://kyfw.12306.cn/otn/passcodeNew/getPassCodeNew?module=login&rand=sjrand&0.7174227166135074")
  u=urllib2.urlopen(req)
  data = u.read()
  f = open("C:/Users/123/Desktop/4/"+str(i)+".jpg",'wb')
  print i
  # time.sleep(1)#有时需要加延时,以防被封。
  i=i+1
  f.write(data)
  f.close()

以下就是爬取的照片的截图

详解python 爬取12306验证码

12306的验证码经常让人眼花缭乱,眼睛仔细看也不能100%的对,算是验证码中比较难是别的。一般由八幅图和一个问题组成,而且图片大小位置固定,问题的位置也是固定的,这也稍微降低了识别的难度。八幅图中一般有两幅图是同一物体,有一个和它比较像。不过有一点暂时没法确定,就是样本库到底有多大,或者说是到底有多少个类别,如果进行训练的话,我们必须获取每个类别个的一定数量的图片作为样本。

以上所述是小编给大家介绍的python爬取12306验证码详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
python实现自动登录人人网并访问最近来访者实例
Sep 26 Python
在树莓派2或树莓派B+上安装Python和OpenCV的教程
Mar 30 Python
python smtplib模块发送SSL/TLS安全邮件实例
Apr 08 Python
python 文件操作api(文件操作函数)
Aug 28 Python
python 创建弹出式菜单的实现代码
Jul 11 Python
Python实现聊天机器人的示例代码
Jul 09 Python
Python计算库numpy进行方差/标准方差/样本标准方差/协方差的计算
Dec 28 Python
Django web框架使用url path name详解
Apr 29 Python
Python语法分析之字符串格式化
Jun 13 Python
Django url,从一个页面调到另个页面的方法
Aug 21 Python
python字符串替换re.sub()实例解析
Feb 09 Python
Python使用Excel将数据写入多个sheet
May 16 Python
详解用python写一个抽奖程序
May 10 #Python
python实现小球弹跳效果
May 10 #Python
基于python实现百度翻译功能
May 09 #Python
python使用time、datetime返回工作日列表实例代码
May 09 #Python
python 对字典按照value进行排序的方法
May 09 #Python
使用Django开发简单接口实现文章增删改查
May 09 #Python
python GUI实现小球满屏乱跑效果
May 09 #Python
You might like
php中使用Imagick实现图像直方图的实现代码
2011/08/30 PHP
PHP函数篇详解十进制、二进制、八进制和十六进制转换函数说明
2011/12/05 PHP
基于php-fpm 参数的深入理解
2013/06/03 PHP
php json_encode值中大括号与花括号区别
2013/09/30 PHP
php数组函数array_walk用法示例
2016/05/26 PHP
Laravel框架搜索分页功能示例
2019/02/01 PHP
JScript中使用ADODB.Stream判断文件编码的代码
2008/06/09 Javascript
从面试题学习Javascript 面向对象(创建对象)
2012/03/30 Javascript
js下拉菜单语言选项简单实现
2013/09/23 Javascript
js中AppendChild与insertBefore的用法详细解析
2013/12/16 Javascript
使用js实现关闭js弹出层的窗口
2014/02/10 Javascript
基于JavaScript实现轮播图代码
2016/07/14 Javascript
老生常谈原生JS执行环境与作用域
2016/11/22 Javascript
jquery 判断是否支持Placeholder属性的方法
2017/02/07 Javascript
Node.js设置CORS跨域请求中多域名白名单的方法
2017/03/28 Javascript
微信小程序实现图片轮播及文件上传
2017/04/07 Javascript
js分页之前端代码实现和请求处理
2017/08/04 Javascript
集成vue到jquery/bootstrap项目的方法
2018/02/10 jQuery
解决vue 更改计算属性后select选中值不更改的问题
2018/03/02 Javascript
解析原来浏览器原生支持JS Base64编码解码
2019/08/12 Javascript
Python中max函数用法实例分析
2015/07/17 Python
Python中关于Sequence切片的下标问题详解
2017/06/15 Python
python-opencv在有噪音的情况下提取图像的轮廓实例
2017/08/30 Python
Python数据分析之双色球统计两个红和蓝球哪组合比例高的方法
2018/02/03 Python
俄罗斯旅游网站:Tripadvisor俄罗斯
2017/03/21 全球购物
美国轮胎网站:Priority Tire
2018/11/28 全球购物
Linux上比较文件的命令都有哪些
2013/09/28 面试题
销售会计工作职责
2013/12/02 职场文书
初中生个人学习的自我评价
2013/12/04 职场文书
大型车展策划方案
2014/02/01 职场文书
股东出资证明书(正规版)
2014/09/24 职场文书
个性发展自我评价2015
2015/03/09 职场文书
2016先进工作者事迹材料
2016/02/25 职场文书
学校运动会开幕词
2016/03/03 职场文书
阿里云ECS云服务器快照的概念以及如何使用
2022/04/21 Servers
maven 解包依赖项中的文件的解决方法
2022/07/15 Java/Android