详解python 爬取12306验证码


Posted in Python onMay 10, 2019

一个简单的验证码爬取程序

本文介绍了在Python2.7环境下爬取网站验证码:

思路就是获取验证码对应的url,然后发起requst请求,读取该URL对应的内容,然后写入到一个本地文件,实现一个验证码的保存。大量下载可以把以上程序写入一个死循环

代码实现部分:

import ssl
import urllib2
i=1
import time
while(1):

 #不加的话,无法访问12306 
  ssl._create_default_https_context = ssl._create_unverified_context
  # headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36"}
  # req = urllib2.Request("http://211.87.155.19/(yfsvlfreem4d0b553vkfzfzt)/CheckCode.aspx", headers=headers)
  # https: // www.zhihu.com / captcha.gif?r = 1495351271125 & type = login
  req = urllib2.Request("https://kyfw.12306.cn/otn/passcodeNew/getPassCodeNew?module=login&rand=sjrand&0.7174227166135074")
  u=urllib2.urlopen(req)
  data = u.read()
  f = open("C:/Users/123/Desktop/4/"+str(i)+".jpg",'wb')
  print i
  # time.sleep(1)#有时需要加延时,以防被封。
  i=i+1
  f.write(data)
  f.close()

以下就是爬取的照片的截图

详解python 爬取12306验证码

12306的验证码经常让人眼花缭乱,眼睛仔细看也不能100%的对,算是验证码中比较难是别的。一般由八幅图和一个问题组成,而且图片大小位置固定,问题的位置也是固定的,这也稍微降低了识别的难度。八幅图中一般有两幅图是同一物体,有一个和它比较像。不过有一点暂时没法确定,就是样本库到底有多大,或者说是到底有多少个类别,如果进行训练的话,我们必须获取每个类别个的一定数量的图片作为样本。

以上所述是小编给大家介绍的python爬取12306验证码详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
python操作摄像头截图实现远程监控的例子
Mar 25 Python
python正则表达式match和search用法实例
Mar 26 Python
Python写入数据到MP3文件中的方法
Jul 10 Python
再谈Python中的字符串与字符编码(推荐)
Dec 14 Python
Python实现的中国剩余定理算法示例
Aug 05 Python
Django视图和URL配置详解
Jan 31 Python
Django之模型层多表操作的实现
Jan 08 Python
python3实现zabbix告警推送钉钉的示例
Feb 20 Python
python 堆和优先队列的使用详解
Mar 05 Python
python list转置和前后反转的例子
Aug 26 Python
JetBrains PyCharm(Community版本)的下载、安装和初步使用图文教程详解
Mar 19 Python
基于Python的接口自动化读写excel文件的方法
Jan 15 Python
详解用python写一个抽奖程序
May 10 #Python
python实现小球弹跳效果
May 10 #Python
基于python实现百度翻译功能
May 09 #Python
python使用time、datetime返回工作日列表实例代码
May 09 #Python
python 对字典按照value进行排序的方法
May 09 #Python
使用Django开发简单接口实现文章增删改查
May 09 #Python
python GUI实现小球满屏乱跑效果
May 09 #Python
You might like
php下使用strpos需要注意 === 运算符
2010/07/17 PHP
PHP详解ASCII码对照表与字符转换
2011/12/05 PHP
微信公众平台开发关注及取消关注事件的方法
2014/12/23 PHP
PHP中实现中文字串截取无乱码的解决方法
2018/05/29 PHP
JavaScript实现页面滚动图片加载(仿lazyload效果)
2011/07/22 Javascript
js jquery数组介绍
2012/07/15 Javascript
jquery.post用法之type设置问题
2014/02/24 Javascript
JavaScript中合并数组的N种方法
2014/09/16 Javascript
JQuery点击行tr实现checkBox选中的简单实例
2016/05/26 Javascript
json对象与数组以及转换成js对象的简单实现方法
2016/06/24 Javascript
js检测离开或刷新页面时表单数据是否更改的方法
2016/08/02 Javascript
jQuery.ajax实现根据不同的Content-Type做出不同的响应
2016/11/03 Javascript
Node.js中.pfx后缀文件的处理方法
2017/03/10 Javascript
从setTimeout看js函数执行过程
2017/12/19 Javascript
基于vue打包后字体和图片资源失效问题的解决方法
2018/03/06 Javascript
Postman模拟发送带token的请求方法
2018/03/31 Javascript
使用Angular CLI快速创建Angular项目的一些基本概念和写法小结
2018/04/22 Javascript
npm 更改默认全局路径以及国内镜像的方法
2018/05/16 Javascript
Bootstrap Table列宽拖动的方法
2018/08/15 Javascript
vue 使用class创建和清除水印的示例代码
2020/12/25 Vue.js
Python中用于转换字母为小写的lower()方法使用简介
2015/05/19 Python
python实现比较两段文本不同之处的方法
2015/05/30 Python
如何利用Anaconda配置简单的Python环境
2019/06/24 Python
python 内置函数汇总详解
2019/09/16 Python
浅析python 动态库m.so.1.0错误问题
2020/05/09 Python
HTML5的video标签的浏览器兼容性增强方案分享
2016/05/19 HTML / CSS
Europcar意大利:汽车租赁
2019/07/07 全球购物
美国第一大药店连锁机构:Walgreens(沃尔格林)
2019/10/10 全球购物
质检的岗位职责
2013/11/17 职场文书
培训演讲稿范文
2014/01/12 职场文书
校园环保标语
2014/06/13 职场文书
员工拾金不昧表扬稿
2015/05/05 职场文书
2021年pycharm的最新安装教程及基本使用图文详解
2021/04/03 Python
pyqt5蒙版遮罩mask,setmask的使用
2021/06/11 Python
浅谈@Value和@Bean的执行顺序问题
2021/06/16 Java/Android
Python使用华为API为图像设置多个锚点标签
2022/04/12 Python