编程 Python

python编程实现12306的一个小爬虫实例

Posted in Python onDecember 27, 2017

本文思路主要来源于实验楼的教程，但是一些具体的一些细节是我自己发现的，比如哪里获得站点对应的3位英文编号，怎么获得这个查询的url

本文用到的库主要有requests(获取url的内容),prettytable（让文本输出美观）,argparse（命令行参数解析）

关于这些库怎么使用，可以参见我之前的博文

1、首先打开12306余票查询的界面

https://kyfw.12306.cn/otn/lcxxcx/init

我们想要的信息当然就是在输入了始发站、终点站和日期之后各车次的时间和车票余量，那么我们尝试在始发站使用检查元素，观察一下它是怎么上传始发站的信息的，那么我们不妨随便输入出发地、目的地和信息，使用抓包工具来看看它是怎么发包的（使用浏览器也可以，因为我们只需要查看包的内容，不需要更改包）

2、

python编程实现12306的一个小爬虫实例

在chrome的network中我们可以查看到我们点击之后浏览器发送的所有包（关于http包的知识不熟悉的同学，可以看看《图解http》这本书）

python编程实现12306的一个小爬虫实例

点击查询之后我们马上就会注意到以query开头的这个包，显然这就是一个查询指令，我们看看这个包的url

'https://kyfw.12306.cn/otn/lcxxcx/query?purpose_codes=ADULT&queryDate=2016-10-04&from_station=BJP&to_station=XKS'

然后我们看看它的response

python编程实现12306的一个小爬虫实例

仔细观察就能发现它其实是一串json格式的字符串（要非常有经验。。。。）

3、经过以上这些过程，我们大致就能知道我们需要做的是什么了，我们只需要更改url中的data，fromstaion,tostaion后面的内容，然后用requests获得response，然后解析这一串json字符就行了。

但是我们会发现，日期还好说，对于fromstation和tostaion的代码，我们该怎么办呢？

4、有两种可能，一中可能是这些文件在服务器上，每回改变站点网页都会从服务器请求这个站点的代码，还有一种可能是这个已经下载到本地了，如何判断呢？我们不妨改变一下始发站，然后用抓包软件（或者浏览器）观察我们的浏览器是否向12306发送了包

python编程实现12306的一个小爬虫实例

把北京改成了上海，但是我们发现浏览器并没有发送包

这样我们基本可以肯定这个车站编号信息是存在本地了（已经从服务器下载下来）

5、我们这时候，就需要分析html来发现这个编号信息到底储存在了那里

我们试着检查一下出发地附近的html标签，在‘热门'上面点击检查，我们很容易发现这个标签上面带了一个onclick方法

python编程实现12306的一个小爬虫实例

我们发现这个onclick方法指向了一个js文件，并且名字是‘Stationfor12306'，基本我们可以确定这个js文件就是我们需要的站点信息文件了。

6、我们尝试在这个html（12306余票查询界面）里面搜一下stationfor，我们马上就能发现，它就在<head>标签的<script>元素里，并且指向了一个url

python编程实现12306的一个小爬虫实例

进入这个url看看，我们马上就发现站点信息已经被我们找到啦(注意这是一个相对URL,绝对url需要在前面补上https://kyfw.12306.cn/)

python编程实现12306的一个小爬虫实例

关于怎么获取三位数的车站代码，用正则，字符串查询都是可以的啦，由于这里是固定的3位车站代码，我就用简单的字符串查询来提取这个代码了。

7、剩下的工作，基本就是代码实现了，关于具体怎么实现，我把我的代码贴在下面了。

#coding=utf-8 
import requests 
import argparse 
import datetime 
import re 
from prettytable import PrettyTable 
now = datetime.datetime.now() 
 
tomorrow = now+datetime.timedelta(days=1)  
tomorrow = tomorrow.strftime('%Y-%m-%d') 
print tomorrow 
 
argument = argparse.ArgumentParser() 
argument.add_argument('--fromcity','-f',default='hangzhoudong') 
argument.add_argument('--tocity','-t',default='xiamen') 
argument.add_argument('--date','-d',default=tomorrow) 
# argument.add_argument('-d',action='store_true') 
args =argument.parse_args() 
 
from_station = args.fromcity 
to_station = args.tocity 
Date = args.date 
 
stationlist_url = 'https://kyfw.12306.cn/otn/resources/js/framework/station_name.js' 
r = requests.get(stationlist_url, verify=False) 
stationlist = r.content 
 
ToStation = '' 
FromStation = '' 
 
placea = stationlist.find(from_station) 
placeb = stationlist.find(to_station) 
 
for i in range(-4,-1): 
  FromStation += stationlist[placea+i] 
for i in range(-4,-1): 
  ToStation += stationlist[placeb+i] 
 
query_url='https://kyfw.12306.cn/otn/lcxxcx/query?purpose_codes=ADULT&queryDate='+Date+'&from_station='+FromStation+'&to_station='+ToStation 
r = requests.get(query_url,verify=False) 
 
 
with open('json.txt','w') as fp: 
   fp.write(str(r.json())) 
 
if 'datas' in r.json()["data"]: 
  rj = r.json()["data"]["datas"] 
  pt = PrettyTable() 
 
  header = '车次 车站 到站时间 时长 一等座 二等座 软卧 硬卧 硬座 无座'.split() 
  pt._set_field_names(header) 
 
  for x in rj: 
    ptrow = [] 
    ptrow.append(x["station_train_code"]) 
    ptrow.append('\n'.join([x["from_station_name"],x["to_station_name"]])) 
    ptrow.append('\n'.join([x["start_time"], x["arrive_time"]])) 
    ptrow.append(x["lishi"].replace(':','h')+'m') 
    ptrow.append(x['zy_num']) 
    ptrow.append(x['ze_num']) 
    ptrow.append(x['rw_num']) 
    ptrow.append(x['yw_num']) 
    ptrow.append(x['yz_num']) 
    ptrow.append(x['wz_num']) 
    pt.add_row(ptrow) 
  print pt 
else : 
  print '这两个站点没有直达列车'

总结

以上就是本文关于python编程实现12306的一个小爬虫实例的全部内容，希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题，如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！

python编程实现12306的一个小爬虫实例

- Author -

sentimental_dog

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python中的with...as用法介绍

May 28 Python

python 获取url中的参数列表实例

Dec 18 Python

用Python PIL实现几个简单的图片特效

Jan 18 Python

浅析Python 实现一个自动化翻译和替换的工具

Apr 14 Python

pytorch 求网络模型参数实例

Dec 30 Python

Pytorch使用MNIST数据集实现CGAN和生成指定的数字方式

Jan 10 Python

Python调用Windows命令打印文件

Feb 07 Python

python实现录屏功能(亲测好用)

Mar 02 Python

什么是python的id函数

Jun 11 Python

OpenCV+python实现实时目标检测功能

Jun 24 Python

提取视频中的音频 Python只需要三行代码!

May 10 Python

python字典进行运算原理及实例分享

Aug 02 Python

python导出chrome书签到markdown文件的实例代码

Dec 27 #Python

Python类的继承和多态代码详解

Dec 27 #Python

快速查询Python文档方法分享

Dec 27 #Python

Java及python正则表达式详解

Dec 27 #Python

python matplotlib画图实例代码分享

Dec 27 #Python

python爬虫使用cookie登录详解

Dec 27 #Python

Python爬虫番外篇之Cookie和Session详解

Dec 27 #Python

You might like

php去除重复字的实现代码

2011/09/16 PHP

解析用PHP实现var_export的详细介绍

2013/06/20 PHP

解决php的“It is not safe to rely on the system’s timezone settings”问题

2015/10/08 PHP

Win7环境下Apache连接MySQL提示连接已重置的解决办法

2017/05/09 PHP

ThinkPHP中图片按比例切割的代码实例

2019/03/08 PHP

js 完美图片新闻轮转效果，腾讯大粤网首页图片轮转改造而来

2011/11/21 Javascript

多个表单中如何获得这个文件上传的网址实现js代码

2013/03/25 Javascript

javascript制作loading动画效果 loading效果

2014/01/14 Javascript

Javascript浮点数乘积运算出现多位小数的解决方法

2014/02/17 Javascript

js 获取、清空input type="file"的值示例代码

2014/02/19 Javascript

jQuery插件实现大图全屏图片相册

2015/03/14 Javascript

妙用Bootstrap的 popover插件实现校验表单提示功能

2016/08/29 Javascript

Bootstrap table使用方法详细介绍

2016/12/09 Javascript

JavaScript实现经典排序算法之插入排序

2016/12/28 Javascript

神级程序员JavaScript300行代码搞定汉字转拼音

2017/05/20 Javascript

微信小程序实现长按删除图片的示例

2018/05/18 Javascript

vue-cli安装使用流程步骤详解

2018/11/08 Javascript

微信小程序通过js实现瀑布流布局详解

2019/08/28 Javascript

ionic3双击返回退出应用的方法

2019/09/17 Javascript

Vue自定义指令结合阿里云OSS优化图片的实现方法

2019/11/12 Javascript

纯js+css实现仿移动端淘宝网站的弹出详情框功能

2019/12/29 Javascript

[40:03]RNG vs VG 2019国际邀请赛小组赛 BO2 第二场 8.15

2019/08/17 DOTA

Python实现爬取需要登录的网站完整示例

2017/08/19 Python

使用Python制作微信跳一跳辅助

2018/01/31 Python

基于Python3读写INI配置文件过程解析

2020/07/23 Python

python在CMD界面读取excel所有数据的示例

2020/09/28 Python

详解如何用HTML5 Canvas API控制图片的缩放变换

2016/03/22 HTML / CSS

亚洲最大的运动鞋寄售店：KicksCrew

2020/11/26 全球购物

运动会通讯稿150字

2014/02/15 职场文书

公司股权转让协议书

2014/04/12 职场文书

2014乡镇干部对照检查材料思想汇报

2014/09/26 职场文书

店铺转让协议书

2014/12/02 职场文书

财务经理岗位职责

2015/01/31 职场文书

大队委员竞选演讲稿

2015/11/20 职场文书

2016大学生社会实践单位评语

2015/12/01 职场文书

MySQL数据库超时设置配置的方法实例

2021/10/15 MySQL