Python爬虫天气预报实例详解(小白入门)


Posted in Python onJanuary 24, 2018

本文研究的主要是Python爬虫天气预报的相关内容,具体介绍如下。

这次要爬的站点是这个:http://www.weather.com.cn/forecast/

要求是把你所在城市过去一年的历史数据爬出来。

分析网站

首先来到目标数据的网页 http://www.weather.com.cn/weather40d/101280701.shtml

Python爬虫天气预报实例详解(小白入门)

我们可以看到,我们需要的天气数据都是放在图表上的,在切换月份的时候,发现只有部分页面刷新了,就是天气数据的那块,而URL没有变化。

这是因为网页前端使用了JS异步加载的技术,更新时不用加载整个页面,从而提升了网页的加载速度。

对于这种非静态页面,我们在请求数据时,就不能简单的通过替换URL来请求不同的页面。

着眼点要放在Network,观察整个请求的过程,从中寻找突破口。

老规矩按下F12 > network,切换下页面,发现多了一些东西,这就是切换月份,浏览器发出的请求,可以很清楚的看到请求头和请求参数。

Python爬虫天气预报实例详解(小白入门)

再来看看Response是怎样的吧

Python爬虫天气预报实例详解(小白入门)

真是没想到,返回的居然是json格式的天气数据!直接做 json 反序化就能变成字典的形式,省掉了我们解析 html 的麻烦呀。既然找到了数据所在的地方,就可以开始尝试构建请求了。

构建请求

先直接copy上面的Request URL,试下请求。http://d1.weather.com.cn/calendar_new/2017/101280701_201706.html?_=1495720234075
然后发现报错了,先把请求头全部满上怼进去,发现可以正常的响应。
但是我们还要分析下到底哪个参数不对出了问题。经过尝试,发现请求头里的Referer的原因,去掉就会报错。

这是因为这是浏览器发出请求时,会通过Referer告诉服务器我是从哪个页面链接过来的,有些网站会对这个做验证,主要时为了防止别人盗链的问题。

这个中国天气网,就是验证了Referer里的域名是不是自己的,不是的话就会403禁止访问服务器。

接下来就要考虑怎么请求不同月份的数据。

通过观察URL,发现其实很简单,直接替换年月,就可以循环抓取,得到整年的数据。

那中间的101280701是什么意思呢,经过请求不同的城市对比URL,我发现这是表示地理位置的一个数据。

前3位表示国家中国,后6位依次表示,省份,城市和区县。修改这里,就能实现对不同城市进行查询了。

最后一个参数1495720234075,开始以为是随机数,后来有朋友提醒这是unix时间戳,实际上就算去掉这个,也能正常访问数据,没什么影响。

解析数据

拿到数据以后,就可以开始解析了。不过这里根本用不上xpath,直接用Json.load(),就能反序列化成json对象,从中取出字典,节省很多麻烦。需要注意的是,返回的40天的天气数据 fc40 字符串是这样

var fc40 = [{"blue":"","c1":"","c2":"","cla":"history","date":"20151227","des":"历史均值","fe":"","hgl":"17%","hmax":"17","hmin":"13","hol":"","jq":""
.....]}

前面的字符串需要去掉,才能反序列化,注意这里的json对象实际是个存储字典的list[]。开始想用正则,不过不熟没弄好。后来发现 python 字符串也能使用这样的语法 [a:b] 来取出位置a到位置b的字符串,所以就直接用[11 : ], 就能取出fc40 后面的字符串,也很方便。

保存数据

因为数据量比较大,就采用mongodb来做数据持久化。mongodb 我也是才学习,参考了别人的教程,才做好了环境配置,过程打算总结到另一篇,这里就打算不多说了。

因为原本的放了天气数据的字典里面有太多没用的数据,我只想提取出我想要的部分,就用了一个小技巧。

将想要的数据的key,保存成subkey这个字典,用 for in取出subkey中的key,再回到原本的dict中取出对应的值,最后将这些键值对,都存储在一个subdict字典里,就完成了提取出子字典的功能。说起来很麻烦,但是代码却很简单,这可能就是python的魅力吧。

subkey = {'date', 'hmax', 'hmin', 'hgl', 'fe', 'wk', 'time'}
subdict = {key: dict[key] for key in subkey}

然后我还做了个用中文替换的原来key的功能,只需要稍作修改,for in 取出来的是键值对,然后用中文的value,替换英文的key,就ok了。

subkey = {'date': '日期', 'hmax': '最高温度', 'hmin': '最低温度', 'hgl':
 '降水概率', 'fe': '节日', 'wk': '星期'}
 subdict = {value: dict[key] for key, value in subkey.items()}

最后的结果如下图,这是用pycharm上的mongodb可视化插件Mongo Plugin看到的,在pycharm>settings>plugins里面可以搜索安装。需要注意的是,默认只显示300条数据。想要看到更多,就在Row limit 上输入总数就行。

Python爬虫天气预报实例详解(小白入门)

Python的代码非常短才30多行,就完成了爬虫的整个流程, 请求,解析,保存,一气呵成,可谓是爬虫界的豪杰。

# encoding=utf-8
import requests
import json
import pymongo
import time

def request(year, month):
  url = "http://d1.weather.com.cn/calendar_new/" + year + "/101280701_" + year + month + ".html?_=1495685758174"
  headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36",
    "Referer": "http://www.weather.com.cn/weather40d/101280701.shtml",
  }
  return requests.get(url, headers=headers)

def parse(res):
  json_str = res.content.decode(encoding='utf-8')[11:]
  return json.loads(json_str)

def save(list):
  subkey = {'date': '日期', 'hmax': '最高温度', 'hmin': '最低温度', 'hgl': '降水概率', 'fe': '节日', 'wk': '星期', 'time': '发布时间'}
  for dict in list:
    subdict = {value: dict[key] for key, value in subkey.items()}  #提取原字典中部分键值对,并替换key为中文
    forecast.insert_one(subdict)                  #插入mongodb数据库

if __name__ == '__main__':
  year = "2016"
  month = 1
  client = pymongo.MongoClient('localhost', 27017)  # 连接mongodb,端口27017
  test = client['test']               # 创建数据库文件test
  forecast = test['forecast']            # 创建表forecast
  for i in range(month, 13):
    month = str(i) if i > 9 else "0" + str(i)   #小于10的月份要补0
    save(parse(request(year, month)))

time.sleep(1)

总结

以上就是本文关于Python爬虫天气预报实例详解(小白入门)的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

Python 相关文章推荐
python检测服务器是否正常
Feb 16 Python
从零学Python之入门(四)运算
May 27 Python
利用Django框架中select_related和prefetch_related函数对数据库查询优化
Apr 01 Python
举例讲解Python的Tornado框架实现数据可视化的教程
May 02 Python
对Python 文件夹遍历和文件查找的实例讲解
Apr 26 Python
Python基于SMTP协议实现发送邮件功能详解
Aug 14 Python
Python装饰器语法糖
Jan 02 Python
Python画图高斯分布的示例
Jul 10 Python
python打印9宫格、25宫格等奇数格 满足横竖斜相加和相等
Jul 19 Python
python递归下载文件夹下所有文件
Aug 31 Python
python使用Word2Vec进行情感分析解析
Jul 31 Python
Python编写万花尺图案实例
Jan 03 Python
Python实现PS滤镜碎片特效功能示例
Jan 24 #Python
python的re正则表达式实例代码
Jan 24 #Python
python实现生命游戏的示例代码(Game of Life)
Jan 24 #Python
Python 获得命令行参数的方法(推荐)
Jan 24 #Python
Python实现的rsa加密算法详解
Jan 24 #Python
利用Python+Java调用Shell脚本时的死锁陷阱详解
Jan 24 #Python
python做量化投资系列之比特币初始配置
Jan 23 #Python
You might like
十大“创意”战术!
2020/03/04 星际争霸
2014年10个最佳的PHP图像操作库
2014/07/14 PHP
php生成年月日下载列表的方法
2015/04/24 PHP
ThinkPHP框架整合微信支付之刷卡模式图文详解
2019/04/10 PHP
Jquery 高亮显示文本中重要的关键字
2009/12/24 Javascript
Javascript/Jquery——简单定时器的多种实现方法
2013/07/03 Javascript
js propertychange和oninput事件
2014/09/28 Javascript
js实现黑色简易的滑动门网页tab选项卡效果
2015/08/31 Javascript
JS实现的仿东京商城菜单、仿Win右键菜单及仿淘宝TAB特效合集
2015/09/28 Javascript
jQuery根据表单name获取值的方法
2016/05/24 Javascript
全面了解JS中的匿名函数
2016/06/29 Javascript
js精准的倒计时函数分享
2016/06/29 Javascript
AngularJS入门教程之表单校验用法示例
2016/11/02 Javascript
微信小程序 跳转方式总结
2017/04/20 Javascript
Angular实现下拉框模糊查询功能示例
2018/01/03 Javascript
vue + vuex todolist的实现示例代码
2018/03/09 Javascript
JS与jQuery判断文本框还剩多少字符可以输入的方法
2018/09/01 jQuery
微信小程序判断页面是否从其他页面返回的实例代码
2019/07/03 Javascript
bootstrap-treeview实现多级树形菜单 后台JSON格式如何组织?
2019/07/26 Javascript
解决layui追加或者动态修改的表单元素“没效果”的问题
2019/09/18 Javascript
在node环境下parse Smarty模板的使用示例代码
2019/11/15 Javascript
react实现移动端下拉菜单的示例代码
2020/01/16 Javascript
解决vue prop传值default属性如何使用,为何不生效的问题
2020/09/21 Javascript
vue3自定义dialog、modal组件的方法
2021/01/04 Vue.js
Python查找相似单词的方法
2015/03/05 Python
Python functools模块学习总结
2015/05/09 Python
在Python中操作文件之truncate()方法的使用教程
2015/05/25 Python
pandas groupby 分组取每组的前几行记录方法
2018/04/20 Python
基于DataFrame筛选数据与loc的用法详解
2018/05/18 Python
Python3 获取一大段文本之间两个关键字之间的内容方法
2018/10/11 Python
Python使用QQ邮箱发送邮件报错smtplib.SMTPAuthenticationError
2019/12/20 Python
基于Python正确读取资源文件
2020/09/14 Python
HTML5中canvas中的beginPath()和closePath()的重要性
2018/08/24 HTML / CSS
古驰英国官网:GUCCI英国
2020/03/07 全球购物
2014年五四青年节活动策划书
2014/04/22 职场文书
2014年仓库管理工作总结
2014/12/17 职场文书