python爬取哈尔滨天气信息


Posted in Python onJuly 14, 2018

本文实例为大家分享了python爬取哈尔滨天气信息的具体代码,供大家参考,具体内容如下

环境:

windows7

python3.4(pip install requests;pip install BeautifulSoup4)

代码: (亲测可以正确执行)

# coding:utf-8
"""
总结一下,从网页上抓取内容大致分3步:
1、模拟浏览器访问,获取html源代码
2、通过正则匹配,获取指定标签中的内容
3、将获取到的内容写到文件中
"""
import requests # 用来抓取网页的html源代码
import csv # 将数据写入到csv文件中
import random # 取随机数
import time # 时间相关操作
import socket # 用于异常处理
import http.client # 用于异常处理
from bs4 import BeautifulSoup # 用来代替正则式取源码中相应标签中的内容


# 获取网页中的html代码
def get_content(url, data=None):
  header = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'Accept-Encoding': 'gzip, deflate',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Connection': 'keep-alive',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
  }
  timeout = random.choice(range(80, 180)) # timeout是设定的一个超时时间,取随机数是因为防止被网站认定为网络爬虫
  while True:
    try:
      rep = requests.get(url, headers=header, timeout=timeout)
      rep.encoding = 'utf-8' # rep.encoding = ‘utf-8'是将源代码的编码格式改为utf-8
      break
    except socket.timeout as e:
      print('3:', e)
      time.sleep(random.choice(range(8, 15)))

    except socket.error as e:
      print('4:', e)
      time.sleep(random.choice(range(20, 60)))

    except http.client.BadStatusLine as e:
      print('5:', e)
      time.sleep(random.choice(range(30, 80)))

    except http.client.IncompleteRead as e:
      print('6:', e)
      time.sleep(random.choice(range(5, 15)))

  return rep.text


# 获取html中我们所需要的字段
def get_data(html_text):
  final = []
  bs = BeautifulSoup(html_text, "html.parser") # 创建BeautifulSoup对象
  body = bs.body # 获取body部分
  data = body.find('div', {'id': '7d'}) # 找到id为7d的div
  ul = data.find('ul') # 获取ul部分
  li = ul.find_all('li') # 获取所有的li

  for day in li: # 对每个li标签中的内容进行遍历
    temp = []
    date = day.find('h1').string # 找到日期
    temp.append(date) # 添加到temp中
    inf = day.find_all('p') # 找到li中的所有p标签
    temp.append(inf[0].string, ) # 第一个p标签中的内容(天气状况)加到temp中
    if inf[1].find('span') is None:
      temperature_highest = None # 天气预报可能没有当天的最高气温(到了傍晚,就是这样),需要加个判断语句,来输出最低气温
    else:
      temperature_highest = inf[1].find('span').string # 找到最高温
      temperature_highest = temperature_highest.replace('℃', '') # 到了晚上网站会变,最高温度后面也有个℃
    temperature_lowest = inf[1].find('i').string # 找到最低温
    temperature_lowest = temperature_lowest.replace('℃', '') # 最低温度后面有个℃,去掉这个符号
    temp.append(temperature_highest) # 将最高温添加到temp中
    temp.append(temperature_lowest) # 将最低温添加到temp中
    final.append(temp) # 将temp加到final中

  return final


# 写入文件csv
def write_data(data, name):
  file_name = name
  with open(file_name, 'a', errors='ignore', newline='') as f:
    f_csv = csv.writer(f)
    f_csv.writerows(data)


if __name__ == '__main__':
  url = 'http://www.weather.com.cn/weather/101050101.shtml'
  html = get_content(url)
  result = get_data(html)
  write_data(result, 'weather.csv')

讲解:

python标准库-----内置函数open(file,mode='r',buffering=-1,encoding=None,errors=None,newline=None...)

函数作用:打开一个文件并返回文件对象。如果文件不能打开,抛出异常OSError。

file:是一个字符串的文件名称,或者是一个数组表示的文件名称。文件名称可以是相对当前目录的路径,也可以是绝对路径表示。

mode:是指打开文件的模式。

  1)‘r'表示打开文件只读,不能写。

  2)‘w'表示打开文件只写,并且清空文件。

  3)‘x'表示独占打开文件,如果文件已经存打开就会失败。

  4)‘a'表示打开文件写,不清空文件,在文件后尾追加的方式写入。

  5)‘b'表示二进制的模式打开文件。

  6)‘t'表示文本模式,默认情况下就是这种模式。

  7)‘+'打开文件更新(读取或写入)。

  8)缺省时的模式就相当于'rt'。比如'w+b'就是打开文件进入读写,把文件清空;'r+b'打开文件,但不把文件  清空。

参数buffering是一个可选的参数,用来表示缓冲区的策略选择。设置为0时,表示不使用缓冲区,直接读写,仅在二进制模式下有效。设置为1时,表示在文本模式下使用行缓冲区方式。设置为大于1时,表示缓冲区的设置大小。如果参数buffering没有给出,使用默认时,会采用下面策略来选择:

1)对于二进制文件模式时,采用固定块内存缓冲区方式,内存块的大小根据系统设备的分配的磁盘块来决定,如果获取系统磁盘块的大小失败,就使用内部常量io.DEFAULT_BUFFER_SIZE定义的大小。一般的操作系统上,块的大小是4096或者8192字节大小。

2)对于交互的文本文件(采用isatty()判断为True)时,采用一行缓冲区的方式。其它文本文件使用跟二进制一样的方式。

参数encoding是指明对文件编码,仅适用于文本文件。如果不明编码方式,默认是使用locale.getpreferredencoding()函数返回的编码方式。

参数errors是用来指明编码和解码错误时怎么样处理。不能在二进制的模式下使用。

1)当指明为'strict'时,编码出错则抛出异常ValueError。

2)当指明为'ignore'时,忽略错误。

3)当指明为'replace'时,使用某字符进行替代模式,比如使用'?'来替换出错的。

4)其它相应还有surrogateescape/xmlcharrefreplacs/backslashreplace。

参数newline是用来控制文本模式之下,一行的结束字符。可以是None,'',\n,\r,\r\n等。

1)当在读取模式下,如果新行符为None,那么就作为通用换行符模式工作,意思就是说当遇到\n,\r或\r\n都可以作为换行标识,并且统一转换为\n作为文本输入的换行符。当设置为空''时,也是通用换行符模式工作,但不作转换为\n,输入什么样的,就保持原样全输入。当设置为其它相应字符时,就会判断到相应的字符作为换行符,并保持原样输入到文本。

2)当在输出模式时,如果新行符为None,那么所有输出文本都是采用\n作为换行符。如果设置为''或者\n时,不作任何的替换动作。如果是其它字符,会在字符后面添加\n作为换行符。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中用Ctrl+C终止多线程程序的问题解决
Mar 30 Python
下载给定网页上图片的方法
Feb 18 Python
python通过文件头判断文件类型
Oct 30 Python
Python实现生成随机日期字符串的方法示例
Dec 25 Python
python实现批量注册网站用户的示例
Feb 22 Python
Python实现EXCEL表格的排序功能示例
Jun 25 Python
解决使用python print打印函数返回值多一个None的问题
Apr 09 Python
jupyter notebook 多环境conda kernel配置方式
Apr 10 Python
pandas数据处理之绘图的实现
Jun 15 Python
Python数据相关系数矩阵和热力图轻松实现教程
Jun 16 Python
Python约瑟夫生者死者小游戏实例讲解
Jan 04 Python
利用Python如何画一颗心、小人发射爱心
Feb 21 Python
Python for循环中的陷阱详解
Jul 13 #Python
Python框架Flask的基本数据库操作方法分析
Jul 13 #Python
Python使用pickle模块实现序列化功能示例
Jul 13 #Python
mac下如何将python2.7改为python3
Jul 13 #Python
Python面向对象程序设计之继承与多继承用法分析
Jul 13 #Python
Python2.7环境Flask框架安装简明教程【已测试】
Jul 13 #Python
解决Python print 输出文本显示 gbk 编码错误问题
Jul 13 #Python
You might like
解决php中Cannot send session cache limiter 的问题的方法
2007/04/27 PHP
php实现获取近几日、月时间示例
2019/07/06 PHP
关于laravel 数据库迁移中integer类型是无法指定长度的问题
2019/10/09 PHP
Javascript document.referrer判断访客来源网址
2020/05/15 Javascript
jQuery 写的简单打字游戏可以提示正确和错误的次数
2014/07/01 Javascript
JavaScript操作Oracle数据库示例
2015/03/06 Javascript
微信小程序侧边栏滑动特效(左右滑动)
2017/01/23 Javascript
javascript表达式和运算符详解
2017/02/07 Javascript
js实现楼层导航功能
2017/02/23 Javascript
如何解决React官方脚手架不支持Less的问题(小结)
2018/09/12 Javascript
微信小程序购物车、父子组件传值及calc的注意事项总结
2018/11/14 Javascript
自定义Vue组件打包、发布到npm及使用教程
2019/05/22 Javascript
深入理解 JS 垃圾回收
2019/06/03 Javascript
JS中数组实现代码(倒序遍历数组,数组连接字符串)
2019/12/29 Javascript
javascript实现倒计时提示框
2021/03/02 Javascript
[02:59]2014DOTA2西雅图国际邀请赛 圆满落幕中国夺冠
2014/07/23 DOTA
[03:00]2018完美盛典_最佳英雄奖
2018/12/17 DOTA
[04:15]DOTA2-DPC中国联赛 正赛 Ehome vs Aster 选手采访
2021/03/11 DOTA
python读写二进制文件的方法
2015/05/09 Python
Django 使用logging打印日志的实例
2018/04/28 Python
Python从Excel中读取日期一列的方法
2018/11/28 Python
使用Python合成图片的实现代码(图片添加个性化文本,图片上叠加其他图片)
2020/04/30 Python
Keras实现将两个模型连接到一起
2020/05/23 Python
Python导入父文件夹中模块并读取当前文件夹内的资源
2020/11/19 Python
软件配置管理有什么好处
2015/04/15 面试题
运动会入场解说词300字
2014/01/25 职场文书
在校大学生个人的自我评价
2014/02/13 职场文书
网络技术专业推荐信
2014/02/20 职场文书
人力资源部门的主要职能
2014/02/22 职场文书
学校社会实践活动总结
2014/07/03 职场文书
关于读书的活动方案
2014/08/14 职场文书
生产车间主任岗位职责
2015/04/08 职场文书
小学中队活动总结
2015/05/11 职场文书
法律意见书范文
2015/05/20 职场文书
MySQL系列之十一 日志记录
2021/07/02 MySQL
centos7安装mysql5.7经验记录
2022/05/02 Servers