python爬取哈尔滨天气信息


Posted in Python onJuly 14, 2018

本文实例为大家分享了python爬取哈尔滨天气信息的具体代码,供大家参考,具体内容如下

环境:

windows7

python3.4(pip install requests;pip install BeautifulSoup4)

代码: (亲测可以正确执行)

# coding:utf-8
"""
总结一下,从网页上抓取内容大致分3步:
1、模拟浏览器访问,获取html源代码
2、通过正则匹配,获取指定标签中的内容
3、将获取到的内容写到文件中
"""
import requests # 用来抓取网页的html源代码
import csv # 将数据写入到csv文件中
import random # 取随机数
import time # 时间相关操作
import socket # 用于异常处理
import http.client # 用于异常处理
from bs4 import BeautifulSoup # 用来代替正则式取源码中相应标签中的内容


# 获取网页中的html代码
def get_content(url, data=None):
  header = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'Accept-Encoding': 'gzip, deflate',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Connection': 'keep-alive',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
  }
  timeout = random.choice(range(80, 180)) # timeout是设定的一个超时时间,取随机数是因为防止被网站认定为网络爬虫
  while True:
    try:
      rep = requests.get(url, headers=header, timeout=timeout)
      rep.encoding = 'utf-8' # rep.encoding = ‘utf-8'是将源代码的编码格式改为utf-8
      break
    except socket.timeout as e:
      print('3:', e)
      time.sleep(random.choice(range(8, 15)))

    except socket.error as e:
      print('4:', e)
      time.sleep(random.choice(range(20, 60)))

    except http.client.BadStatusLine as e:
      print('5:', e)
      time.sleep(random.choice(range(30, 80)))

    except http.client.IncompleteRead as e:
      print('6:', e)
      time.sleep(random.choice(range(5, 15)))

  return rep.text


# 获取html中我们所需要的字段
def get_data(html_text):
  final = []
  bs = BeautifulSoup(html_text, "html.parser") # 创建BeautifulSoup对象
  body = bs.body # 获取body部分
  data = body.find('div', {'id': '7d'}) # 找到id为7d的div
  ul = data.find('ul') # 获取ul部分
  li = ul.find_all('li') # 获取所有的li

  for day in li: # 对每个li标签中的内容进行遍历
    temp = []
    date = day.find('h1').string # 找到日期
    temp.append(date) # 添加到temp中
    inf = day.find_all('p') # 找到li中的所有p标签
    temp.append(inf[0].string, ) # 第一个p标签中的内容(天气状况)加到temp中
    if inf[1].find('span') is None:
      temperature_highest = None # 天气预报可能没有当天的最高气温(到了傍晚,就是这样),需要加个判断语句,来输出最低气温
    else:
      temperature_highest = inf[1].find('span').string # 找到最高温
      temperature_highest = temperature_highest.replace('℃', '') # 到了晚上网站会变,最高温度后面也有个℃
    temperature_lowest = inf[1].find('i').string # 找到最低温
    temperature_lowest = temperature_lowest.replace('℃', '') # 最低温度后面有个℃,去掉这个符号
    temp.append(temperature_highest) # 将最高温添加到temp中
    temp.append(temperature_lowest) # 将最低温添加到temp中
    final.append(temp) # 将temp加到final中

  return final


# 写入文件csv
def write_data(data, name):
  file_name = name
  with open(file_name, 'a', errors='ignore', newline='') as f:
    f_csv = csv.writer(f)
    f_csv.writerows(data)


if __name__ == '__main__':
  url = 'http://www.weather.com.cn/weather/101050101.shtml'
  html = get_content(url)
  result = get_data(html)
  write_data(result, 'weather.csv')

讲解:

python标准库-----内置函数open(file,mode='r',buffering=-1,encoding=None,errors=None,newline=None...)

函数作用:打开一个文件并返回文件对象。如果文件不能打开,抛出异常OSError。

file:是一个字符串的文件名称,或者是一个数组表示的文件名称。文件名称可以是相对当前目录的路径,也可以是绝对路径表示。

mode:是指打开文件的模式。

  1)‘r'表示打开文件只读,不能写。

  2)‘w'表示打开文件只写,并且清空文件。

  3)‘x'表示独占打开文件,如果文件已经存打开就会失败。

  4)‘a'表示打开文件写,不清空文件,在文件后尾追加的方式写入。

  5)‘b'表示二进制的模式打开文件。

  6)‘t'表示文本模式,默认情况下就是这种模式。

  7)‘+'打开文件更新(读取或写入)。

  8)缺省时的模式就相当于'rt'。比如'w+b'就是打开文件进入读写,把文件清空;'r+b'打开文件,但不把文件  清空。

参数buffering是一个可选的参数,用来表示缓冲区的策略选择。设置为0时,表示不使用缓冲区,直接读写,仅在二进制模式下有效。设置为1时,表示在文本模式下使用行缓冲区方式。设置为大于1时,表示缓冲区的设置大小。如果参数buffering没有给出,使用默认时,会采用下面策略来选择:

1)对于二进制文件模式时,采用固定块内存缓冲区方式,内存块的大小根据系统设备的分配的磁盘块来决定,如果获取系统磁盘块的大小失败,就使用内部常量io.DEFAULT_BUFFER_SIZE定义的大小。一般的操作系统上,块的大小是4096或者8192字节大小。

2)对于交互的文本文件(采用isatty()判断为True)时,采用一行缓冲区的方式。其它文本文件使用跟二进制一样的方式。

参数encoding是指明对文件编码,仅适用于文本文件。如果不明编码方式,默认是使用locale.getpreferredencoding()函数返回的编码方式。

参数errors是用来指明编码和解码错误时怎么样处理。不能在二进制的模式下使用。

1)当指明为'strict'时,编码出错则抛出异常ValueError。

2)当指明为'ignore'时,忽略错误。

3)当指明为'replace'时,使用某字符进行替代模式,比如使用'?'来替换出错的。

4)其它相应还有surrogateescape/xmlcharrefreplacs/backslashreplace。

参数newline是用来控制文本模式之下,一行的结束字符。可以是None,'',\n,\r,\r\n等。

1)当在读取模式下,如果新行符为None,那么就作为通用换行符模式工作,意思就是说当遇到\n,\r或\r\n都可以作为换行标识,并且统一转换为\n作为文本输入的换行符。当设置为空''时,也是通用换行符模式工作,但不作转换为\n,输入什么样的,就保持原样全输入。当设置为其它相应字符时,就会判断到相应的字符作为换行符,并保持原样输入到文本。

2)当在输出模式时,如果新行符为None,那么所有输出文本都是采用\n作为换行符。如果设置为''或者\n时,不作任何的替换动作。如果是其它字符,会在字符后面添加\n作为换行符。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现定制交互式命令行的方法
Jul 03 Python
在Python程序中操作MySQL的基本方法
Jul 29 Python
Python实现快速排序和插入排序算法及自定义排序的示例
Feb 16 Python
python自动化脚本安装指定版本python环境详解
Sep 14 Python
python提取log文件内容并画出图表
Jul 08 Python
Python+Appium实现自动化测试的使用步骤
Mar 24 Python
python函数map()和partial()的知识点总结
May 26 Python
Python实现壁纸下载与轮换
Oct 19 Python
Python + opencv对拍照得到的图片进行背景去除的实现方法
Nov 18 Python
python树莓派通过队列实现进程交互的程序分析
Jul 04 Python
OpenCV图像变换之傅里叶变换的一些应用
Jul 26 Python
python数字图像处理数据类型及颜色空间转换
Jun 28 Python
Python for循环中的陷阱详解
Jul 13 #Python
Python框架Flask的基本数据库操作方法分析
Jul 13 #Python
Python使用pickle模块实现序列化功能示例
Jul 13 #Python
mac下如何将python2.7改为python3
Jul 13 #Python
Python面向对象程序设计之继承与多继承用法分析
Jul 13 #Python
Python2.7环境Flask框架安装简明教程【已测试】
Jul 13 #Python
解决Python print 输出文本显示 gbk 编码错误问题
Jul 13 #Python
You might like
php中将一个对象保存到Session中的方法
2015/03/13 PHP
php+jQuery+Ajax实现点赞效果的方法(附源码下载)
2020/07/21 PHP
php中文字符串截取多种方法汇总
2016/10/06 PHP
thinkPHP js文件中U方法不被解析问题的解决方法
2016/12/05 PHP
Yii中特殊行为ActionFilter的使用方法示例
2020/10/18 PHP
限制复选框的最大可选数
2006/07/01 Javascript
Javascript倒计时代码
2010/08/12 Javascript
ASP.NET jQuery 实例13 原创jQuery文本框字符限制插件-TextArea Counter
2012/02/03 Javascript
ie下jquery.getJSON的缓存问题的处理方法
2013/03/29 Javascript
js判断选择的时间是否大于今天的代码
2013/08/20 Javascript
一个简单的实现下拉框多选的插件可移植性比较好
2014/05/05 Javascript
jQuery中click事件用法实例
2014/12/26 Javascript
jquery实现鼠标拖拽滑动效果来选择数字的方法
2015/05/04 Javascript
jQuery实现背景滑动菜单
2016/12/02 Javascript
用原生js做单页应用
2017/01/17 Javascript
Angular 4依赖注入学习教程之ClassProvider的使用(三)
2017/06/04 Javascript
简单介绍react redux的中间件的使用
2018/04/06 Javascript
Vue.JS实现垂直方向展开、收缩不定高度模块的JS组件
2018/06/19 Javascript
关于Vue Router中路由守卫的应用及在全局导航守卫中检查元字段的方法
2018/12/09 Javascript
layer父页获取弹出层输入框里面的值方法
2019/09/02 Javascript
原生js实现购物车功能
2020/09/23 Javascript
[03:55]2016国际邀请赛中国区预选赛首日TOP10精彩集锦
2016/06/27 DOTA
python3.5+tesseract+adb实现西瓜视频或头脑王者辅助答题
2018/01/17 Python
使用python装饰器计算函数运行时间的实例
2018/04/21 Python
Python+AutoIt实现界面工具开发过程详解
2019/08/07 Python
深入了解Python在HDA中的应用
2019/09/05 Python
Python requests.post方法中data与json参数区别详解
2020/04/30 Python
Django 如何使用日期时间选择器规范用户的时间输入示例代码详解
2020/05/22 Python
你不知道的葡萄干处理法、橙蜜处理法、二氧化碳酵母法
2021/03/17 冲泡冲煮
台湾母婴用品限时团购:妈咪爱
2018/08/03 全球购物
成立公司计划书
2014/05/07 职场文书
教师自我剖析材料范文
2014/09/30 职场文书
2014年党总支工作总结
2014/12/18 职场文书
怎样做好公众演讲能力?
2019/08/28 职场文书
一篇文章弄清楚Ajax请求的五个步骤
2022/03/17 Javascript
VMware虚拟机安装 Windows Server 2022的详细图文教程
2022/09/23 Servers