编程 Python

Python实现爬虫爬取NBA数据功能示例

Posted in Python onMay 28, 2018

本文实例讲述了Python实现爬虫爬取NBA数据功能。分享给大家供大家参考，具体如下：

爬取的网站为：stat-nba.com，这里爬取的是NBA2016-2017赛季常规赛至2017年1月7日的数据

改变url_header和url_tail即可爬取特定的其他数据。

源代码如下：

#coding=utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import requests
import time
import urllib
from bs4 import BeautifulSoup
import re
from pyExcelerator import *
def getURLLists(url_header,url_tail,pages):
  """
  获取所有页面的URL列表
  """
  url_lists = []
  url_0 = url_header+'0'+url_tail
  print url_0
  url_lists.append(url_0)
  for i in range(1,pages+1):
    url_temp = url_header+str(i)+url_tail
    url_lists.append(url_temp)
  return url_lists
def getNBAAllData(url_lists):
  """
  获取所有2017赛季NBA常规赛数据
  """
  datasets = ['']
  for item in url_lists:
    data1 = getNBASingleData(item)
    datasets.extend(data1)
  #去掉数据里的空元素
  for item in datasets[:]:
    if len(item) == 0:
      datasets.remove(item)
  return datasets
def getNBASingleData(url):
  """
  获取1个页面NBA常规赛数据
  """
  # url = 'http://stat-nba.com/query_team.php?QueryType=game&order=1&crtcol=date_out&GameType=season&PageNum=3000&Season0=2016&Season1=2017'
  # html = requests.get(url).text
  html = urllib.urlopen(url).read()
  # print html
  soup = BeautifulSoup(html)
  data = soup.html.body.find('tbody').text
  list_data = data.split('\n')
  # with open('nba_data.txt','a') as fp:
  #   fp.write(data)
  # for item in list_data[:]:
  #   if len(item) == 0:
  #     list_data.remove(item)
  return list_data
def saveDataToExcel(datasets,sheetname,filename):
  book = Workbook()
  sheet = book.add_sheet(sheetname)
  sheet.write(0,0,u'序号')
  sheet.write(0,1,u'球队')
  sheet.write(0,2,u'时间')
  sheet.write(0,3,u'结果')
  sheet.write(0,4,u'主客')
  sheet.write(0,5,u'比赛')
  sheet.write(0,6,u'投篮命中率')
  sheet.write(0,7,u'命中数')
  sheet.write(0,8,u'出手数')
  sheet.write(0,9,u'三分命中率')
  sheet.write(0,10,u'三分命中数')
  sheet.write(0,11,u'三分出手数')
  sheet.write(0,12,u'罚球命中率')
  sheet.write(0,13,u'罚球命中数')
  sheet.write(0,14,u'罚球出手数')
  sheet.write(0,15,u'篮板')
  sheet.write(0,16,u'前场篮板')
  sheet.write(0,17,u'后场篮板')
  sheet.write(0,18,u'助攻')
  sheet.write(0,19,u'抢断')
  sheet.write(0,20,u'盖帽')
  sheet.write(0,21,u'失误')
  sheet.write(0,22,u'犯规')
  sheet.write(0,23,u'得分')
  num = 24
  row_cnt = 0
  data_cnt = 0
  data_len = len(datasets)
  print 'data_len:',data_len
  while(data_cnt< data_len):
    row_cnt += 1
    print '序号:',row_cnt
    for col in range(num):
        # print col
        sheet.write(row_cnt,col,datasets[data_cnt])
        data_cnt += 1
  book.save(filename)
def writeDataToTxt(datasets):
  fp = open('nba_data.txt','w')
  line_cnt = 1
  for i in range(len(datasets)-1):
    #球队名称对齐的操作：如果球队名字过短或者为76人队是 球队名字后面加两个table 否则加1个table
    if line_cnt % 24 == 2 and len(datasets[i]) < 5 or datasets[i] == u'费城76人':
      fp.write(datasets[i]+'\t\t')
    else:
      fp.write(datasets[i]+'\t')
    line_cnt += 1
    if line_cnt % 24 == 1:
      fp.write('\n')
  fp.close()
if __name__ == "__main__":
  pages = int(1132/150)
  url_header = 'http://stat-nba.com/query_team.php?page='
  url_tail = '&QueryType=game&order=1&crtcol=date_out&GameType=season&PageNum=3000&Season0=2016&Season1=2017#label_show_result'
  url_lists = getURLLists(url_header,url_tail,pages)
  datasets = getNBAAllData(url_lists)
  writeDataToTxt(datasets)
  sheetname = 'nba normal data 2016-2017'
  str_time = time.strftime('%Y-%m-%d',time.localtime(time.time()))
  filename = 'nba_normal_data'+str_time+'.xls'
  saveDataToExcel(datasets,sheetname,filename)

更多关于Python相关内容可查看本站专题：《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python实现爬虫爬取NBA数据功能示例

- Author -

缥缈之力

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Django1.7+python 2.78+pycharm配置mysql数据库教程

Nov 18 Python

python 判断是否为正小数和正整数的实例

Jul 23 Python

Python selenium实现微博自动登录的示例代码

May 16 Python

Python3数据库操作包pymysql的操作方法

Jul 16 Python

python实现屏保计时器的示例代码

Aug 08 Python

python二维码操作:对QRCode和MyQR入门详解

Jun 24 Python

python实现宿舍管理系统

Nov 22 Python

Python中的wordcloud库安装问题及解决方法

May 27 Python

Python通过fnmatch模块实现文件名匹配

Sep 30 Python

关于PyCharm安装后修改路径名称使其可重新打开的问题

Oct 20 Python

python爬取代理ip的示例

Dec 18 Python

python内置模块之上下文管理contextlib

Jun 14 Python

Django+Ajax+jQuery实现网页动态更新的实例

May 28 #Python

Python实现合并两个列表的方法分析

May 28 #Python

django js实现部分页面刷新的示例代码

May 28 #Python

Django项目中用JS实现加载子页面并传值的方法

May 28 #Python

Python面向对象类继承和组合实例分析

May 28 #Python

django传值给模板, 再用JS接收并进行操作的实例

May 28 #Python

Django处理文件上传File Uploads的实例

May 28 #Python

You might like

用户的详细注册和判断

2006/10/09 PHP

PHP数组排序函数合集以及它们之间的联系分析

2013/06/27 PHP

PHP socket 模拟POST 请求实例代码

2016/07/18 PHP

php中时间函数date及常用的时间计算

2017/05/12 PHP

详解new function(){}和function(){}() 区别分析

2008/03/22 Javascript

jQuery chili图片远处放大插件

2009/11/30 Javascript

用js脚本控制asp.net下treeview的NodeCheck的实现代码

2010/03/02 Javascript

MC Dialog js弹出层完美兼容多浏览器(5.6更新)

2010/05/06 Javascript

setInterval()和setTimeout()的用法和区别示例介绍

2013/11/17 Javascript

JS实现文字放大效果的方法

2015/03/03 Javascript

解析Node.js基于模块和包的代码部署方式

2016/02/16 Javascript

基于jQuery实现弹出可关闭遮罩提示框实例代码

2016/07/18 Javascript

ionic进入多级目录后隐藏底部导航栏(tabs)的完美解决方案

2016/11/23 Javascript

angularjs中ng-attr的用法详解

2016/12/31 Javascript

easy ui datagrid 从编辑框中获取值的方法

2017/02/22 Javascript

vue-cli中打包图片路径错误的解决方法

2017/10/26 Javascript

Angular项目从新建、打包到nginx部署全过程记录

2017/12/09 Javascript

Vue SSR 组件加载问题

2018/05/02 Javascript

python模拟登录百度代码分享(获取百度贴吧等级)

2013/12/27 Python

老生常谈进程线程协程那些事儿

2017/07/24 Python

python 移除字符串尾部的数字方法

2018/07/17 Python

python实现矩阵打印

2019/03/02 Python

浅析Python 读取图像文件的性能对比

2019/03/07 Python

python实现代码审查自动回复消息

2021/02/01 Python

HTML5 Canvas 破碎重组的视频特效的示例代码

2019/09/24 HTML / CSS

美国值得信赖的婚恋交友网站：eHarmony

2018/10/04 全球购物

《夏夜多美》教学反思

2014/02/17 职场文书

加多宝凉茶广告词

2014/03/18 职场文书

《最佳路径》教学反思

2014/04/13 职场文书

四风个人对照检查材料思想汇报

2014/09/25 职场文书

政府班子四风问题整改措施思想汇报

2014/10/08 职场文书

年会邀请函范文

2015/01/30 职场文书

2015年学校保卫部工作总结

2015/05/11 职场文书

小学少先队工作总结2015

2015/05/26 职场文书

运动会入场词

2015/07/18 职场文书

MySQL系列之开篇 MySQL关系型数据库基础概念

2021/07/02 MySQL