编程 Python

Python数据分析之获取双色球历史信息的方法示例

Posted in Python onFebruary 03, 2018

本文实例讲述了Python数据分析之获取双色球历史信息的方法。分享给大家供大家参考，具体如下：

每个人都有一颗中双色球大奖的心，对于技术人员来说，通过技术分析，可以增加中奖几率，现使用python语言收集历史双色球中奖信息，之后进行预测分析。

说明：采用2016年5月15日获取的双色球数据为基础进行分析，总抽奖数1940次。

初级代码，有些内容比较繁琐，有更好的代码，大家可以分享。

#!/usr/bin/python
# -*- coding:UTF-8 -*-
#coding:utf-8
#author:levycui
#date:20160513
#Description:双色球信息收集
import urllib2
from bs4 import BeautifulSoup  #采用BeautifulSoup
import os
import re
#伪装成浏览器登陆,获取网页源代码
def getPage(href):
  headers = {
    'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
  }
  req = urllib2.Request(
    url = href ,
    headers = headers
  )
  try:
    post = urllib2.urlopen(req)
  except urllib2.HTTPError,e:
    print e.code
    print e.reason
  return post.read()
#初始化url 双色球首页
url = 'http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html'
#===============================================================================
#获取url总页数
def getPageNum(url):
  num =0
  page = getPage(url)
  soup = BeautifulSoup(page)
  strong = soup.find('td',colspan='7')
  # print strong
  if strong:
    result = strong.get_text().split(' ')
    # print result
    list_num = re.findall("[0-9]{1}",result[1])
    # print list_num
    for i in range(len(list_num)):
      num = num*10 + int(list_num[i])
    return num
  else:
    return 0
#===============================================================================
#获取每页双色球的信息
def getText(url):
  for list_num in range(1,getPageNum(url)):  #从第一页到第getPageNum(url)页
    print list_num #打印下页码
    href = 'http://kaijiang.zhcw.com/zhcw/html/ssq/list_'+str(list_num)+'.html' #调用新url链接
    # for listnum in len(list_num):
    page = BeautifulSoup(getPage(href))
    em_list = page.find_all('em')  #匹配em内容
    div_list = page.find_all('td',{'align':'center'})  #匹配 <td align=center>这样的内容
    #初始化n
    n = 0
    #将双色球数字信息写入num.txt文件
    fp = open("num.txt" ,"w")
    for div in em_list:
      emnum1 = div.get_text()
      # print emnum1
      text = div.get_text()
      text = text.encode('utf-8')
      #print title
      n=n+1
      if n==7:
        text = text + "\n"
        n=0
      else:
        text = text + ","
      fp.write(str(text))
    fp.close()
    #将日期信息写入date.txt文件
    fp = open("date.txt" ,"w")
    for div in div_list:
      text = div.get_text().strip('')
      # print text
      list_num = re.findall('\d{4}-\d{2}-\d{2}',text)
      list_num = str(list_num[::1])
      list_num = list_num[3:13]
      if len(list_num) == 0:
        continue
      elif len(list_num) > 1:
        fp.write(str(list_num)+'\n')
    fp.close()
    #将num.txt和date.txt文件进行整合写入hun.txt文件中
    #格式如下：
    #('2016-05-03', '09,12,24,28,29,30,02')
    #('2016-05-01', '06,08,13,14,22,27,10')
    #('2016-04-28', '03,08,13,14,15,30,04')
    #
    fp01 = open("date.txt","r")
    a=[]
    for line01 in fp01:
      a.append(line01.strip('\n'))
      # print a
    fp01.close()
    fp02 = open("num.txt","r")
    b=[]
    for line02 in fp02:
      b.append(line02.strip('\n'))
      # print b
    fp02.close()
    fp = open("hun.txt" ,"a")
    for cc in zip(a,b): #使用zip方法合并
      print cc
      fp.write(str(cc) + '\n')
    fp.close()
#===============================================================================
if __name__=="__main__":
  pageNum = getPageNum(url)
  print pageNum
  getpagetext = getText(url)
  print getpagetext

数据样例：

('2015-03-03', '09,11,16,18,23,24,10')
('2015-03-01', '08,09,10,13,29,30,01')
('2015-02-26', '04,07,10,16,23,25,10')

希望本文所述对大家Python程序设计有所帮助。

Python数据分析之获取双色球历史信息的方法示例

- Author -

levy_cui

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python获取远程文件大小的函数代码分享

May 13 Python

从局部变量和全局变量开始全面解析Python中变量的作用域

Jun 16 Python

简单谈谈Python中的反转字符串问题

Oct 24 Python

Django 前后台的数据传递的方法

Aug 08 Python

使用pandas中的DataFrame数据绘制柱状图的方法

Apr 10 Python

使用TensorFlow实现二分类的方法示例

Feb 05 Python

python开发游戏的前期准备

May 05 Python

Python实现平行坐标图的两种方法小结

Jul 04 Python

python用win32gui遍历窗口并设置窗口位置的方法

Jul 26 Python

python pyecharts 实现一个文件绘制多张图

May 13 Python

python小程序之4名牌手洗牌发牌问题解析

May 15 Python

pandas处理csv文件的方法步骤

Oct 16 Python

Python内建模块struct实例详解

Feb 02 #Python

获取python文件扩展名和文件名方法

Feb 02 #Python

Python字符串格式化%s%d%f详解

Feb 02 #Python

教你用一行Python代码实现并行任务（附代码）

Feb 02 #Python

Python实现Pig Latin小游戏实例代码

Feb 02 #Python

python在线编译器的简单原理及简单实现代码

Feb 02 #Python

使用Python进行AES加密和解密的示例代码

Feb 02 #Python

You might like

肝肠寸断了解下!盘点史上最伤心的十大动漫

2020/03/04 日漫

浅析php fwrite写入txt文件的时候用 \r\n不能换行的问题

2013/08/06 PHP

php生成图片验证码

2015/06/09 PHP

php实现的一段简单概率相关代码

2016/05/30 PHP

PHP连续签到功能实现方法详解

2019/12/04 PHP

jQuery(1.6.3) 中css方法对浮动的实现缺陷分析

2011/09/09 Javascript

一行代码实现纯数据json对象的深度克隆实现思路

2013/01/09 Javascript

js借助ActiveXObject实现创建文件

2013/09/29 Javascript

探析浏览器执行JavaScript脚本加载与代码执行顺序

2016/01/12 Javascript

基于jQuery仿淘宝产品图片放大镜特效

2020/10/19 Javascript

jQuery中设置form表单中action值的实现方法

2016/05/25 Javascript

详解基于Bootstrap+angular的一个豆瓣电影app

2017/06/26 Javascript

vue实现长图垂直居上 vue实现短图垂直居中

2017/10/18 Javascript

详解使用jQuery.i18n.properties实现js国际化

2018/05/04 jQuery

JavaScript中创建原子的方法总结

2018/08/26 Javascript

[01:01:23]完美世界DOTA2联赛PWL S2 Forest vs FTD.C 第一场 11.26

2020/11/30 DOTA

极简的Python入门指引

2015/04/01 Python

Python实现字符串反转的常用方法分析【4种方法】

2017/09/30 Python

使用python实现语音文件的特征提取方法

2019/01/09 Python

Python中的几种矩阵乘法（小结）

2019/07/10 Python

Python使用random模块生成随机数操作实例详解

2019/09/17 Python

PYTHON绘制雷达图代码实例

2019/10/15 Python

tensorflow求导和梯度计算实例

2020/01/23 Python

python实现FTP循环上传文件

2020/03/20 Python

Python3操作YAML文件格式方法解析

2020/04/10 Python

Python生成器next方法和send方法区别详解

2020/05/30 Python

python 实现网易邮箱邮件阅读和删除的辅助小脚本

2021/03/01 Python

CSS3混合模式mix-blend-mode/background-blend-mode简介

2018/03/15 HTML / CSS

css3针对移动端卡顿问题的解决(动画性能优化)

2020/02/14 HTML / CSS

白俄罗斯在线大型超市：e-dostavka.by

2019/07/25 全球购物

几个Shell Script面试题

2014/04/18 面试题

入党自我鉴定

2014/03/25 职场文书

2014年大学生就业规划书

2014/04/04 职场文书

委托代理人授权委托书范本

2014/09/24 职场文书

党的群众路线教育实践活动党员个人剖析材料

2014/10/08 职场文书

开业庆典致辞

2015/08/01 职场文书