Java使用httpRequest+Jsoup爬取红蓝球号码


Posted in Java/Android onJuly 02, 2021
目录
  • 1、Jsoup介绍
    • 1.1、简介
    • 1.2、Jsoup的主要功能
  • 2、源网站及页面元素分析
    • 2.1、号码源
    • 2.2、dom元素分析
  • 3、代码实现

某网站截图如下

Java使用httpRequest+Jsoup爬取红蓝球号码

 

2.2.2、页码区域分析

由于我们爬取数据的时候,需要进行翻页操作,所以这里还需要分析翻页部分的内容,继续在开发者工具中,定位页码区域

Java使用httpRequest+Jsoup爬取红蓝球号码

可以看到页码部分是<tbody>中的最后一个<tr>中,翻页操作的内容再class=pg的 <p> 标签中
可以拆分为多个<storage>标签数组,可以分析得出翻页链接的规律。
/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=页码

/zhcw/html/ssq/list_页码.html

 

元素 含义
0 总页数
1 总记录数
2 第一页的连接
3 上一页的链接
4 下一页的链接
5 最后一页的连接
6 当前页数
<tr>
    <td colspan="7" align="center" style="background:#fdf2e3;">
        <p class="zhu"></p>
        <p class="pg">
            共<strong>136</strong> 页 /<strong>2709 </strong>条记录 
            <strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp" rel="external nofollow" >首页</a></strong>
            <strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=1" rel="external nofollow" >上一页</a></strong>
            <strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=2" rel="external nofollow" >下一页</a></strong>
            <strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=136" rel="external nofollow" >末页</a></strong>
            当前第<strong> 1 </strong>页</p>
     </td>
 </tr>

 

3、代码实现

maven引用,这里使用的是Jsoup1.13.1版本

<dependency>
      <groupId>org.jsoup</groupId>
      <artifactId>jsoup</artifactId>
      <version>1.13.1</version>
  </dependency>

这使用的是基于jeecg开发的Job,搭建过程不赘述了,直接看主体代码。

public void execute(JobExecutionContext arg0) throws JobExecutionException {
  Integer maxPage=getMaxPage();//获取总页数
  for(int pageNo=0;pageNo<maxPage;pageNo++){//循环处理每一页的数据
   String url = "http://kaijiang.zhcw.com/zhcw/html/ssq/list_"+(pageNo+1)+".html";//拼访问地址
      String strDateFormat = "yyyy-MM-dd";
         SimpleDateFormat sdf = new SimpleDateFormat(strDateFormat);
   String html = JwtHttpUtil.httpRequest(url, "GET",null);//访问对应的页面
   Document doc =  Jsoup.parse(html);//用Jsoup解析页面内容并且解析为Document
   Document doc1= Jsoup.parse(doc.getElementsByClass("wqhgt").toString());//wqhgt是table标签的class,这里获取到开奖号码的table的内容并且解析为Document
   Elements trs= doc1.getElementsByTag("tr");//根据tag获取到所有的tr标签,这里获取到的是一个Element数组
   logger.info("当前页码---"+(pageNo+1)+"----"+trs.size());
   for(int i=2;i<trs.size()-1;i++){//这里是根据页面内容确定开奖内容是从第三个tr开始到倒数第二个tr结束,最后一个tr是翻页按钮
    try {
     Elements tds=trs.get(i).getElementsByTag("td");
     String kjrq=tds.get(0).text();
     String kjqh=tds.get(1).text();
     //这里是为了防止重复拉取,所以做了判断,如果已存在当前期的奖号,就直接跳过
     Long count=lotterySsqKjjlService.getCountForJdbc("select count(*) from lottery_ssq_kjjl where SSQ_KJQH='"+ kjqh + "'");
     //下面的内容很容易理解,就是可以对照页面分析部分内容看,就不赘述了
     if(count>0)break;
     LotterySsqKjjlEntity kjhmEntiry=new LotterySsqKjjlEntity();
        Elements kjhm=tds.get(2).getElementsByTag("em");
     kjhmEntiry.setSsqKjrq(sdf.parse(kjrq));
     kjhmEntiry.setSsqKjqh(kjqh);
        kjhmEntiry.setSsqR1(Integer.parseInt(kjhm.get(0).text()));
        kjhmEntiry.setSsqR2(Integer.parseInt(kjhm.get(1).text()));
        kjhmEntiry.setSsqR3(Integer.parseInt(kjhm.get(2).text()));
        kjhmEntiry.setSsqR4(Integer.parseInt(kjhm.get(3).text()));
        kjhmEntiry.setSsqR5(Integer.parseInt(kjhm.get(4).text()));
        kjhmEntiry.setSsqR6(Integer.parseInt(kjhm.get(5).text()));
        kjhmEntiry.setSsqB1(Integer.parseInt(kjhm.get(6).text()));
        lotterySsqKjjlService.save(kjhmEntiry);
    } catch (ParseException e) {
     // TODO Auto-generated catch block
     e.printStackTrace();
    } catch (Exception e) {
     // TODO Auto-generated catch block
     e.printStackTrace();
    }
   }
  }
  
 }
 
 private Integer getMaxPage(){
  String url = "http://kaijiang.zhcw.com/zhcw/html/ssq/list.html";
  String html = JwtHttpUtil.httpRequest(url, "GET",null);
  Document doc =  Jsoup.parse(html);
  Document docPageBar= Jsoup.parse(doc.getElementsByClass("pg").toString());
  Elements elePageBar = docPageBar.getElementsByTag("strong");
  Integer maxPageNo=Integer.parseInt(elePageBar.get(0).text());
  return maxPageNo;
 }

以下是执行完成的部分数据截图

Java使用httpRequest+Jsoup爬取红蓝球号码

拉取到基础数据后,我们可以再写一个job,去计算出每期开奖号码的指标,可以进行奖号分析,预测等。
这里简单实现了部分分析指标的计算,以下是主体代码。

public void run(){
  List<LotterySsqKjjlEntity> list= lotterySsqKjjlService.findByQueryString("from LotterySsqKjjlEntity t");
  for(int i=0;i<list.size();i++){
   LotterySsqKjjlEntity kjjg=list.get(i);
   logger.info("正在处理:"+kjjg.getSsqKjqh());
   kjjg.setSsqMin(kjjg.getSsqR1());//最小号
   kjjg.setSsqMax(kjjg.getSsqR6());//最大号
   kjjg.setSsqKd(kjjg.getSsqR6()-kjjg.getSsqR1());//号码跨度
   kjjg.setSsqJsCnt(ssqKjjgUtils(kjjg, "jsCnt"));//奇数个数
   kjjg.setSsqOsCnt(ssqKjjgUtils(kjjg, "osCnt"));//偶数个数
   kjjg.setSsqSum(ssqKjjgUtils(kjjg, "sum"));//号码和
   lotterySsqKjjlService.updateEntitie(kjjg);
   
  }
  logger.info("结果数据条数"+list.size());
 }
 /**
  * 
  * @param kjjg
  * @param opType jsgs=奇数个数
  * @return
  */
 private Integer ssqKjjgUtils(LotterySsqKjjlEntity kjjg,String opType){
  List<Integer> t =new ArrayList<Integer>();
  t.add(kjjg.getSsqR1());
  t.add(kjjg.getSsqR2());
  t.add(kjjg.getSsqR3());
  t.add(kjjg.getSsqR4());
  t.add(kjjg.getSsqR5());
  t.add(kjjg.getSsqR6());
  Integer result=0;
  switch (opType) {
  case "jsCnt":
  case "osCnt":
   int jsgs=0;
   int osgs=0;
   for(int i=0;i<t.size();i++){
    if(t.get(i)%2==0){
     osgs++;
    }else{
     jsgs++;
    }
   }
   if("jsCnt".equals(opType)){
    result=jsgs;
   }else{
    result=osgs;
   }
   break;
  case "sum":
   int sum=0;
   for(int i=0;i<t.size();i++){
    sum+=t.get(i);
   }
   result=sum;
   break;
  default:
   break;
  }
  return result;
 }

至此,这个简单的爬虫就写完了,可以利用爬过来的这些基础数据,进行一些数据分析,预测。

到此这篇关于Java使用httpRequest+Jsoup爬取红蓝球号码的文章就介绍到这了,更多相关Java 爬取红蓝球号码内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Java/Android 相关文章推荐
Spring Boot 启动、停止、重启、状态脚本
Jun 26 Java/Android
解决SpringBoot跨域的三种方式
Jun 26 Java/Android
Spring mvc是如何实现与数据库的前后端的连接操作的?
Jun 30 Java/Android
OpenCV实现普通阈值
Nov 17 Java/Android
Java使用JMeter进行高并发测试
Nov 23 Java/Android
java executor包参数处理功能 
Feb 15 Java/Android
关于EntityWrapper的in用法
Mar 22 Java/Android
Android自定义ScrollView实现阻尼回弹
Apr 01 Java/Android
JavaWeb Servlet开发注册页面实例
Apr 11 Java/Android
Android开发 使用文件储存的方式保存QQ密码
Apr 24 Java/Android
详解Android中的TimePickerView(时间选择器)的用法
Apr 30 Java/Android
Java Spring读取和存储详细操作
Aug 05 Java/Android
使用Springboot实现健身房管理系统
Java Kafka 消费积压监控的示例代码
springboot临时文件存储目录配置方式
Jul 01 #Java/Android
Mybatis-plus在项目中的简单应用
Jul 01 #Java/Android
SpringBoot 拦截器妙用你真的了解吗
解决SpringBoot文件上传临时目录找不到的问题
java实现对Hadoop的操作
Jul 01 #Java/Android
You might like
php安全开发 添加随机字符串验证,防止伪造跨站请求
2013/02/14 PHP
PHP调用VC编写的COM组件实例
2014/03/29 PHP
php使用正则表达式进行字符串搜索的方法
2015/03/23 PHP
php版微信公众平台之微信网页登陆授权示例
2016/09/23 PHP
Django 标签筛选的实现代码(一对多、多对多)
2018/09/05 PHP
Laravel 不同生产环境服务器的判断实践
2019/10/15 PHP
javascript Math.random()随机数函数
2009/11/04 Javascript
细说浏览器特性检测(2)-通用事件检测
2010/11/05 Javascript
jquery插件validate验证的小例子
2013/05/08 Javascript
Jquery的each里用return true或false代替break或continue
2014/05/21 Javascript
js实现从右向左缓缓浮出网页浮动层广告的方法
2015/05/09 Javascript
Node.js 应用跑得更快 10 个技巧
2016/04/03 Javascript
js控件Kindeditor实现图片自动上传功能
2020/07/20 Javascript
JavaScript算法系列之快速排序(Quicksort)算法实例详解
2016/09/04 Javascript
JavaScript中localStorage对象存储方式实例分析
2017/01/12 Javascript
JS区分Object与Aarry的六种方法总结
2017/02/27 Javascript
整理关于Bootstrap列表组的慕课笔记
2017/03/29 Javascript
基于zepto.js实现手机相册功能
2017/07/11 Javascript
Vue.js中的图片引用路径的方式
2017/07/28 Javascript
jQuery实现判断滚动条滚动到document底部的方法分析
2019/08/27 jQuery
JS插入排序简单理解与实现方法分析
2019/11/25 Javascript
Vue中的nextTick作用和几个简单的使用场景
2021/01/25 Vue.js
[05:15]DOTA2英雄梦之声_第16期_灰烬之灵
2014/06/21 DOTA
[05:00]TI9战队采访 - Royal Never Give Up
2019/08/20 DOTA
[48:51]完美世界DOTA2联赛PWL S2 Magma vs InkIce 第一场 11.28
2020/12/02 DOTA
使用Python代码实现Linux中的ls遍历目录命令的实例代码
2019/09/07 Python
python实现ssh及sftp功能(实例代码)
2020/03/16 Python
详解如何使用CSS3中的结构伪类选择器和伪元素选择器
2020/01/06 HTML / CSS
奥林匹亚体育:Olympia Sports
2020/12/30 全球购物
什么是设计模式
2012/06/17 面试题
影视制作岗位职责
2013/12/04 职场文书
银行委托书范本
2014/09/28 职场文书
单位政审意见范文
2015/06/04 职场文书
电力企业职工培训心得体会
2016/01/11 职场文书
解决Navicat for Mysql连接报错1251的问题(连接失败)
2021/05/27 MySQL
html+css实现文字折叠特效实例
2021/06/02 HTML / CSS