Posted in Java/Android onJuly 02, 2021
目录
- 1、Jsoup介绍
- 1.1、简介
- 1.2、Jsoup的主要功能
- 2、源网站及页面元素分析
- 2.1、号码源
- 2.2、dom元素分析
- 3、代码实现
某网站截图如下
2.2.2、页码区域分析
由于我们爬取数据的时候,需要进行翻页操作,所以这里还需要分析翻页部分的内容,继续在开发者工具中,定位页码区域
可以看到页码部分是<tbody>中的最后一个<tr>中,翻页操作的内容再class=pg的 <p> 标签中
可以拆分为多个<storage>标签数组,可以分析得出翻页链接的规律。
/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=页码
或
/zhcw/html/ssq/list_页码.html
元素 | 含义 |
---|---|
0 | 总页数 |
1 | 总记录数 |
2 | 第一页的连接 |
3 | 上一页的链接 |
4 | 下一页的链接 |
5 | 最后一页的连接 |
6 | 当前页数 |
<tr>
<td colspan="7" align="center" style="background:#fdf2e3;">
<p class="zhu"></p>
<p class="pg">
共<strong>136</strong> 页 /<strong>2709 </strong>条记录
<strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp" rel="external nofollow" >首页</a></strong>
<strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=1" rel="external nofollow" >上一页</a></strong>
<strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=2" rel="external nofollow" >下一页</a></strong>
<strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=136" rel="external nofollow" >末页</a></strong>
当前第<strong> 1 </strong>页</p>
</td>
</tr>
3、代码实现
maven引用,这里使用的是Jsoup1.13.1版本
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.13.1</version>
</dependency>
这使用的是基于jeecg开发的Job,搭建过程不赘述了,直接看主体代码。
public void execute(JobExecutionContext arg0) throws JobExecutionException {
Integer maxPage=getMaxPage();//获取总页数
for(int pageNo=0;pageNo<maxPage;pageNo++){//循环处理每一页的数据
String url = "http://kaijiang.zhcw.com/zhcw/html/ssq/list_"+(pageNo+1)+".html";//拼访问地址
String strDateFormat = "yyyy-MM-dd";
SimpleDateFormat sdf = new SimpleDateFormat(strDateFormat);
String html = JwtHttpUtil.httpRequest(url, "GET",null);//访问对应的页面
Document doc = Jsoup.parse(html);//用Jsoup解析页面内容并且解析为Document
Document doc1= Jsoup.parse(doc.getElementsByClass("wqhgt").toString());//wqhgt是table标签的class,这里获取到开奖号码的table的内容并且解析为Document
Elements trs= doc1.getElementsByTag("tr");//根据tag获取到所有的tr标签,这里获取到的是一个Element数组
logger.info("当前页码---"+(pageNo+1)+"----"+trs.size());
for(int i=2;i<trs.size()-1;i++){//这里是根据页面内容确定开奖内容是从第三个tr开始到倒数第二个tr结束,最后一个tr是翻页按钮
try {
Elements tds=trs.get(i).getElementsByTag("td");
String kjrq=tds.get(0).text();
String kjqh=tds.get(1).text();
//这里是为了防止重复拉取,所以做了判断,如果已存在当前期的奖号,就直接跳过
Long count=lotterySsqKjjlService.getCountForJdbc("select count(*) from lottery_ssq_kjjl where SSQ_KJQH='"+ kjqh + "'");
//下面的内容很容易理解,就是可以对照页面分析部分内容看,就不赘述了
if(count>0)break;
LotterySsqKjjlEntity kjhmEntiry=new LotterySsqKjjlEntity();
Elements kjhm=tds.get(2).getElementsByTag("em");
kjhmEntiry.setSsqKjrq(sdf.parse(kjrq));
kjhmEntiry.setSsqKjqh(kjqh);
kjhmEntiry.setSsqR1(Integer.parseInt(kjhm.get(0).text()));
kjhmEntiry.setSsqR2(Integer.parseInt(kjhm.get(1).text()));
kjhmEntiry.setSsqR3(Integer.parseInt(kjhm.get(2).text()));
kjhmEntiry.setSsqR4(Integer.parseInt(kjhm.get(3).text()));
kjhmEntiry.setSsqR5(Integer.parseInt(kjhm.get(4).text()));
kjhmEntiry.setSsqR6(Integer.parseInt(kjhm.get(5).text()));
kjhmEntiry.setSsqB1(Integer.parseInt(kjhm.get(6).text()));
lotterySsqKjjlService.save(kjhmEntiry);
} catch (ParseException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
}
private Integer getMaxPage(){
String url = "http://kaijiang.zhcw.com/zhcw/html/ssq/list.html";
String html = JwtHttpUtil.httpRequest(url, "GET",null);
Document doc = Jsoup.parse(html);
Document docPageBar= Jsoup.parse(doc.getElementsByClass("pg").toString());
Elements elePageBar = docPageBar.getElementsByTag("strong");
Integer maxPageNo=Integer.parseInt(elePageBar.get(0).text());
return maxPageNo;
}
以下是执行完成的部分数据截图
拉取到基础数据后,我们可以再写一个job,去计算出每期开奖号码的指标,可以进行奖号分析,预测等。
这里简单实现了部分分析指标的计算,以下是主体代码。
public void run(){
List<LotterySsqKjjlEntity> list= lotterySsqKjjlService.findByQueryString("from LotterySsqKjjlEntity t");
for(int i=0;i<list.size();i++){
LotterySsqKjjlEntity kjjg=list.get(i);
logger.info("正在处理:"+kjjg.getSsqKjqh());
kjjg.setSsqMin(kjjg.getSsqR1());//最小号
kjjg.setSsqMax(kjjg.getSsqR6());//最大号
kjjg.setSsqKd(kjjg.getSsqR6()-kjjg.getSsqR1());//号码跨度
kjjg.setSsqJsCnt(ssqKjjgUtils(kjjg, "jsCnt"));//奇数个数
kjjg.setSsqOsCnt(ssqKjjgUtils(kjjg, "osCnt"));//偶数个数
kjjg.setSsqSum(ssqKjjgUtils(kjjg, "sum"));//号码和
lotterySsqKjjlService.updateEntitie(kjjg);
}
logger.info("结果数据条数"+list.size());
}
/**
*
* @param kjjg
* @param opType jsgs=奇数个数
* @return
*/
private Integer ssqKjjgUtils(LotterySsqKjjlEntity kjjg,String opType){
List<Integer> t =new ArrayList<Integer>();
t.add(kjjg.getSsqR1());
t.add(kjjg.getSsqR2());
t.add(kjjg.getSsqR3());
t.add(kjjg.getSsqR4());
t.add(kjjg.getSsqR5());
t.add(kjjg.getSsqR6());
Integer result=0;
switch (opType) {
case "jsCnt":
case "osCnt":
int jsgs=0;
int osgs=0;
for(int i=0;i<t.size();i++){
if(t.get(i)%2==0){
osgs++;
}else{
jsgs++;
}
}
if("jsCnt".equals(opType)){
result=jsgs;
}else{
result=osgs;
}
break;
case "sum":
int sum=0;
for(int i=0;i<t.size();i++){
sum+=t.get(i);
}
result=sum;
break;
default:
break;
}
return result;
}
至此,这个简单的爬虫就写完了,可以利用爬过来的这些基础数据,进行一些数据分析,预测。
到此这篇关于Java使用httpRequest+Jsoup爬取红蓝球号码的文章就介绍到这了,更多相关Java 爬取红蓝球号码内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!
Java使用httpRequest+Jsoup爬取红蓝球号码
- Author -
一路发声明:登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。
Reply on: @reply_date@
@reply_contents@