php知道与问问的采集插件代码


Posted in PHP onOctober 12, 2010

最近发现知道和问问小偷的版本越来越多了!!
看过一个百度小偷的网站也达到了pr6。收录十万多!!
在经过 荐礼啦 四十天的实践之后 发现百度对这个确实挺友好的。
从网站访问来看 很多也是从百度搜索来的!
所以用知道和问问来填充网站内容还是可行的。
于是自己开发了一个知道 问问的采集插件
原则上适合 php+mysql 并且文章是在一个表的程序
知道采集代码

<?php 
session_start(); 
header("content-type:text/html;charset=gbk"); 
require("stole_config.php"); 
require("conn.php"); 
require("keyword.php"); 
$searchStr=$_GET["searchStr"]; 
$ss=explode(" ",$searchStr);//拆分搜索关键字 
$word="";//关键字设为空 
foreach($ss as $key=>$t) 
{ 
if($key>0) 
{ 
$word .="+"; 
} 
$word .=urlencode($t); 
} 
$jl=intval($_GET['jl']); 
if(isset($_GET['page'])) 
{ 
$page=intval($_GET['page']); 
}else{ 
$page=1; 
} 
$rs=intval($_GET['rs']); 
if($rs>=10) 
{ 
$rs=0; 
$page++; 
} 
if($page>76) 
{ 
echo "采集完毕 ${jl}"; 
exit(); 
} 
if(!empty($searchStr))//如果搜索 
{ 
//获取问题页面 
$content=@file_get_contents("http://zhidao.baidu.com/q?ct=17&lm=0&tn=ikaslist&pn=".(($page-1)*10)."&rn=10&word=".$word); 
//获取问题列表 
preg_match_all("/<a href=\"\/question\/(.*)\.html/iUs",$content,$uid); 
$uid=$uid[1];//获取详细页文章 
$uid=$uid[$rs]; 
//判断数据是否存在 
$suid="bd{$uid}"; 
$sct=mysql_query("select count(*) from {$table_prefix}c_article where suid='$suid' "); 
$sct=mysql_fetch_array($sct); 
$sct=$sct[0]; 
if($sct==0) 
{ 
$content=@file_get_contents("http://zhidao.baidu.com/question/".$uid.".html") ; 
$arr=explode('<cq>',$content); 
$art_title=$arr[1]; 
$arr=explode('</cq>',$art_title); 
$art_title=$arr[0];//获取标题结束 
//判断内容是否符合 
$word_arr=explode(",",$cj_word); 
$word_allow=false;//初始化是否允许采集 
$word_count=count($word_arr);//关键字总数 
for($i=0;$i<$word_count;$i++) 
{ 
if(substr_count($art_title,$word_arr[$i])>0) 
{ 
$word_allow=1; 
$i=$word_count; 
} 
} 
if($word_allow)//如果满足条件 
{ 
$arr=explode('<cd><pre>',$content); 
$contentQuestion=$arr[1]; 
$arr=explode('</pre></cd>',$contentQuestion); 
$contentQuestion=$arr[0]; 
echo "开始采集内容<br>"; 
echo "$art_title<br>"; 
@preg_match_all('/(<ca>|<cn>)<pre>(.*)<\/pre>(<\/ca>|<\/cn>)/iUs',$content,$answerArr); 
$answerArr=$answerArr[2]; 
if($arr_order==1)//随机排序 
{ 
shuffle($answerArr); 
} 
if($arr_order==2)//倒序 
{ 
$answerArr=krsort($answerArr);//倒序 
} 
foreach($answerArr as $t) 
{ 
$answerTemp=str_replace('<ca><pre>','',$t); 
$answerTemp=str_replace('</pre></ca>','',$answerTemp); 
$answerTemp=str_replace('<cn><pre>','',$answerTemp); 
$answerTemp=str_replace('</pre></cn>','',$answerTemp); 
if(strlen($answerTemp)>$min_t1) 
{ 
$art_content .=$answerTemp."<br>"; 
} 
} 
//去除链接 
$s1="/(<a .*>)(.*)<\/a>/iUs"; 
$art_content=preg_replace($s1,${2},trim($art_content)); 
$art_content=str_replace("\n\r","<br>",$art_content); 
if(strlen($art_content)>$min_t2) 
{ 
$title_ct=mysql_query("select count(*) from {$table_prefix}c_article where art_title ='$art_title' ");//查看标题是否重复 
$title_ct=@mysql_fetch_array($title_ct); 
$title_ct=$title_ct[0]; 
if($title_ct>0) 
{ 
$art_title .="{$same_title}{$title_ct}"; 
} 
$art_time=date("Y-m-d"); 
$art_content=strtr($art_content,$keyword); 
$sql="insert into {$table_prefix}c_article(art_title,art_content,art_time,art_author,suid) values('$art_title','$art_content','$art_time','$art_author','$suid')";//插入采集表 
mysql_query($sql); 
if(empty($t_catx_id))//如果无分类 
{ 
$sql2="insert into {$t_table}({$t_art_title},{$t_art_content},{$t_art_time},{$t_artx_author}) values('$art_title','$art_content','$art_time','$art_author')"; 
}else 
{ 
$sql2="insert into {$t_table}({$t_art_title},{$t_art_content},{$t_art_time},{$t_artx_author},{$t_catx_id}) values('$art_title','$art_content','$art_time','$art_author','$cat_id')"; 
} 
mysql_query($sql2);//插入文章表 
$jl++; 
//数据库处理完毕 
}else 
{ 
echo "内容长度不够"; 
} 
//获取文章内容结束 
}else 
{ 
echo "主题不符合要求"; 
} 
}else 
{ 
echo "已经存在"; 
}$rs++; 
file_put_contents("bd.txt","采集{$searchStr}到第{$page}第{$rs}条"); 
echo "<script>location.href='baidu.php?searchStr=".urlencode($searchStr)."&page=".$page."&rs=".$rs."&jl=".$jl." ';</script>"; 
exit(); 
} 
?> 
<link href="style.css" rel="stylesheet" type="text/css" /> 
<table width="700" border="0" align="center" cellspacing="1" bgcolor="#CCCCCC"> 
<tr> 
<td height="50" align="center" bgcolor="#00CC00"><h1><a href="http://www.jianlila.com">荐礼啦</a>知道问问采集插件</h1></td> 
</tr> 
</table> 
<table width="700" border="0" align="center" cellspacing="1" bgcolor="#CCCCCC" style="margin-top:6px; margin-bottom:6px;"> 
<tr> 
<td height="30" align="center" bgcolor="#FFFFFF"><a href="cj_config.php">采集设置</a> <a href="uninstall.php" onclick="return confirm('您确定要卸载采集插件吗');">卸载采集</a> <a href="cj_view.php">查看采集记录</a> <a href="cj_help.php">采集帮助</a> <a href="baidu.php" target="_blank">知道采集</a>  <a href="wenwen.php" target="_blank">问问采集</a></td> 
</tr> 
</table> 
<table width="537" height="45" align="center" style="margin-top:30px;"><tr><td height="39"> 
<form id="form1" name="form1" method="get" action="baidu.php"> 
<div id="search"> 
<input name="searchStr" type="text" id="searchStr" value="<?php echo $searchStr; ?>" size="60" /> 
<input type="submit" name="searchBtn" id="searchBtn" value="知道偷偷" style="height:25px; line-height:25px;" /> 
</div> 
</form> 
</td></tr></table>

问问采集代码:
<?php 
session_start(); 
header("content-type:text/html;charset=utf-8"); 
require("stole_config.php"); 
require("conn.php"); 
require("keyword.php"); 
if(!empty($_POST['ask'])) 
{ 
$ask=urlencode(trim($_POST['ask']));//获取表单提交的问题 
$sp="S".$ask; 
}else 
{ 
$sp=urlencode($_GET['sp']); 
} 
if(empty($_GET['jl'])) 
{ 
$_GET['jl']=1; 
} 
$jl=$_GET['jl']; 
$pg=intval($_GET['pg']);//获取页数 
$rs=intval($_GET['rs']);//获得 记录的参数 
if($rs>9) 
{ 
$rs=0; 
$pg++; 
} 
if($pg>51) 
{ 
echo "采集完毕! 总共采集 ".urldecode($sp)." ".$jl."条记录"; 
exit(); 
} 
if($sp)//有设定答案才开始 
{ 
$str=@file_get_contents("http://wenwen.soso.com/z/Search.e?sp={$sp}&pg={$pg}"); 
@preg_match("/<ol class=\"result_list\">(.*)<\/ol>/iUs",$str,$asklist);//获取问答列表 
//echo $asklist[1]; 
$url="/<a target=\"_blank\" href=\"\/z\/(q.*\.htm)/iUs"; 
@preg_match_all($url,$asklist[1],$urllist);//获取 所有的问题 
$t=$urllist[1][$rs]; 
$uid=$t; 
$suid="ww{$uid}"; 
$sct=mysql_query("select count(*) from {$table_prefix}c_article where suid='$suid' "); 
$sct=mysql_fetch_array($sct); 
$sct=$sct[0]; 
if($sct==0) 
{ 
$html=@file_get_contents("http://wenwen.soso.com/z/${t}"); 
$html=str_replace("<pre>","",str_replace("</pre>","",$html)); 
$html=str_replace("<br/><br/><br/>","<br/><br/>",$html); 
//echo $html; 
@preg_match("/<div class=\"question_main\">.*<h3>(.*)<\/h3>/iUs",$html,$ask_title); 
$art_title=$ask_title[1]; 
@preg_match("/<div class=\"answer_con\">(.*)<\/div>/iUs",$html,$answer); 
$j=count($answer)-1; 
$art_content="";//商品详细 
for($i=$j;$i>=1;$i--) 
{ 
if(strlen($answer[$i])>$min_t1) 
{ 
$art_content .= $answer[$i]; 
} 
} 
$art_content=trim($art_content); 
$s1="/(<a .*>)(.*)<\/a>/iUs"; 
$art_content=preg_replace($s1,${2},trim($art_content)); 
$word_arr=explode(",",iconv("gbk","utf-8",$cj_word)); 
$word_allow=false;//初始化是否允许采集 
$word_count=count($word_arr);//总数 
for($i=0;$i<$word_count;$i++) 
{ 
if(substr_count($art_title,$word_arr[$i])>0) 
{ 
$word_allow=1; 
$i=$word_count; 
} 
} 
if($word_allow)//如果合法 
{ //开始处理数据库 
if(strlen($art_content)>$min_t2) 
{ 
echo "<font color=red>添加中............................</font><br>"; 
echo $art_title."<br>"; 
$art_title=iconv('utf-8','gbk', $art_title); 
$title_ct=mysql_query("select count(*) from {$table_prefix}c_article where art_title ='$art_title' ");//查看标题是否重复 
$title_ct=@mysql_fetch_array($title_ct); 
$title_ct=$title_ct[0]; 
if($title_ct>0) 
{ 
$art_title .="{$same_title}{$title_ct}"; 
} 
$art_content=iconv('utf-8','gbk',str_replace("\r\n","<br>",$art_content)); 
$art_content=strtr($art_content,$keyword); 
$art_time=date("Y-m-d"); 
$sql="insert into {$table_prefix}c_article(art_title,art_content,art_time,art_author,suid) values('$art_title','$art_content','$art_time','$art_author','$suid')";//插入采集表 
mysql_query($sql); 
if(empty($t_catx_id))//如果无分类 
{ 
$sql2="insert into {$t_table}({$t_art_title},{$t_art_content},{$t_art_time},{$t_artx_author}) values('$art_title','$art_content','$art_time','$art_author')"; 
}else 
{ 
$sql2="insert into {$t_table}({$t_art_title},{$t_art_content},{$t_art_time},{$t_artx_author},{$t_catx_id}) values('$art_title','$art_content','$art_time','$art_author','$cat_id')"; 
} 
mysql_query($sql2);//插入文章表 
$jl++;//如果存放数据库中 则记录加1 
//处理数据库结束 
}else 
{ 
echo "长度不够"; 
} 
}else 
{ 
echo "主题不符合要求"; 
} 
}else 
{ 
echo "已经存在"; 
} 
$rs++; 
//记录下本次采集 的状况 
$f_tt= urldecode($sp)."--页数".$pg." 记录数 ".$jl ; 
file_put_contents("ss.txt",$f_tt); 
echo "<script>location.href='wenwen.php?jl=".$jl."&sp=".$sp."&pg=".$pg."&rs=".$rs." ';</script>"; 
exit(); 
} 
?> 
<link href="style.css" rel="stylesheet" type="text/css" /> 
<table width="700" border="0" align="center" cellspacing="1" bgcolor="#CCCCCC"> 
<tr> 
<td height="50" align="center" bgcolor="#00CC00"><h1><a href="http://www.jianlila.com">荐礼啦</a>知道问问采集插件</h1></td> 
</tr> 
</table> 
<table width="700" border="0" align="center" cellspacing="1" bgcolor="#CCCCCC" style="margin-top:6px; margin-bottom:6px;"> 
<tr> 
<td height="30" align="center" bgcolor="#FFFFFF"><a href="cj_config.php">采集设置</a> <a href="uninstall.php" onclick="return confirm('您确定要卸载采集插件吗');">卸载采集</a> <a href="cj_view.php">查看采集记录</a> <a href="cj_help.php">采集帮助</a> <a href="baidu.php" target="_blank">知道采集</a>  <a href="wenwen.php" target="_blank">问问采集</a></td> 
</tr> 
</table> 
<form action="wenwen.php" method="post"> 
<table width="628" height="49" border="0" align="center"> 
<tr> 
<td width="413" align="right"><input name="ask" type="text" id="ask" size="50"></td> 
<td width="205"><input type="submit" name="button" id="button" value="问问采集" style=" padding-left:15px; padding-right:15px; height:25px; line-height:25px;"></td> 
</tr> 
</table> 
</form>
PHP 相关文章推荐
详解:――如何将图片储存在数据库里
Dec 05 PHP
深入PHP数据加密详解
Jun 18 PHP
PHP多例模式介绍
Jun 24 PHP
关于PHP自动判断字符集并转码的详解
Jun 26 PHP
PHP中VC6、VC9、TS、NTS版本的区别与用法详解
Oct 26 PHP
PHP实现的交通银行网银在线支付接口ECSHOP插件和使用例子
May 10 PHP
几个实用的PHP内置函数使用指南
Nov 27 PHP
Zend Framework教程之资源(Resources)用法实例详解
Mar 14 PHP
Yii2 中实现单点登录的方法
Mar 09 PHP
PHP类与对象后期静态绑定操作实例详解
Dec 20 PHP
php基于协程实现异步的方法分析
Jul 17 PHP
PHP底层运行机制与工作原理详解
Jul 31 PHP
php笔记之常用文件操作
Oct 12 #PHP
php+jquery编码方面的一些心得(utf-8 gb2312)
Oct 12 #PHP
windows下升级PHP到5.3.3的过程及注意事项
Oct 12 #PHP
PHP OPCode缓存 APC详细介绍
Oct 12 #PHP
并发下常见的加锁及锁的PHP具体实现代码
Oct 12 #PHP
PHP开发的一些注意点总结
Oct 12 #PHP
php更改目录及子目录下所有的文件后缀的代码
Sep 24 #PHP
You might like
Protoss热键控制
2020/03/14 星际争霸
php函数serialize()与unserialize()用法实例
2014/11/06 PHP
浅谈PHP检查数组中是否存在某个值 in_array 函数
2016/06/13 PHP
在多个页面使用同一个HTML片段的代码
2011/03/04 Javascript
angularjs中的e2e测试实例
2014/12/06 Javascript
深入理解JavaScript系列(39):设计模式之适配器模式详解
2015/03/04 Javascript
基于jQuery通过jQuery.form.js插件使用ajax提交form表单
2015/08/17 Javascript
javascript实现省市区三级联动下拉框菜单
2015/11/17 Javascript
js纯数字逐一停止显示效果的实现代码
2016/03/16 Javascript
JavaScript事件用法浅析
2016/10/31 Javascript
jsTree使用记录实例
2016/12/01 Javascript
mac下的nodejs环境安装的步骤
2017/05/24 NodeJs
nodeJS实现路由功能实例代码
2017/06/08 NodeJs
vue中的watch监听数据变化及watch中各属性的详解
2018/09/11 Javascript
少女风vue组件库的制作全过程
2019/05/15 Javascript
node中使用log4js4.x版本记录日志的方法
2019/08/20 Javascript
查找Vue中下标的操作(some和findindex)
2020/08/12 Javascript
js实现滑动进度条效果
2020/08/21 Javascript
jQuery实现手风琴特效
2021/01/11 jQuery
[01:01:42]Secret vs Optic Supermajor 胜者组 BO3 第二场 6.4
2018/06/05 DOTA
使用cx_freeze把python打包exe示例
2014/01/24 Python
深入讨论Python函数的参数的默认值所引发的问题的原因
2015/03/30 Python
python中私有函数调用方法解密
2016/04/29 Python
Python动态语言与鸭子类型详解
2019/07/01 Python
Django处理Ajax发送的Get请求代码详解
2019/07/29 Python
如何使用python代码操作git代码
2020/02/29 Python
Python无头爬虫下载文件的实现
2020/04/02 Python
python获取响应某个字段值的3种实现方法
2020/04/30 Python
python实现计算器简易版
2020/12/17 Python
李维斯牛仔裤英国官方网站:Levi’s英国
2019/10/10 全球购物
教师辞职报告范文
2014/01/20 职场文书
工作说明书范文
2014/05/07 职场文书
代领毕业证委托书
2014/08/02 职场文书
股东授权委托书范本
2014/09/13 职场文书
公司的力量观后感
2015/06/05 职场文书
MySQL 那些常见的错误设计规范,你都知道吗
2021/07/16 MySQL