php知道与问问的采集插件代码


Posted in PHP onOctober 12, 2010

最近发现知道和问问小偷的版本越来越多了!!
看过一个百度小偷的网站也达到了pr6。收录十万多!!
在经过 荐礼啦 四十天的实践之后 发现百度对这个确实挺友好的。
从网站访问来看 很多也是从百度搜索来的!
所以用知道和问问来填充网站内容还是可行的。
于是自己开发了一个知道 问问的采集插件
原则上适合 php+mysql 并且文章是在一个表的程序
知道采集代码

<?php 
session_start(); 
header("content-type:text/html;charset=gbk"); 
require("stole_config.php"); 
require("conn.php"); 
require("keyword.php"); 
$searchStr=$_GET["searchStr"]; 
$ss=explode(" ",$searchStr);//拆分搜索关键字 
$word="";//关键字设为空 
foreach($ss as $key=>$t) 
{ 
if($key>0) 
{ 
$word .="+"; 
} 
$word .=urlencode($t); 
} 
$jl=intval($_GET['jl']); 
if(isset($_GET['page'])) 
{ 
$page=intval($_GET['page']); 
}else{ 
$page=1; 
} 
$rs=intval($_GET['rs']); 
if($rs>=10) 
{ 
$rs=0; 
$page++; 
} 
if($page>76) 
{ 
echo "采集完毕 ${jl}"; 
exit(); 
} 
if(!empty($searchStr))//如果搜索 
{ 
//获取问题页面 
$content=@file_get_contents("http://zhidao.baidu.com/q?ct=17&lm=0&tn=ikaslist&pn=".(($page-1)*10)."&rn=10&word=".$word); 
//获取问题列表 
preg_match_all("/<a href=\"\/question\/(.*)\.html/iUs",$content,$uid); 
$uid=$uid[1];//获取详细页文章 
$uid=$uid[$rs]; 
//判断数据是否存在 
$suid="bd{$uid}"; 
$sct=mysql_query("select count(*) from {$table_prefix}c_article where suid='$suid' "); 
$sct=mysql_fetch_array($sct); 
$sct=$sct[0]; 
if($sct==0) 
{ 
$content=@file_get_contents("http://zhidao.baidu.com/question/".$uid.".html") ; 
$arr=explode('<cq>',$content); 
$art_title=$arr[1]; 
$arr=explode('</cq>',$art_title); 
$art_title=$arr[0];//获取标题结束 
//判断内容是否符合 
$word_arr=explode(",",$cj_word); 
$word_allow=false;//初始化是否允许采集 
$word_count=count($word_arr);//关键字总数 
for($i=0;$i<$word_count;$i++) 
{ 
if(substr_count($art_title,$word_arr[$i])>0) 
{ 
$word_allow=1; 
$i=$word_count; 
} 
} 
if($word_allow)//如果满足条件 
{ 
$arr=explode('<cd><pre>',$content); 
$contentQuestion=$arr[1]; 
$arr=explode('</pre></cd>',$contentQuestion); 
$contentQuestion=$arr[0]; 
echo "开始采集内容<br>"; 
echo "$art_title<br>"; 
@preg_match_all('/(<ca>|<cn>)<pre>(.*)<\/pre>(<\/ca>|<\/cn>)/iUs',$content,$answerArr); 
$answerArr=$answerArr[2]; 
if($arr_order==1)//随机排序 
{ 
shuffle($answerArr); 
} 
if($arr_order==2)//倒序 
{ 
$answerArr=krsort($answerArr);//倒序 
} 
foreach($answerArr as $t) 
{ 
$answerTemp=str_replace('<ca><pre>','',$t); 
$answerTemp=str_replace('</pre></ca>','',$answerTemp); 
$answerTemp=str_replace('<cn><pre>','',$answerTemp); 
$answerTemp=str_replace('</pre></cn>','',$answerTemp); 
if(strlen($answerTemp)>$min_t1) 
{ 
$art_content .=$answerTemp."<br>"; 
} 
} 
//去除链接 
$s1="/(<a .*>)(.*)<\/a>/iUs"; 
$art_content=preg_replace($s1,${2},trim($art_content)); 
$art_content=str_replace("\n\r","<br>",$art_content); 
if(strlen($art_content)>$min_t2) 
{ 
$title_ct=mysql_query("select count(*) from {$table_prefix}c_article where art_title ='$art_title' ");//查看标题是否重复 
$title_ct=@mysql_fetch_array($title_ct); 
$title_ct=$title_ct[0]; 
if($title_ct>0) 
{ 
$art_title .="{$same_title}{$title_ct}"; 
} 
$art_time=date("Y-m-d"); 
$art_content=strtr($art_content,$keyword); 
$sql="insert into {$table_prefix}c_article(art_title,art_content,art_time,art_author,suid) values('$art_title','$art_content','$art_time','$art_author','$suid')";//插入采集表 
mysql_query($sql); 
if(empty($t_catx_id))//如果无分类 
{ 
$sql2="insert into {$t_table}({$t_art_title},{$t_art_content},{$t_art_time},{$t_artx_author}) values('$art_title','$art_content','$art_time','$art_author')"; 
}else 
{ 
$sql2="insert into {$t_table}({$t_art_title},{$t_art_content},{$t_art_time},{$t_artx_author},{$t_catx_id}) values('$art_title','$art_content','$art_time','$art_author','$cat_id')"; 
} 
mysql_query($sql2);//插入文章表 
$jl++; 
//数据库处理完毕 
}else 
{ 
echo "内容长度不够"; 
} 
//获取文章内容结束 
}else 
{ 
echo "主题不符合要求"; 
} 
}else 
{ 
echo "已经存在"; 
}$rs++; 
file_put_contents("bd.txt","采集{$searchStr}到第{$page}第{$rs}条"); 
echo "<script>location.href='baidu.php?searchStr=".urlencode($searchStr)."&page=".$page."&rs=".$rs."&jl=".$jl." ';</script>"; 
exit(); 
} 
?> 
<link href="style.css" rel="stylesheet" type="text/css" /> 
<table width="700" border="0" align="center" cellspacing="1" bgcolor="#CCCCCC"> 
<tr> 
<td height="50" align="center" bgcolor="#00CC00"><h1><a href="http://www.jianlila.com">荐礼啦</a>知道问问采集插件</h1></td> 
</tr> 
</table> 
<table width="700" border="0" align="center" cellspacing="1" bgcolor="#CCCCCC" style="margin-top:6px; margin-bottom:6px;"> 
<tr> 
<td height="30" align="center" bgcolor="#FFFFFF"><a href="cj_config.php">采集设置</a> <a href="uninstall.php" onclick="return confirm('您确定要卸载采集插件吗');">卸载采集</a> <a href="cj_view.php">查看采集记录</a> <a href="cj_help.php">采集帮助</a> <a href="baidu.php" target="_blank">知道采集</a>  <a href="wenwen.php" target="_blank">问问采集</a></td> 
</tr> 
</table> 
<table width="537" height="45" align="center" style="margin-top:30px;"><tr><td height="39"> 
<form id="form1" name="form1" method="get" action="baidu.php"> 
<div id="search"> 
<input name="searchStr" type="text" id="searchStr" value="<?php echo $searchStr; ?>" size="60" /> 
<input type="submit" name="searchBtn" id="searchBtn" value="知道偷偷" style="height:25px; line-height:25px;" /> 
</div> 
</form> 
</td></tr></table>

问问采集代码:
<?php 
session_start(); 
header("content-type:text/html;charset=utf-8"); 
require("stole_config.php"); 
require("conn.php"); 
require("keyword.php"); 
if(!empty($_POST['ask'])) 
{ 
$ask=urlencode(trim($_POST['ask']));//获取表单提交的问题 
$sp="S".$ask; 
}else 
{ 
$sp=urlencode($_GET['sp']); 
} 
if(empty($_GET['jl'])) 
{ 
$_GET['jl']=1; 
} 
$jl=$_GET['jl']; 
$pg=intval($_GET['pg']);//获取页数 
$rs=intval($_GET['rs']);//获得 记录的参数 
if($rs>9) 
{ 
$rs=0; 
$pg++; 
} 
if($pg>51) 
{ 
echo "采集完毕! 总共采集 ".urldecode($sp)." ".$jl."条记录"; 
exit(); 
} 
if($sp)//有设定答案才开始 
{ 
$str=@file_get_contents("http://wenwen.soso.com/z/Search.e?sp={$sp}&pg={$pg}"); 
@preg_match("/<ol class=\"result_list\">(.*)<\/ol>/iUs",$str,$asklist);//获取问答列表 
//echo $asklist[1]; 
$url="/<a target=\"_blank\" href=\"\/z\/(q.*\.htm)/iUs"; 
@preg_match_all($url,$asklist[1],$urllist);//获取 所有的问题 
$t=$urllist[1][$rs]; 
$uid=$t; 
$suid="ww{$uid}"; 
$sct=mysql_query("select count(*) from {$table_prefix}c_article where suid='$suid' "); 
$sct=mysql_fetch_array($sct); 
$sct=$sct[0]; 
if($sct==0) 
{ 
$html=@file_get_contents("http://wenwen.soso.com/z/${t}"); 
$html=str_replace("<pre>","",str_replace("</pre>","",$html)); 
$html=str_replace("<br/><br/><br/>","<br/><br/>",$html); 
//echo $html; 
@preg_match("/<div class=\"question_main\">.*<h3>(.*)<\/h3>/iUs",$html,$ask_title); 
$art_title=$ask_title[1]; 
@preg_match("/<div class=\"answer_con\">(.*)<\/div>/iUs",$html,$answer); 
$j=count($answer)-1; 
$art_content="";//商品详细 
for($i=$j;$i>=1;$i--) 
{ 
if(strlen($answer[$i])>$min_t1) 
{ 
$art_content .= $answer[$i]; 
} 
} 
$art_content=trim($art_content); 
$s1="/(<a .*>)(.*)<\/a>/iUs"; 
$art_content=preg_replace($s1,${2},trim($art_content)); 
$word_arr=explode(",",iconv("gbk","utf-8",$cj_word)); 
$word_allow=false;//初始化是否允许采集 
$word_count=count($word_arr);//总数 
for($i=0;$i<$word_count;$i++) 
{ 
if(substr_count($art_title,$word_arr[$i])>0) 
{ 
$word_allow=1; 
$i=$word_count; 
} 
} 
if($word_allow)//如果合法 
{ //开始处理数据库 
if(strlen($art_content)>$min_t2) 
{ 
echo "<font color=red>添加中............................</font><br>"; 
echo $art_title."<br>"; 
$art_title=iconv('utf-8','gbk', $art_title); 
$title_ct=mysql_query("select count(*) from {$table_prefix}c_article where art_title ='$art_title' ");//查看标题是否重复 
$title_ct=@mysql_fetch_array($title_ct); 
$title_ct=$title_ct[0]; 
if($title_ct>0) 
{ 
$art_title .="{$same_title}{$title_ct}"; 
} 
$art_content=iconv('utf-8','gbk',str_replace("\r\n","<br>",$art_content)); 
$art_content=strtr($art_content,$keyword); 
$art_time=date("Y-m-d"); 
$sql="insert into {$table_prefix}c_article(art_title,art_content,art_time,art_author,suid) values('$art_title','$art_content','$art_time','$art_author','$suid')";//插入采集表 
mysql_query($sql); 
if(empty($t_catx_id))//如果无分类 
{ 
$sql2="insert into {$t_table}({$t_art_title},{$t_art_content},{$t_art_time},{$t_artx_author}) values('$art_title','$art_content','$art_time','$art_author')"; 
}else 
{ 
$sql2="insert into {$t_table}({$t_art_title},{$t_art_content},{$t_art_time},{$t_artx_author},{$t_catx_id}) values('$art_title','$art_content','$art_time','$art_author','$cat_id')"; 
} 
mysql_query($sql2);//插入文章表 
$jl++;//如果存放数据库中 则记录加1 
//处理数据库结束 
}else 
{ 
echo "长度不够"; 
} 
}else 
{ 
echo "主题不符合要求"; 
} 
}else 
{ 
echo "已经存在"; 
} 
$rs++; 
//记录下本次采集 的状况 
$f_tt= urldecode($sp)."--页数".$pg." 记录数 ".$jl ; 
file_put_contents("ss.txt",$f_tt); 
echo "<script>location.href='wenwen.php?jl=".$jl."&sp=".$sp."&pg=".$pg."&rs=".$rs." ';</script>"; 
exit(); 
} 
?> 
<link href="style.css" rel="stylesheet" type="text/css" /> 
<table width="700" border="0" align="center" cellspacing="1" bgcolor="#CCCCCC"> 
<tr> 
<td height="50" align="center" bgcolor="#00CC00"><h1><a href="http://www.jianlila.com">荐礼啦</a>知道问问采集插件</h1></td> 
</tr> 
</table> 
<table width="700" border="0" align="center" cellspacing="1" bgcolor="#CCCCCC" style="margin-top:6px; margin-bottom:6px;"> 
<tr> 
<td height="30" align="center" bgcolor="#FFFFFF"><a href="cj_config.php">采集设置</a> <a href="uninstall.php" onclick="return confirm('您确定要卸载采集插件吗');">卸载采集</a> <a href="cj_view.php">查看采集记录</a> <a href="cj_help.php">采集帮助</a> <a href="baidu.php" target="_blank">知道采集</a>  <a href="wenwen.php" target="_blank">问问采集</a></td> 
</tr> 
</table> 
<form action="wenwen.php" method="post"> 
<table width="628" height="49" border="0" align="center"> 
<tr> 
<td width="413" align="right"><input name="ask" type="text" id="ask" size="50"></td> 
<td width="205"><input type="submit" name="button" id="button" value="问问采集" style=" padding-left:15px; padding-right:15px; height:25px; line-height:25px;"></td> 
</tr> 
</table> 
</form>
PHP 相关文章推荐
PHP面向对象编程快速入门
Oct 09 PHP
PHP实现定时生成HTML网站首页实例代码
Nov 20 PHP
解析thinkphp import 文件内容变量失效的问题
Jun 20 PHP
php计算数组相同值出现次数的代码(array_count_values)
Jan 20 PHP
PHP入门教程之上传文件实例详解
Sep 11 PHP
php获得文件夹下所有文件的递归算法的简单实例
Nov 01 PHP
PHP 年月日的三级联动实例代码
May 24 PHP
centos7上编译安装php7以php-fpm方式连接apache
Nov 08 PHP
laravel 如何实现引入自己的函数或类库
Oct 15 PHP
PHP用swoole+websocket和redis实现web一对一聊天
Nov 05 PHP
PHP开发api接口安全验证操作实例详解
Mar 26 PHP
PHP中迭代器的简单实现及Yii框架中的迭代器实现方法示例
Apr 26 PHP
php笔记之常用文件操作
Oct 12 #PHP
php+jquery编码方面的一些心得(utf-8 gb2312)
Oct 12 #PHP
windows下升级PHP到5.3.3的过程及注意事项
Oct 12 #PHP
PHP OPCode缓存 APC详细介绍
Oct 12 #PHP
并发下常见的加锁及锁的PHP具体实现代码
Oct 12 #PHP
PHP开发的一些注意点总结
Oct 12 #PHP
php更改目录及子目录下所有的文件后缀的代码
Sep 24 #PHP
You might like
PHP中实现接收多个name相同但Value不相同表单数据实例
2015/02/03 PHP
基于win2003虚拟机中apache服务器的访问
2017/08/01 PHP
基于prototype的validation.js发布2.3.4新版本,让你彻底脱离表单验证的烦恼
2006/12/06 Javascript
javaScript checkbox 全选/反选及批量删除
2010/04/28 Javascript
js function使用心得
2010/05/10 Javascript
新手常遇到的一些jquery问题整理
2010/08/16 Javascript
JQuery实现倒计时按钮的实现代码
2012/03/23 Javascript
javascript动态添加样式(行内式/嵌入式/外链式等规则)
2013/06/24 Javascript
jquery遍历checkbox介绍
2014/02/21 Javascript
javascript实现2048游戏示例
2014/05/04 Javascript
jQuery学习总结之jQuery事件
2014/06/30 Javascript
兼容Firefox的Javascript XSLT 处理XML文件
2014/12/31 Javascript
js和jQuery设置Opacity半透明 兼容IE6
2016/05/24 Javascript
Bootstrap轮播插件简单使用方法介绍
2016/06/21 Javascript
JS简单生成两个数字之间随机数的方法
2016/08/03 Javascript
Angular的模块化(代码分享)
2016/12/26 Javascript
ComboBox(下拉列表框)通过url加载调用远程数据的方法
2017/08/06 Javascript
富文本编辑器vue2-editor实现全屏功能
2019/05/26 Javascript
vue ajax 拦截原理与实现方法示例
2019/11/29 Javascript
python获取网页状态码示例
2014/03/30 Python
Python实现多行注释的另类方法
2014/08/22 Python
用Python将一个列表分割成小列表的实例讲解
2018/07/02 Python
python环形单链表的约瑟夫问题详解
2018/09/27 Python
Windows平台Python编程必会模块之pywin32介绍
2019/10/01 Python
Matplotlib使用Cursor实现UI定位的示例代码
2020/03/12 Python
基于python实现复制文件并重命名
2020/09/16 Python
python 如何区分return和yield
2020/09/22 Python
几个人围成一圈的问题
2013/09/26 面试题
装饰活动策划方案
2014/02/11 职场文书
工伤赔偿协议书范本
2014/04/15 职场文书
小学生操行评语
2014/04/22 职场文书
银行竞聘上岗演讲稿
2014/09/12 职场文书
2016年三八红旗手先进事迹材料
2016/02/26 职场文书
关于感恩的作文
2019/08/26 职场文书
MySQL中in和exists区别详解
2021/06/03 MySQL
Python实现对齐打印 format函数的用法
2022/04/28 Python