PHP记录搜索引擎蜘蛛访问网站足迹的方法


Posted in PHP onApril 15, 2015

本文实例讲述了PHP记录搜索引擎蜘蛛访问网站足迹的方法。分享给大家供大家参考。具体分析如下:

搜索引擎的蜘蛛访问网站是通过远程抓取页面来进行的,我们不能使用JS代码来取得蜘蛛的Agent信息,但是我们可以通过image标签,这样我们就可以得到蜘蛛的agent资料了,通过对agent资料的分析,就可以确定蜘蛛的种类、性别等因素,我们在通过数据库或者文本来记录就可以进行统计了。

数据库结构:

以下为引用的内容:

#
# 表的结构 `naps_stats_bot`
#

CREATE TABLE `naps_stats_bot` (
`botid` int(10) unsigned NOT NULL auto_increment,
`botname` varchar(100) NOT NULL default '',
`botagent` varchar(200) NOT NULL default '',
`bottag` varchar(100) NOT NULL default '',
`botcount` int(11) NOT NULL default '0',
`botlast` datetime NOT NULL default '0000-00-00 00:00:00',
`botlasturl` varchar(250) NOT NULL default '',
UNIQUE KEY `botid` (`botid`),
KEY `botname` (`botname`)
) TYPE=MyISAM AUTO_INCREMENT=9 ;
#
# 导出表中的数据 `naps_stats_bot`
#
INSERT INTO `naps_stats_bot` VALUES (1, 'Googlebot', 'Googlebot/2.X (+http://www.googlebot.com/bot.html)', 'googlebot', 0, '0000-00-00 00:00:00', '');
INSERT INTO `naps_stats_bot` VALUES (2, 'MSNbot', 'MSNBOT/0.1 (http://search.msn.com/msnbot.htm)', 'msnbot', 0, '0000-00-00 00:00:00', '');
INSERT INTO `naps_stats_bot` VALUES (3, 'Inktomi Slurp', 'Slurp/2.0', 'slurp', 0, '0000-00-00 00:00:00', '');
INSERT INTO `naps_stats_bot` VALUES (4, 'Baiduspider', 'Baiduspider+(+http://www.baidu.com/search/spider.htm)', 'baiduspider', 0, '0000-00-00 00:00:00', '');
INSERT INTO `naps_stats_bot` VALUES (5, 'Yahoobot', 'Mozilla/5.0+(compatible;+Yahoo!+Slurp;+http://help.yahoo.com/help/us/ysearch/slurp)', 'slurp', 0, '0000-00-00 00:00:00', '');
INSERT INTO `naps_stats_bot` VALUES (6, 'Sohubot', 'sohu-search', 'sohu-search', 0, '0000-00-00 00:00:00', '');
INSERT INTO `naps_stats_bot` VALUES (7, 'Lycos', 'Lycos/x.x', 'lycos', 0, '0000-00-00 00:00:00', '');
INSERT INTO `naps_stats_bot` VALUES (8, 'Robozilla', 'Robozilla/1.0', 'robozilla', 0, '0000-00-00 00:00:00', '');

PHP程序如下:

以下为引用的内容:

<?php
/************************
* NAPS -- Network Article Publish System
* ----------------------------------------------
*     bot.php
*     -------------------
*  begin  : 2004-08-15
*
************************/
/************************
*
*  This program is free software; you can redistribute it and/or modify
*  it under the terms of the GNU General Public License as published by
*  the Free Software Foundation; either version 2 of the License.
*
************************/
/************************
*
*  NAPS产品是自由软件。你可以且必须根据《GNU GPL-GNU通用公共许可证》的相关规定
*  复制、修改及分发NAPS产品。任何以NAPS产品为基础的衍生发行版未必须经过飘飘的授权。
*
************************/
error_reporting(E_ALL & ~E_NOTICE);
function get_naps_bot()
{
 $useragent = strtolower($_SERVER['HTTP_USER_AGENT']);
 if (strpos($useragent, 'googlebot') !== false){
  return 'Googlebot';
 }
 if (strpos($useragent, 'msnbot') !== false){
  return 'MSNbot';
 }
 if (strpos($useragent, 'slurp') !== false){
  return 'Yahoobot';
 }
 if (strpos($useragent, 'baiduspider') !== false){
  return 'Baiduspider';
 }
 if (strpos($useragent, 'sohu-search') !== false){
  return 'Sohubot';
 }
 if (strpos($useragent, 'lycos') !== false){
  return 'Lycos';
 }
 if (strpos($useragent, 'robozilla') !== false){
  return 'Robozilla';
 }    
 return false;
}
$tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']);
//添加蜘蛛的抓取记录
$searchbot = get_naps_bot();
if ($searchbot) {
 $DB_naps->query("UPDATE naps_stats_bot SET botcount=botcount+1, botlast=NOW(), botlasturl='$tlc_thispage' WHERE botname='$searchbot'");
}
?>

希望本文所述对大家的php程序设计有所帮助。

PHP 相关文章推荐
一个odbc连mssql分页的类
Oct 09 PHP
PHP4引用文件语句的对比
Oct 09 PHP
PHP中include()与require()的区别说明
Mar 10 PHP
php Ubb代码编辑器函数代码
Jul 05 PHP
phpmyadmin打开很慢的解决方法
Apr 21 PHP
php_screw安装使用教程(另一个PHP代码加密实现)
May 29 PHP
PHP中实现获取IP和地理位置类分享
Feb 10 PHP
php实现过滤字符串中的中文和数字实例
Jul 29 PHP
PHP的Yii框架中YiiBase入口类的扩展写法示例
Mar 17 PHP
php+ajax实现带进度条的上传图片功能【附demo源码下载】
Sep 14 PHP
PHP SPL 被遗落的宝石【SPL应用浅析】
Apr 20 PHP
PHP+Redis链表解决高并发下商品超卖问题(实现原理及步骤)
Aug 03 PHP
php获取Google机器人访问足迹的方法
Apr 15 #PHP
分享自定义的几个PHP功能函数
Apr 15 #PHP
php中使用in_array() foreach array_search() 查找数组是否包含时的性能对比
Apr 14 #PHP
PHP也能干大事 随机函数
Apr 14 #PHP
PHP数组操作――获取数组最后一个值的方法
Apr 14 #PHP
微信公众平台之快递查询功能用法实例
Apr 14 #PHP
php生成rss类用法实例
Apr 14 #PHP
You might like
linux iconv方法的使用
2011/10/01 PHP
php笔记之:初探PHPcms模块开发介绍
2013/04/26 PHP
浅谈php正则表达式中的非贪婪模式匹配的使用
2014/11/25 PHP
joomla组件开发入门教程
2016/05/04 PHP
使用composer安装使用thinkphp6.0框架问题【视频教程】
2019/10/01 PHP
yii2.0框架实现上传excel文件后导入到数据库的方法示例
2020/04/13 PHP
BOOM vs RR BO5 第三场 2.14
2021/03/10 DOTA
使用简洁的jQuery方法实现隔行换色功能
2014/01/02 Javascript
使用javascript实现Iframe自适应高度
2014/12/24 Javascript
js实现精美的银灰色竖排折叠菜单
2015/05/16 Javascript
基于JavaScript实现全屏透明遮罩div层锁屏效果
2016/01/26 Javascript
javascript执行环境及作用域详解
2016/05/05 Javascript
对Js OOP编程 创建对象的一些全面理解
2016/07/26 Javascript
js实现简单的网页换肤效果
2017/01/18 Javascript
Vue.js在使用中的一些注意知识点
2017/04/29 Javascript
Vue2.0实现调用摄像头进行拍照功能 exif.js实现图片上传功能
2018/04/28 Javascript
React中this丢失的四种解决方法
2019/03/12 Javascript
vue 导航内容设置选中状态样式的例子
2019/11/01 Javascript
vue实现短信验证码登录功能(流程详解)
2019/12/10 Javascript
JavaScript进阶(二)词法作用域与作用域链实例分析
2020/05/09 Javascript
Python格式化输出%s和%d
2018/05/07 Python
Python3.6通过自带的urllib通过get或post方法请求url的实例
2018/05/10 Python
详解Django 中是否使用时区的区别
2018/06/14 Python
python实现接口并发测试脚本
2019/06/25 Python
python删除列表元素的三种方法(remove,pop,del)
2019/07/22 Python
python 图像的离散傅立叶变换实例
2020/01/02 Python
Python输出指定字符串的方法
2020/02/06 Python
Python浮点型(float)运算结果不正确的解决方案
2020/09/22 Python
《要下雨了》教学反思
2014/02/17 职场文书
检讨书范文2000字
2015/01/28 职场文书
《青山不老》教学反思
2016/02/22 职场文书
《成长的天空》读后感3篇
2019/12/06 职场文书
浅谈Golang 嵌套 interface 的赋值问题
2021/04/29 Golang
MySql学习笔记之事务隔离级别详解
2021/05/12 MySQL
Python打包exe时各种异常处理方案总结
2021/05/18 Python
pytorch通过训练结果的复现设置随机种子
2021/06/01 Python