浅析PHP关键词替换的类(避免重复替换,保留与还原原始链接)


Posted in PHP onSeptember 22, 2015

php关键词替换的类(避免重复替换,保留与还原原始链接)

本节主要内容:

一个关键词替换的类

主要可以用于关键词过滤,或关键词查找替换方面。

实现过程分析:

关键词替换,其实就是一个str_replace()的过程,如果是单纯的str_replace面对10W的关键词,1W字的文章也只需要2秒左右。

问题所在:

关键词替换了不只一次,比如a需要替换成<a>a</a>,但结果可能是<a><a>a</a></a>等这样。

为此,需要一个方法保护好已经替换了的标签,那么在处理文章之前,就先把标签替换掉比如[_tnum_]在文章处理好了以后再把它还原。

另外一个问题,如果关键字或文章中有[_tnum_]本身怎么办,那么就需要排除这种这里就不能使用str_replace了而需要用到preg_replace用正则来排除。

第三个问题,如果有两个关键字a和ab怎么办,希望先把长的匹配掉,短后匹配,这样就需要在匹配前先排序。

最后一个问题,当str_replace改成了preg_replace以后,变慢了同样一段话10W次匹配要5秒钟,字符串处理的函数中strpos要快一些,那么先用strpos找出关键词即可,10W次查询还不到1秒。就算是100万才道8秒多。

一个关键词匹配替换的类,代码:

代码示例:

<?php
 /* 
  * 关键词匹配类
  * @author ylx <ylx@gmail.com>
  * @packet mipang
  * 使用实例
  * $str = "绿壳蛋鸡撒范德萨下一年,下一年的洒落开房间卢卡斯地方军";
  * $key = new KeyReplace($str,array("xxxx"=>"sadf","下一年"=>'http://baidu.com',"下一年"=>'google.com'));
  * echo $key->getResultText();
  * echo $key->getRuntime();
  */
class KeyReplace
{
 private $keys = array();
 private $text = "";
 private $runtime = ;
 private $url = true;
 private $stopkeys = array();
 private $all = false;
 /**
  * @access public  
  * @param string $text 指定被处理的文章
  * @param array $keys 指定字典词组array(key=>url,...) url可以是数组,如果是数组将随机替换其中的一个
  * @param array $stopkeys 指定停止词array(key,...) 这里面的词将不会被处理
  * @param boolean $url true 表示替换成链接否则只替换
  * @param boolean $all true 表示替换所有找到的词,否则只替换第一次
  */
 public function __construct($text='',$keys=array(),$url=true,$stopkeys=array(),$all=false) {
  $this->keys = $keys;
  $this->text = $text;
  $this->url = $url;
  $this->stopkeys = $stopkeys;
  $this->all = $all;
 }
 /**
  * 获取处理好的文章
  * @access public  
  * @return string text
  */
 public function getResultText() {
  $start = microtime(true);
  $keys = $this->hits_keys();
  $keys_tmp = array_keys()($keys);
  function cmp($a, $b){
   if (mb_strlen($a) == mb_strlen($b)) {
 return ;
   }
   return (mb_strlen($a) < mb_strlen($b)) ? : -;
  }
  usort($keys_tmp,"cmp");
  foreach($keys_tmp as $key){
   if(is_array($keys[$key])){
 $url = $keys[$key][rand(,count($keys[$key])-)];
   }else
 $url = $keys[$key];
   $this->text = $this->r_s($this->text,$key,$url);
  }
  $this->runtime = microtime(true)-$start;
  return $this->text;
 }
 /**
  * 获取处理时间
  * @access public  
  * @return float 
  */
 public function getRuntime() {
  return $this->runtime;
 }
 /**
  * 设置关键词
  * @access public  
  * @param array $keys array(key=>url,...)
  */
 public function setKeys($keys) {
  $this->keys = $keys;
 }
 /**
  * 设置停止词
  * @access public  
  * @param array $keys array(key,...)
  */
 public function setStopKeys($keys) {
  $this->stopkeys = $keys;
 }
 /**
  * 设置文章
  * @access public  
  * @param string $text 
  */
 public function setText($text) {
  $this->text = $text;
 }
 /**
  * 用来找到字符串里面命中的关键词
  * @access public
  * @return array $keys 返回匹配到的词array(key=>url,...)
  */
 public function hits_keys(){
  $ar = $this->keys;
  $ar = $ar?$ar:array();
  $result=array();
  $str = $this->text;
  foreach($ar as $k=>$url){
   $k = trim($k);
   if(!$k)
 continue;
   if(strpos($str,$k)!==false && !in_array($k,$this->stopkeys)){
 $result[$k] = $url;
   }
  }
  return $result?$result:array();
 }
 /**
  * 用来找到字符串里面命中的停止词
  * @access public
  * @return array $keys 返回匹配到的词array(key,...)
  */
 public function hits_stop_keys(){
  $ar = $this->stopkeys;
  $ar = $ar?$ar:array();
  $result=array();
  $str = $this->text;
  foreach($ar as $k){
   $k = trim($k);
   if(!$k)
 continue;
   if(strpos($str,$k)!==false && in_array($k,$this->stopkeys)){
 $result[] = $k;
   }
  }
  return $result?$result:array();
 }
 /**
  * 处理替换过程 
  * @access private
  * @param string $text 被替换者
  * @param string $key 关键词
  * @param string $url 链接
  * @return string $text 处理好的文章
  */
 private function r_s($text,$key,$url){
  $tmp = $text;
  $stop_keys = $this->hits_stop_keys();
  $stopkeys = $tags = $a = array();
  if(preg_match_all("#<a[^>]+>[^<]*</a[^>]*>#su",$tmp,$m)){
   $a=$m[];
   foreach($m[] as $k=>$z){
 $z = preg_replace("#\##s","\#",$z);
 $tmp = preg_replace('#'.$z.'#s',"[_a".$k."_]",$tmp,);
   }
  };
  if(preg_match_all("#<[^>]+>#s",$tmp,$m)){
   $tags = $m[];
   foreach($m[] as $k=>$z){
 $z = preg_replace("#\##s","\#",$z);
 $tmp = preg_replace('#'.$z.'#s',"[_tag".$k."_]",$tmp,);
   }
  }
  if(!empty($stop_keys)){
   if(preg_match_all("#".implode("|",$stop_keys)."#s",$tmp,$m)){
 $stopkeys = $m[];
 foreach($m[] as $k=>$z){
  $z = preg_replace("#\##s","\#",$z);
  $tmp = preg_replace('#'.$z.'#s',"[_s".$k."_]",$tmp,);
 }
   }
  }
  $key = preg_replace("#([\#\(\)\[\]\*])#s","\\\\$",$key);
  if($this->url)
   $tmp = preg_replace("#(?!\[_s|\[_a|\[_|\[_t|\[_ta|\[_tag)".$key."(?!ag\d+_\]|g\d+_\]|\d+_\]|s\d+_\]|_\])#us",'<a href="'.$url.'">'.$key.'</a>',$tmp,$this->all?-:);
  else
   $tmp = preg_replace("#(?!\[_s|\[_a|\[_|\[_t|\[_ta|\[_tag)".$key."(?!ag\d+_\]|g\d+_\]|\d+_\]|s\d+_\]|_\])#us",$url,$tmp,$this->all?-:);
  if(!empty($a)){
   foreach($a as $n=>$at){
 $tmp = str_replace("[_a".$n."_]",$at,$tmp);
   }  
  }  
  if(!empty($tags)){
   foreach($tags as $n=>$at){
 $tmp = str_replace("[_tag".$n."_]",$at,$tmp);
   }  
  }  
  if(!empty($stopkeys)){
   foreach($stopkeys as $n=>$at){
 $tmp = str_replace("[_s".$n."_]",$at,$tmp);
   }  
  }  
  return $tmp;
 }
}

以上就是本文给大家介绍的PHP关键词替换的类(避免重复替换,保留与还原原始链接)。

PHP 相关文章推荐
分页显示Oracle数据库记录的类之一
Oct 09 PHP
php 自写函数代码 获取关键字 去超链接
Feb 08 PHP
CI(CodeIgniter)框架配置
Jun 10 PHP
php缩放gif和png图透明背景变成黑色的解决方法
Oct 14 PHP
PHP答题类应用接口实例
Feb 09 PHP
PHP 以POST方式提交XML、获取XML,解析XML详解及实例
Oct 26 PHP
php array_slice 取出数组中的一段序列实例
Nov 04 PHP
php使用parse_str实现查询字符串解析到变量中的方法
Feb 17 PHP
针对PHP开发安全问题的相关总结
Mar 22 PHP
PHP pthreads v3在centos7平台下的安装与配置操作方法
Feb 21 PHP
php7 图形用户界面GUI 开发示例
Feb 22 PHP
如何判断微信付款码和支付宝付款码
Apr 01 PHP
PHP实现搜索相似图片
Sep 22 #PHP
从刷票了解获得客户端IP的方法
Sep 21 #PHP
fsockopen pfsockopen函数被禁用,SMTP发送邮件不正常的解决方法
Sep 20 #PHP
分享ThinkPHP3.2中关联查询解决思路
Sep 20 #PHP
使用PHPCMS搭建wap手机网站
Sep 20 #PHP
求帮忙修改个php curl模拟post请求内容后并下载文件的解决思路
Sep 20 #PHP
PHP执行SQL文件并将SQL文件导入到数据库
Sep 17 #PHP
You might like
聊天室php&amp;mysql(五)
2006/10/09 PHP
php 信息采集程序代码
2009/03/17 PHP
php文件上传表单摘自drupal的代码
2011/02/15 PHP
php连接mssql的一些相关经验及注意事项
2013/02/05 PHP
PHP连接MySQL查询结果中文显示乱码解决方法
2013/10/25 PHP
CodeIgniter框架数据库事务处理的设计缺陷和解决方案
2014/07/25 PHP
PHP基于CURL进行POST数据上传实例
2014/11/10 PHP
CodeIgniter自定义控制器MY_Controller用法分析
2016/01/20 PHP
PHP微信公众号自动发送红包API
2016/06/01 PHP
javaScript Array(数组)相关方法简述
2009/07/25 Javascript
JavaScript 获取用户客户端操作系统版本
2009/08/25 Javascript
Javascript 两个窗体之间传值实现代码
2009/09/25 Javascript
兼容主流浏览器的jQuery+CSS 实现遮罩层的简单代码
2014/10/14 Javascript
jQuery遍历DOM节点操作之filter()方法详解
2016/04/14 Javascript
最全的JavaScript开发工具列表 总有一款适合你
2017/06/29 Javascript
微信小程序的日期选择器的实例详解
2017/09/29 Javascript
使用JS判断页面是首次被加载还是刷新
2019/05/26 Javascript
[01:50]WODOTA制作 DOTA2中文宣传片《HERO》
2013/04/28 DOTA
pygame学习笔记(1):矩形、圆型画图实例
2015/04/15 Python
Python实现高效求解素数代码实例
2015/06/30 Python
python实现狄克斯特拉算法
2019/01/17 Python
python basemap 画出经纬度并标定的实例
2019/07/09 Python
基于MATLAB和Python实现MFCC特征参数提取
2019/08/13 Python
Python 操作 PostgreSQL 数据库示例【连接、增删改查等】
2020/04/21 Python
Python 列表推导式需要注意的地方
2020/10/23 Python
如何用python批量调整视频声音
2020/12/22 Python
HTML5中的新元素介绍
2008/10/17 HTML / CSS
传播学毕业生求职信
2013/10/11 职场文书
《宿建德江》教学反思
2014/04/23 职场文书
电工技术比武方案
2014/05/11 职场文书
教师批评与自我批评剖析材料
2014/10/16 职场文书
长城导游词300字
2015/01/30 职场文书
2015年中个人总结范文
2015/03/10 职场文书
团队拓展训练感想
2015/08/07 职场文书
MySQL8.0.18配置多主一从
2021/06/21 MySQL
HTML静态页面获取url参数和UserAgent的实现
2022/08/05 HTML / CSS