PHP去掉从word直接粘贴过来的没有用格式的函数


Posted in PHP onOctober 29, 2012

一般处理的方式有二种:1.通过编辑器的JS直接去除。2.提交到后台后,直接用程序去掉无效标签。下面我就分享一个通过PHP的处理方式,成功率可能不是100%。这程序也是在PHP官网上看到的,就顺便粘贴过来了。

function ClearHtml($content,$allowtags='') { mb_regex_encoding('UTF-8'); 
//replace MS special characters first 
$search = array('/‘/u', '/’/u', '/“/u', '/”/u', '/—/u'); 
$replace = array('\'', '\'', '"', '"', '-'); 
$content = preg_replace($search, $replace, $content); 
//make sure _all_ html entities are converted to the plain ascii equivalents - it appears 
//in some MS headers, some html entities are encoded and some aren't 
$content = html_entity_decode($content, ENT_QUOTES, 'UTF-8'); 
//try to strip out any C style comments first, since these, embedded in html comments, seem to 
//prevent strip_tags from removing html comments (MS Word introduced combination) 
if(mb_stripos($content, '/*') !== FALSE){ 
$content = mb_eregi_replace('#/\*.*?\*/#s', '', $content, 'm'); 
} 
//introduce a space into any arithmetic expressions that could be caught by strip_tags so that they won't be 
//'<1' becomes '< 1'(note: somewhat application specific) 
$content = preg_replace(array('/<([0-9]+)/'), array('< $1'), $content); 
$content = strip_tags($content, $allowtags); 
//eliminate extraneous whitespace from start and end of line, or anywhere there are two or more spaces, convert it to one 
$content = preg_replace(array('/^\s\s+/', '/\s\s+$/', '/\s\s+/u'), array('', '', ' '), $content); 
//strip out inline css and simplify style tags 
$search = array('#<(strong|b)[^>]*>(.*?)</(strong|b)>#isu', '#<(em|i)[^>]*>(.*?)</(em|i)>#isu', '#<u[^>]*>(.*?)</u>#isu'); 
$replace = array('<b>$2</b>', '<i>$2</i>', '<u>$1</u>'); 
$content = preg_replace($search, $replace, $content); 
//on some of the ?newer MS Word exports, where you get conditionals of the form 'if gte mso 9', etc., it appears 
//that whatever is in one of the html comments prevents strip_tags from eradicating the html comment that contains 
//some MS Style Definitions - this last bit gets rid of any leftover comments */ 
$num_matches = preg_match_all("/\<!--/u", $content, $matches); 
if($num_matches){ 
$content = preg_replace('/\<!--(.)*--\>/isu', '', $content); 
} 
return $content; 
}

测试使用结果:
<?php 
$content = ' <!--[if gte mso 9]><xml><w:WordDocument><w:BrowserLevel>MicrosoftInternetExplorer4</w:BrowserLevel><w:DisplayHorizontalDrawingGridEvery>0</w:DisplayHorizontalDrawingGridEvery><w:DisplayVerticalDrawingGridEvery>2</w:DisplayVerticalDrawingGridEvery><w:DocumentKind>DocumentNotSpecified</w:DocumentKind><w:DrawingGridVerticalSpacing>7.8</w:DrawingGridVerticalSpacing><w:View>Normal</w:View><w:Compatibility></w:Compatibility><w:Zoom>0</w:Zoom></w:WordDocument></xml><![endif]--> 
<p class="p0" style="text-indent: 24.0000pt; margin-bottom: 0pt; margin-top: 0pt;"><span style="mso-spacerun: "yes"; font-size: 12.0000pt; font-family: "宋体";">《优伴户外旅行》——让旅行成为习惯!</span></p>越发忙碌的你,是否想给自己放个假?专注工作的你,是否还记得上一次锻炼是什么时候?优伴户外旅行,给你不一样的旅行体验:给心自由,便处处都是风景!</span></p>'; 
echo ClearHtml($content,'<p>'); /* 
得到的结果: 
<p >《优伴户外旅行》--让旅行成为习惯!</p>越发忙碌的你,是否想给自己放个假?专注工作的你,是否还记得上一次锻炼是什么时候?优伴户外旅行,给你不一样的旅行体验:给心自由,便处处都是风景!</p> 
*/ 
?>
PHP 相关文章推荐
php checkbox复选框值的获取与checkbox默认值输出方法
May 15 PHP
深入php define()函数以及defined()函数的用法详解
Jun 05 PHP
关于php循环跳出的问题
Jul 01 PHP
浅析PHP文件下载原理
Dec 25 PHP
php数组键值用法实例分析
Feb 27 PHP
php生成固定长度纯数字编码的方法
Jul 09 PHP
Docker 如何布置PHP开发环境
Jun 21 PHP
如何使用php等比例缩放图片
Oct 12 PHP
php unicode编码和字符串互转的方法
Aug 12 PHP
php记录搜索引擎爬行记录的实现代码
Mar 02 PHP
Yii2.0建立公共方法简单示例
Jan 29 PHP
php文件操作之文件写入字符串、数组的方法分析
Apr 15 PHP
php daddslashes()和 saddslashes()有哪些区别分析
Oct 26 #PHP
PHP daddslashes 使用方法介绍
Oct 26 #PHP
Zend Studio去除编辑器的语法警告设置方法
Oct 24 #PHP
真正根据utf8编码的规律来进行截取字符串的函数(utf8版sub_str )
Oct 24 #PHP
php中检查文件或目录是否存在的代码小结
Oct 22 #PHP
php模拟js函数unescape的函数代码
Oct 20 #PHP
PHP 万年历实现代码
Oct 18 #PHP
You might like
PHP中的Trait 特性及作用
2016/04/03 PHP
postman的安装与使用方法(模拟Get和Post请求)
2018/08/06 PHP
PHP赋值的内部是如何跑的详解
2019/01/13 PHP
PHP实现的权重算法示例【可用于游戏根据权限来随机物品】
2019/02/15 PHP
Laravel5.5 数据库迁移:创建表与修改表示例
2019/10/23 PHP
一个简单的javascript类定义例子
2009/09/12 Javascript
jQuery选择没有colspan属性的td的代码
2010/07/06 Javascript
javascript中[]和{}对象使用介绍
2013/03/20 Javascript
jquery实现非叠加式的搜索框提示效果
2014/01/07 Javascript
jQuery中的ajax async同步和异步详解
2015/09/29 Javascript
js验证真实姓名与身份证号,手机号的简单实例
2016/07/18 Javascript
面试常见的js算法题
2017/03/23 Javascript
bootstrap响应式表格实例详解
2017/05/15 Javascript
简单实现jQuery手风琴效果
2017/08/18 jQuery
Vue中this.$router.push参数获取方法
2018/02/27 Javascript
[原创]jquery判断元素内容是否为空的方法
2018/05/04 jQuery
vue中keep-alive的用法及问题描述
2018/05/15 Javascript
jQuery中ajax请求后台返回json数据并渲染HTML的方法
2018/08/08 jQuery
Vue分页器实现原理详解
2019/06/28 Javascript
NodeJS实现一个聊天室功能
2019/11/25 NodeJs
python opencv 直方图反向投影的方法
2018/02/24 Python
修复 Django migration 时遇到的问题解决
2018/06/14 Python
python 字符串和整数的转换方法
2018/06/25 Python
Python简单读写Xls格式文档的方法示例
2018/08/17 Python
安装python及pycharm的教程图解
2019/10/10 Python
Python变量作用域LEGB用法解析
2020/02/04 Python
python初步实现word2vec操作
2020/06/09 Python
Python操作Elasticsearch处理timeout超时
2020/07/17 Python
Python爬虫实现selenium处理iframe作用域问题
2021/01/27 Python
Python之多进程与多线程的使用
2021/02/23 Python
open_basedir restriction in effect. 原因与解决方法
2021/03/14 PHP
纯css3实现的竖形无限级导航
2014/12/10 HTML / CSS
HTML5 video视频字幕的使用和制作方法
2018/05/03 HTML / CSS
印度最大的旅游网站:MakeMyTrip
2016/10/05 全球购物
Nanushka官网:匈牙利服装品牌
2019/08/14 全球购物
应届生服装设计自我评价
2013/09/20 职场文书