编程 PHP

PHP实现小偷程序实例

Posted in PHP onOctober 31, 2016

为什么使用“小偷程序”？

远程抓取文章资讯或商品信息是很多企业要求程序员实现的功能，也就是俗说的小偷程序。其最主要的优点是：解决了公司网编繁重的工作，大大提高了效率。只需要一运行就能快速的抓取别人网站的信息。

“小偷程序”在哪里运行？

“小偷程序” 应该在 Windows 下的 DOS或 Linux 下通过 PHP 命令运行为最佳，因为，网页运行会超时。

比如图（Windows 下 DOS 为例）：

PHP实现小偷程序实例

“小偷程序”的实现

这里主要通过一个实例来讲解，我们来抓取下“华强电子网”的资讯信息，请先看观察这个链接 http://www.hqew.com/info-c10.html，当您打开这个页面的时候发现这个页面会发现一些现象：

1、资讯列表有 500 页（2012-01-03）；

2、每页的 url 链接都有规律，比如：第1页为http://www.hqew.com/info-c10-1.html；第2页为http://www.hqew.com/info-c10-2.html；……第500页为http://www.hqew.com/info-c10-500.html；

3、由第二点就可以知道，“华强电子网” 的资讯是伪静态或者是生成的静态页面

其实，基本上大部分的网站都有这样的规律，比如：中关村在线、慧聪网、新浪、淘宝……。

这样，我们可以通过这样的思路来实现页面内容的抓取：
1、先获取文章列表页内容；
2、根据文章列表页内容循环获取文章的 url 地址；
3、根据文章的 url 地址获取文章的详细内容

这里，我们主要抓取资讯页里面的：标题（title）、发布如期（date）、作者（author）、来源（source）、内容（content）

“华强电子网”资讯抓取

首先，先建数据表结构，如下所示：

CREATE TABLE `article`.`article` ( 
`id` MEDIUMINT( 8 ) UNSIGNED NOT NULL AUTO_INCREMENT PRIMARY KEY , 
`title` VARCHAR( 255 ) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL , 
`date` VARCHAR( 50 ) NOT NULL , 
`author` VARCHAR( 100 ) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL , 
`source` VARCHAR( 100 ) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL , 
`content` TEXT NOT NULL 
) ENGINE = MYISAM CHARACTER SET utf8 COLLATE utf8_general_ci;

抓取程序：

<?php 
/** 
* 抓取“华强电子网”资讯程序 
* author Lee. 
* Last modify $Date: 2012-1-3 15:39:35 $ 
*/ 
header('Content-Type:text/html;Charset=utf-8'); 
$mysqli = new mysqli('localhost', 'root', '1715544', 'article'); # 数据库连接，请手动修改您自己的数据库信息 
$mysqli->set_charset('UTF8'); # 设置数据库编码 
function data($url) { 
  global $mysqli; 
  $result = file_get_contents($url); # $result 获取 url 链接内容（注意：这里是文章列表链接） 
  $pattern = '/<li><span class="box_r">.+<\/span><a href="([^"]+)" title=".+" >.+<\/a><\/li>/Usi'; # 取得文章 url 的匹配正则 
  preg_match_all($pattern, $result, $arr); # 把文章列表 url 分配给数组$arr(二维数组) 
  foreach ($arr[1] as $val) { 
    $val = 'http://www.hqew.com' . $val; # 真实文章 url 地址 
    $re = file_get_contents($val); # $re 为文章 url 的内容 
    $pa = '/<div id="article">\s+<h1>(.+)<\/h1>\s+<p id="article\_extinfo">\s+发布:\s+(.+)\s+\|\s+作者:\s+(.+)\s+\|\s+来源:\s+(.*?)\s+<span style="display:none" >.+<div id="article_body">\s*(.+)\s+<\/div>\s+<\/div><!--article end-->/Usi'; # 取得文章内容的正则 
    preg_match_all($pa, $re, $array); # 把取到的内容分配到数组 $array 
    $content = trim($array[5][0]);  
    $con = array( 
        'title'=>mysqlString($array[1][0]), 
        'date'=>mysqlString($array[2][0]),  
        'author'=>mysqlString(stripAuthorTag($array[3][0])), 
        'source'=>mysqlString($array[4][0]),  
        'content'=>mysqlString(stripContentTag($content)) 
      ); 
    $sql = "INSERT INTO article(title,date,author,source,content) VALUES ('{$con['title']}','{$con['date']}','{$con['author']}','{$con['source']}','{$con['content']}')"; 
    $row = $mysqli->query($sql); # 添加到数据库 
    if ($row) { 
      echo 'add success!'; 
    } else { 
      echo 'add failed!'; 
    } 
  } 
} 
/** 
 * stripOfficeTag($v) 对文章内容进行过滤，比如：去掉文章中的链接，过滤掉没用的 HTML 标签…… 
 * @param string $v 
 * @return string 
 */ 
function stripContentTag($v){ 
  $v = str_replace('<p> </p>', '', $v); 
  $v = str_replace('<p />', '', $v); 
  $v = preg_replace('/<a href=".+" target="\_blank"><strong>(.+)<\/strong><\/a>/Usi', '\1', $v); 
  $v = preg_replace('%(<span\s*[^>]*>(.*)</span>)%Usi', '\2', $v); 
  $v = preg_replace('%(\s+class="Mso[^"]+")%si', '', $v); 
  $v = preg_replace('%( style="[^"]*mso[^>]*)%si', '', $v); 
  $v = preg_replace('/<b><\/b>/', '', $v); 
  return $v; 
} 
 
/** 
 * stripTitleTag($title) 对文章标题进行过滤 
 * @param string $v 
 * @return string 
 */ 
function stripAuthorTag($v) { 
  $v = preg_replace('/<a href=".+" target="\_blank">(.+)<\/a>/Usi', '\1', $v); 
  return $v; 
} 
 
/** 
 * mysqlString($str) 过滤数据 
 * @param string $str 
 * @return string 
 */ 
function mysqlString($str) { 
  return addslashes(trim($str)); 
} 
 
/** 
 * init($min, $max) 入口程序方法，从 $min 页开始取，到 $max 页结束 
 * @param int $min 从 1 开始 
 * @param int $max 
 * @return string 返回 URL 地址 
 */ 
function init($min=1, $max) { 
  for ($i=$min; $i<=$max; $i++) { 
    data("http://www.hqew.com/info-c10-{$i}.html"); 
  } 
} 
init(1, 500); // 程序入口，从第一页开始抓，抓取500页 
?>

通过上面的程序，就可以实现抓取华强电子网的资讯信息。

入口方法 init($min, $max) 如果想抓取 1-500 页面内容，那么 init(1, 500) 即可！这样，用不了多长时间，华强电子网的资讯就会全部抓取到数据库里面了。^_^

执行界面：

PHP实现小偷程序实例

数据库：

PHP实现小偷程序实例

- Author -

ruxingli

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

PHP 相关文章推荐

php IP及IP段进行访问限制的代码

Dec 17 PHP

PHP小程序自动提交到自助友情连接

Nov 24 PHP

比较简单的百度网盘文件直链PHP代码

Mar 24 PHP

一个严格的PHP Session会话超时时间设置方法

Jun 10 PHP

php实现的zip文件内容比较类

Sep 24 PHP

php过滤所有的空白字符（空格、全角空格、换行等）

Oct 27 PHP

PHP利用imagick生成组合缩略图

Feb 19 PHP

thinkphp 抓取网站的内容并且保存到本地的实例详解

Aug 25 PHP

详谈PHP中public,private,protected,abstract等关键字的用法

Dec 31 PHP

PHP如何根据文件头检测文件类型实例代码

Oct 14 PHP

PHP中PCRE正则解析代码详解

Apr 26 PHP

在 Laravel 6 中缓存数据库查询结果的方法

Dec 11 PHP

利用php实现一周之内自动登录存储机制（cookie、session、localStorage）

Oct 31 #PHP

利用php做服务器和web前端的界面进行交互

Oct 31 #PHP

php将服务端的文件读出来显示在web页面实例

Oct 31 #PHP

PDO的安全处理与事物处理方法

Oct 31 #PHP

PHP仿微信发红包领红包效果

Oct 30 #PHP

PHPCMS忘记后台密码的解决办法

Oct 30 #PHP

php set_include_path函数设置 include_path 配置选项

Oct 30 #PHP

You might like

使用 PHPStorm 开发 Laravel

2015/03/24 PHP

深入浅出php socket编程

2015/05/13 PHP

php屏蔽错误及提示的方法

2020/05/10 PHP

层序遍历在ExtJs的TreePanel中的应用

2009/10/16 Javascript

JS鼠标事件大全推荐收藏

2011/11/01 Javascript

深入理解javascript动态插入技术

2013/11/12 Javascript

javascript匿名函数实例分析

2014/11/18 Javascript

Javascript中的方法链（Method Chaining）介绍

2015/03/15 Javascript

jquery表单验证插件formValidator使用方法

2016/04/01 Javascript

浅谈JavaScript 标准对象

2016/06/02 Javascript

Vue.js每天必学之方法与事件处理器

2016/09/06 Javascript

Vue.js每天必学之过滤器与自定义过滤器

2016/09/07 Javascript

jQuery制作input提示内容（兼容IE8以上）

2017/07/05 jQuery

Js 利用正则表达式和replace函数获取string中所有被匹配到的文本(推荐)

2018/10/28 Javascript

vue中使用element组件时事件想要传递其他参数的问题

2019/09/18 Javascript

jquery.tagsinput.js实现记录checkbox勾选的顺序

2019/09/21 jQuery

[45:16]完美世界DOTA2联赛PWL S3 Magma vs Phoenix 第一场 12.12

2020/12/16 DOTA

Python的一些用法分享

2012/10/07 Python

Python中unittest用法实例

2014/09/25 Python

python实现Windows电脑定时关机

2018/06/20 Python

解决pycharm工程启动卡住没反应的问题

2019/01/19 Python

Python Django的安装配置教程图文详解

2019/07/17 Python

利用Python库Scapy解析pcap文件的方法

2019/07/23 Python

python+opencv实现车牌定位功能(实例代码)

2019/12/24 Python

python中68个内置函数的总结与介绍

2020/02/24 Python

python GUI库图形界面开发之PyQt5信号与槽事件处理机制详细介绍与实例解析

2020/03/08 Python

简单了解python调用其他脚本方法实例

2020/03/26 Python

哥德堡通行证：Gothenburg Pass

2019/12/09 全球购物

《在大海中永生》教学反思

2014/02/24 职场文书

中学生运动会通讯稿大全

2014/09/18 职场文书

2014购房个人委托书范本

2014/10/12 职场文书

三严三实心得体会范文

2014/10/13 职场文书

贷款承诺书

2015/01/20 职场文书

离婚承诺书格式范文

2015/05/04 职场文书

2015年物业管理员工工作总结

2015/10/15 职场文书

Python何绘制带有背景色块的折线图

2022/04/23 Python