基于PHP的简单采集数据入库程序


Posted in PHP onJuly 30, 2014

说到采集,无非就是远程获取信息->提取所需内容->分类存储->读取->展示

也算是简单"小偷程序"的加强版吧

下面是对应核心代码(别拿去做坏事哦^_^)

所要采集的内容是某游戏网站上的公告,如下图:

基于PHP的简单采集数据入库程序

可先利用file_get_contents和简单正则获取基本页面信息

基于PHP的简单采集数据入库程序

整理下基本信息,采集入库:

<?php
  include_once("conn.php");


   if($_GET['id']<=8&&$_GET['id']){
     $id=$_GET['id'];
    $conn=file_get_contents("http://www.93moli.com/news_list_4_$id.html");//获取页面内容
  
  $pattern="/<li><a title=\"(.*)\" target=\"_blank\" href=\"(.*)\">/iUs";//正则

  preg_match_all($pattern, $conn, $arr);//匹配内容到arr数组

  //print_r($arr);die;
  
  foreach ($arr[1] as $key => $value) {//二维数组[2]对应id和[1]刚好一样,利用起key
    $url="http://www.93moli.com/".$arr[2][$key];
    $sql="insert into list(title,url) value ('$value', '$url')";
    mysql_query($sql);

    //echo "<a href='content.php?url=http://www.93moli.com/$url'>$value</a>"."<br/>";  
  }
   $id++;
   echo "正在采集URL数据列表$id...请稍后...";
   echo "<script>window.location='list.php?id=$id'</script>";

 }else{
   echo "采集数据结束。";
 }

?>

conn.php是数据库连接文件

list.php是本页面

由于要采集的数据是分页显示的,且页面地址是规律递增,所以我用了js跳转代码,利用id传值控制采集的页数,也避免了for循环数目过大。

基于PHP的简单采集数据入库程序

基于PHP的简单采集数据入库程序

轻轻松松数据入库,下篇文章写关于具体url采集信息的过程。

PHP 相关文章推荐
[FAQ]PHP中的一些常识:类篇
Oct 09 PHP
人尽可用的Windows技巧小贴士之下篇
Mar 22 PHP
PHP 查找字符串常用函数介绍
Jun 07 PHP
PHP set_error_handler()函数使用详解(示例)
Nov 12 PHP
php命令行用法入门实例教程
Oct 27 PHP
smarty中常用方法实例总结
Aug 07 PHP
php使用glob函数遍历文件和目录详解
Sep 23 PHP
PHP Post获取不到非表单数据的问题解决办法
Feb 27 PHP
PHP实现动态添加XML中数据的方法
Mar 30 PHP
php实现多站点共用session实现单点登录的方法详解
Sep 18 PHP
php+layui数据表格实现数据分页渲染代码
Oct 26 PHP
PHP开发api接口安全验证操作实例详解
Mar 26 PHP
PHP中设置一个严格30分钟过期Session面试题的4种答案
Jul 30 #PHP
PHP使用Session遇到的一个Permission denied Notice解决办法
Jul 30 #PHP
PHP伪静态Rewrite设置之APACHE篇
Jul 30 #PHP
PHP return语句的另一个作用
Jul 30 #PHP
php mb_substr()函数截取中文字符串应用示例
Jul 29 #PHP
php CI框架插入一条或多条sql记录示例
Jul 29 #PHP
两种设置php载入页面时编码的方法
Jul 29 #PHP
You might like
Content-type 的说明
2006/10/09 PHP
国外PHP程序员的13个好习惯小结
2012/02/20 PHP
dedecms集成财付通支付接口
2014/12/28 PHP
Laravel中使用Queue的最基本操作教程
2017/12/27 PHP
Laravel等框架模型关联的可用性浅析
2019/12/15 PHP
js 页面传参数时 参数值含特殊字符的问题
2009/12/13 Javascript
jquery中ajax学习笔记4
2011/10/16 Javascript
Textarea根据内容自适应高度
2013/10/28 Javascript
jQuery获取样式中颜色值的方法
2015/01/29 Javascript
JS运动基础框架实例分析
2015/03/03 Javascript
jQuery学习笔记之Ajax用法实例详解
2015/12/01 Javascript
jQuery validate插件实现ajax验证重复的2种方法
2016/01/22 Javascript
DIV随滚动条滚动而滚动的实现代码【推荐】
2016/04/12 Javascript
基于JS如何实现类似QQ好友头像hover时显示资料卡的效果(推荐)
2016/06/09 Javascript
jquery事件绑定解绑机制源码解析
2016/09/19 Javascript
JavaScript轮播图简单制作方法
2017/02/20 Javascript
Vue工程模板文件 webpack打包配置方法
2017/12/26 Javascript
小程序实现页面顶部选项卡效果
2018/11/06 Javascript
小程序实现短信登录倒计时
2019/07/12 Javascript
JS实现图片切换特效
2019/12/23 Javascript
js实现菜单跳转效果
2020/12/11 Javascript
[01:10:24]DOTA2-DPC中国联赛 正赛 VG vs Aster BO3 第一场 2月28日
2021/03/11 DOTA
python里大整数相乘相关技巧指南
2014/09/12 Python
Python实现把数字转换成中文
2015/06/29 Python
python学生信息管理系统实现代码
2019/12/17 Python
Python3创建Django项目的几种方法(3种)
2020/06/03 Python
使用canvas绘制超炫时钟
2014/12/17 HTML / CSS
美国电视购物:QVC
2017/02/06 全球购物
Brother加拿大官网:打印机、贴标机、缝纫机
2019/10/09 全球购物
俄罗斯香水和化妆品在线商店:Aroma-butik
2020/02/28 全球购物
大学生职业生涯规划书的基本内容
2014/01/06 职场文书
可口可乐广告词
2014/03/20 职场文书
八荣八耻的活动方案
2014/08/16 职场文书
会计人员演讲稿
2014/09/11 职场文书
朋友聚会祝酒词
2015/08/10 职场文书
Java elasticsearch安装以及部署教程
2021/06/28 Java/Android