基于PHP的简单采集数据入库程序


Posted in PHP onJuly 30, 2014

说到采集,无非就是远程获取信息->提取所需内容->分类存储->读取->展示

也算是简单"小偷程序"的加强版吧

下面是对应核心代码(别拿去做坏事哦^_^)

所要采集的内容是某游戏网站上的公告,如下图:

基于PHP的简单采集数据入库程序

可先利用file_get_contents和简单正则获取基本页面信息

基于PHP的简单采集数据入库程序

整理下基本信息,采集入库:

<?php
  include_once("conn.php");


   if($_GET['id']<=8&&$_GET['id']){
     $id=$_GET['id'];
    $conn=file_get_contents("http://www.93moli.com/news_list_4_$id.html");//获取页面内容
  
  $pattern="/<li><a title=\"(.*)\" target=\"_blank\" href=\"(.*)\">/iUs";//正则

  preg_match_all($pattern, $conn, $arr);//匹配内容到arr数组

  //print_r($arr);die;
  
  foreach ($arr[1] as $key => $value) {//二维数组[2]对应id和[1]刚好一样,利用起key
    $url="http://www.93moli.com/".$arr[2][$key];
    $sql="insert into list(title,url) value ('$value', '$url')";
    mysql_query($sql);

    //echo "<a href='content.php?url=http://www.93moli.com/$url'>$value</a>"."<br/>";  
  }
   $id++;
   echo "正在采集URL数据列表$id...请稍后...";
   echo "<script>window.location='list.php?id=$id'</script>";

 }else{
   echo "采集数据结束。";
 }

?>

conn.php是数据库连接文件

list.php是本页面

由于要采集的数据是分页显示的,且页面地址是规律递增,所以我用了js跳转代码,利用id传值控制采集的页数,也避免了for循环数目过大。

基于PHP的简单采集数据入库程序

基于PHP的简单采集数据入库程序

轻轻松松数据入库,下篇文章写关于具体url采集信息的过程。

PHP 相关文章推荐
php 运行效率总结(提示程序速度)
Nov 26 PHP
PHP 采集程序原理分析篇
Mar 05 PHP
一些被忽视的PHP函数(简单整理)
Apr 30 PHP
php开发文档 会员收费1期
Aug 14 PHP
mysql 查询指定日期时间内sql语句实现原理与代码
Dec 16 PHP
PHP中的排序函数sort、asort、rsort、krsort、ksort区别分析
Aug 18 PHP
PHP使用header()输出图片缓存实例
Dec 09 PHP
Zend Framework教程之响应对象的封装Zend_Controller_Response实例详解
Mar 07 PHP
php文件操作小结(删除指定文件/获取文件夹下的文件名/读取文件夹下图片名)
May 09 PHP
Yii框架连接mongodb数据库的代码
Jul 27 PHP
PHP简单判断iPhone、iPad、Android及PC设备的方法
Oct 11 PHP
PHP crc32()函数讲解
Feb 14 PHP
PHP中设置一个严格30分钟过期Session面试题的4种答案
Jul 30 #PHP
PHP使用Session遇到的一个Permission denied Notice解决办法
Jul 30 #PHP
PHP伪静态Rewrite设置之APACHE篇
Jul 30 #PHP
PHP return语句的另一个作用
Jul 30 #PHP
php mb_substr()函数截取中文字符串应用示例
Jul 29 #PHP
php CI框架插入一条或多条sql记录示例
Jul 29 #PHP
两种设置php载入页面时编码的方法
Jul 29 #PHP
You might like
用php过滤危险html代码的函数
2008/07/22 PHP
php笔记之:文章中图片处理的使用
2013/04/26 PHP
跟我学Laravel之安装Laravel
2014/10/15 PHP
fromCharCode和charCodeAt 方法
2006/12/27 Javascript
自己动手实现jQuery Callbacks完整功能代码详解
2013/11/25 Javascript
解决extjs grid 不随窗口大小自适应的改变问题
2014/01/26 Javascript
javascript对象的使用和属性操作示例详解
2014/03/02 Javascript
关于jQuery中的each方法(jQuery到底干了什么)
2014/03/05 Javascript
轻松创建nodejs服务器(1):一个简单nodejs服务器例子
2014/12/18 NodeJs
原生javascript实现图片滚动、延时加载功能
2015/01/12 Javascript
javascript制作的滑动图片菜单
2015/05/15 Javascript
全面解析Bootstrap表单使用方法(表单样式)
2015/11/24 Javascript
jQuery实现iframe父窗体和子窗体的相互调用
2016/06/17 Javascript
超详细的JS弹出窗口代码大全
2020/04/18 Javascript
js 单引号替换成双引号,双引号替换成单引号的实现方法
2017/02/16 Javascript
关于Bootstrap按钮组件消除黄框的方法
2017/05/19 Javascript
angular directive的简单使用总结
2017/05/24 Javascript
label+input实现按钮开关切换效果的实例
2017/08/16 Javascript
Canvas放置反弹效果随机图形(实例)
2017/08/17 Javascript
移动端网页开发调试神器Eruda的介绍与使用技巧
2017/10/30 Javascript
微信小程序文章详情功能完整实例
2020/06/03 Javascript
python处理二进制数据的方法
2015/06/03 Python
windows下 兼容Python2和Python3的解决方法
2018/12/05 Python
python使用suds调用webservice接口的方法
2019/01/03 Python
Python二进制文件读取并转换为浮点数详解
2019/06/25 Python
Python中低维数组填充高维数组的实现
2019/12/02 Python
安装python依赖包psycopg2来调用postgresql的操作
2021/01/01 Python
python自动化办公操作PPT的实现
2021/02/05 Python
什么是CSS3 HSLA色彩模式?HSLA模拟渐变色条
2016/04/26 HTML / CSS
在线课程:Skillshare
2019/04/02 全球购物
英国领先的在线礼品店:Getting Personal
2019/09/24 全球购物
大学生赌博检讨书
2014/09/22 职场文书
家庭财产分割协议范文
2014/11/24 职场文书
如何写新闻稿
2015/07/18 职场文书
详解MySQL 用户权限管理
2021/04/20 MySQL
MySQL删除和插入数据很慢的问题解决
2021/06/03 MySQL