基于PHP的简单采集数据入库程序


Posted in PHP onJuly 30, 2014

说到采集,无非就是远程获取信息->提取所需内容->分类存储->读取->展示

也算是简单"小偷程序"的加强版吧

下面是对应核心代码(别拿去做坏事哦^_^)

所要采集的内容是某游戏网站上的公告,如下图:

基于PHP的简单采集数据入库程序

可先利用file_get_contents和简单正则获取基本页面信息

基于PHP的简单采集数据入库程序

整理下基本信息,采集入库:

<?php
  include_once("conn.php");


   if($_GET['id']<=8&&$_GET['id']){
     $id=$_GET['id'];
    $conn=file_get_contents("http://www.93moli.com/news_list_4_$id.html");//获取页面内容
  
  $pattern="/<li><a title=\"(.*)\" target=\"_blank\" href=\"(.*)\">/iUs";//正则

  preg_match_all($pattern, $conn, $arr);//匹配内容到arr数组

  //print_r($arr);die;
  
  foreach ($arr[1] as $key => $value) {//二维数组[2]对应id和[1]刚好一样,利用起key
    $url="http://www.93moli.com/".$arr[2][$key];
    $sql="insert into list(title,url) value ('$value', '$url')";
    mysql_query($sql);

    //echo "<a href='content.php?url=http://www.93moli.com/$url'>$value</a>"."<br/>";  
  }
   $id++;
   echo "正在采集URL数据列表$id...请稍后...";
   echo "<script>window.location='list.php?id=$id'</script>";

 }else{
   echo "采集数据结束。";
 }

?>

conn.php是数据库连接文件

list.php是本页面

由于要采集的数据是分页显示的,且页面地址是规律递增,所以我用了js跳转代码,利用id传值控制采集的页数,也避免了for循环数目过大。

基于PHP的简单采集数据入库程序

基于PHP的简单采集数据入库程序

轻轻松松数据入库,下篇文章写关于具体url采集信息的过程。

PHP 相关文章推荐
php 之 没有mysql支持时的替代方案
Oct 09 PHP
PHP遍历数组的几种方法
Mar 22 PHP
通过dbi使用perl连接mysql数据库的方法
Apr 16 PHP
php绘制一条弧线的方法
Jan 24 PHP
php调整服务器时间的方法
Apr 03 PHP
php实现简单的语法高亮函数实例分析
Apr 27 PHP
Codeigniter的dom类用法实例
Jun 26 PHP
ThinkPHP模板Volist标签嵌套循环输出多维数组的方法
Mar 23 PHP
详解PHP实现定时任务的五种方法
Jul 25 PHP
老生常谈PHP面向对象之注册表模式
May 26 PHP
ThinkPHP删除栏目(实现批量删除栏目)
Jun 21 PHP
PHP 断点续传实例详解
Nov 11 PHP
PHP中设置一个严格30分钟过期Session面试题的4种答案
Jul 30 #PHP
PHP使用Session遇到的一个Permission denied Notice解决办法
Jul 30 #PHP
PHP伪静态Rewrite设置之APACHE篇
Jul 30 #PHP
PHP return语句的另一个作用
Jul 30 #PHP
php mb_substr()函数截取中文字符串应用示例
Jul 29 #PHP
php CI框架插入一条或多条sql记录示例
Jul 29 #PHP
两种设置php载入页面时编码的方法
Jul 29 #PHP
You might like
PHPEXCEL 使用小记
2013/01/06 PHP
从零开始学YII2框架(五)快速生成代码工具 Gii 的使用
2014/08/20 PHP
关于WordPress的SEO优化相关的一些PHP页面脚本技巧
2015/12/10 PHP
php实现word转html的方法
2016/01/22 PHP
PHP的Laravel框架中使用消息队列queue及异步队列的方法
2016/03/21 PHP
PHP获取数组中单列值的方法
2017/06/10 PHP
PHP实现数据四舍五入的方法小结【4种方法】
2019/03/27 PHP
Javascript-Mozilla和IE中的一个函数直接量的问题
2007/01/09 Javascript
js 页面刷新location.reload和location.replace的区别小结
2009/12/24 Javascript
Javascript Jquery 遍历Json的实现代码
2010/03/31 Javascript
jQuery EasyUI中对表格进行编辑的实现代码
2010/06/10 Javascript
jquery插件制作教程 txtHover
2012/08/17 Javascript
js克隆对象、数组的常用方法介绍
2013/09/26 Javascript
深入理解JavaScript系列(33):设计模式之策略模式详解
2015/03/03 Javascript
jQuery判断元素上是否绑定了指定事件的方法
2015/03/17 Javascript
javascript数组克隆简单实现方法
2015/12/16 Javascript
javascript原生ajax写法分享
2016/04/10 Javascript
vue2利用Bus.js如何实现非父子组件通信详解
2017/08/25 Javascript
纯javascript实现选择框的全选与反选功能
2019/04/08 Javascript
ES10的13个新特性示例(小结)
2019/09/23 Javascript
解决三元运算符 报错“SyntaxError: can''t assign to conditional expression”
2020/02/12 Javascript
JavaScript实现原型封装轮播图
2020/12/27 Javascript
[01:06]DOTA2小知识课堂 Ep.01 TP出门不要忘记帮队友灌瓶哦
2019/12/05 DOTA
Python使用turtule画五角星的方法
2015/07/09 Python
python使用folium库绘制地图点击框
2018/09/21 Python
opencv实现简单人脸识别
2021/02/19 Python
TensorFlow MNIST手写数据集的实现方法
2020/02/05 Python
python实现电子词典
2020/03/03 Python
Python内存映射文件读写方式
2020/04/24 Python
python smtplib发送多个email联系人的实现
2020/10/09 Python
纯CSS3实现表单验证效果(非常不错)
2017/01/18 HTML / CSS
10条PHP编程习惯
2014/05/26 面试题
无工作经验者个人求职信范文
2013/12/22 职场文书
警察思想汇报
2014/01/04 职场文书
小学体育队列队形教学反思
2016/02/16 职场文书
Pandas-DataFrame知识点汇总
2022/03/16 Python