基于PHP的简单采集数据入库程序


Posted in PHP onJuly 30, 2014

说到采集,无非就是远程获取信息->提取所需内容->分类存储->读取->展示

也算是简单"小偷程序"的加强版吧

下面是对应核心代码(别拿去做坏事哦^_^)

所要采集的内容是某游戏网站上的公告,如下图:

基于PHP的简单采集数据入库程序

可先利用file_get_contents和简单正则获取基本页面信息

基于PHP的简单采集数据入库程序

整理下基本信息,采集入库:

<?php
  include_once("conn.php");


   if($_GET['id']<=8&&$_GET['id']){
     $id=$_GET['id'];
    $conn=file_get_contents("http://www.93moli.com/news_list_4_$id.html");//获取页面内容
  
  $pattern="/<li><a title=\"(.*)\" target=\"_blank\" href=\"(.*)\">/iUs";//正则

  preg_match_all($pattern, $conn, $arr);//匹配内容到arr数组

  //print_r($arr);die;
  
  foreach ($arr[1] as $key => $value) {//二维数组[2]对应id和[1]刚好一样,利用起key
    $url="http://www.93moli.com/".$arr[2][$key];
    $sql="insert into list(title,url) value ('$value', '$url')";
    mysql_query($sql);

    //echo "<a href='content.php?url=http://www.93moli.com/$url'>$value</a>"."<br/>";  
  }
   $id++;
   echo "正在采集URL数据列表$id...请稍后...";
   echo "<script>window.location='list.php?id=$id'</script>";

 }else{
   echo "采集数据结束。";
 }

?>

conn.php是数据库连接文件

list.php是本页面

由于要采集的数据是分页显示的,且页面地址是规律递增,所以我用了js跳转代码,利用id传值控制采集的页数,也避免了for循环数目过大。

基于PHP的简单采集数据入库程序

基于PHP的简单采集数据入库程序

轻轻松松数据入库,下篇文章写关于具体url采集信息的过程。

PHP 相关文章推荐
把PHP安装为Apache DSO
Oct 09 PHP
php下实现折线图效果的代码
Apr 28 PHP
ThinkPHP在新浪SAE平台的部署实例
Oct 31 PHP
yii的CURD操作实例详解
Dec 04 PHP
54个提高PHP程序运行效率的方法
Jul 19 PHP
[原创]ThinkPHP让../Public在模板不解析(直接输出)的方法
Oct 09 PHP
php实现mysql数据库连接操作及用户管理
Nov 08 PHP
PHP内核学习教程之php opcode内核实现
Jan 27 PHP
php 读取文件夹下所有图片、文件的实例
Oct 17 PHP
PHP连接MySQL数据库操作代码实例解析
Jul 11 PHP
PHP读取文件或采集时解决中文乱码
Mar 09 PHP
PHP 判断字符串是中文还是英文, 或者是中英混合
Mar 09 PHP
PHP中设置一个严格30分钟过期Session面试题的4种答案
Jul 30 #PHP
PHP使用Session遇到的一个Permission denied Notice解决办法
Jul 30 #PHP
PHP伪静态Rewrite设置之APACHE篇
Jul 30 #PHP
PHP return语句的另一个作用
Jul 30 #PHP
php mb_substr()函数截取中文字符串应用示例
Jul 29 #PHP
php CI框架插入一条或多条sql记录示例
Jul 29 #PHP
两种设置php载入页面时编码的方法
Jul 29 #PHP
You might like
收音机鉴频器对声音的影响和频偏分析
2021/03/02 无线电
PHP 和 MySQL 开发的 8 个技巧
2006/10/09 PHP
php+mysql写的简单留言本实例代码
2008/07/25 PHP
PHP回溯法解决0-1背包问题实例分析
2015/03/23 PHP
php通过exif_read_data函数获取图片的exif信息
2015/05/21 PHP
php计算整个目录大小的方法
2015/06/01 PHP
php数组索引与键值操作技巧实例分析
2015/06/24 PHP
phpstudy默认不支持64位php的解决方法
2017/02/20 PHP
查看源码的工具 学习jQuery源码不错的工具
2011/12/26 Javascript
判断是否安装flash player及当前版本的JS代码
2013/08/08 Javascript
javascript的事件触发器介绍的实现
2014/06/05 Javascript
js图片闪动特效可以控制间隔时间如几分钟闪动一下
2014/08/12 Javascript
用js提交表单解决一个页面有多个提交按钮的问题
2014/09/01 Javascript
jquery实现简单的轮换出现效果实例
2015/07/23 Javascript
jQuery实现form表单元素序列化为json对象的方法
2015/12/09 Javascript
用jQuery向div中添加Html文本内容的简单实现
2016/07/13 Javascript
浅谈JS之iframe中的窗口
2016/09/13 Javascript
使用JQuery中的trim()方法去掉前后空格
2016/09/16 Javascript
关于JS与jQuery中的文档加载问题
2017/08/22 jQuery
详解vue添加删除元素的方法
2018/06/30 Javascript
vue组件(全局,局部,动态加载组件)
2018/09/02 Javascript
swiper4实现移动端导航切换
2020/10/16 Javascript
vue实现用户长时间不操作自动退出登录功能的实现代码
2020/07/23 Javascript
python里对list中的整数求平均并排序
2014/09/12 Python
用python求一个数组的和与平均值的实现方法
2019/06/29 Python
python tkinter图形界面代码统计工具
2019/09/18 Python
nginx+uwsgi+django环境搭建的方法步骤
2019/11/25 Python
Python unittest单元测试openpyxl实现过程解析
2020/05/27 Python
新春联欢会主持词
2014/03/24 职场文书
求职个人评价范文
2014/04/09 职场文书
三八妇女节活动总结
2014/05/04 职场文书
就业协议书
2014/09/12 职场文书
先进党员事迹材料
2014/12/24 职场文书
高中优秀作文(范文)
2019/08/15 职场文书
python实现双向链表原理
2022/05/25 Python
Go语言编译原理之源码调试
2022/08/05 Golang