基于PHP的简单采集数据入库程序


Posted in PHP onJuly 30, 2014

说到采集,无非就是远程获取信息->提取所需内容->分类存储->读取->展示

也算是简单"小偷程序"的加强版吧

下面是对应核心代码(别拿去做坏事哦^_^)

所要采集的内容是某游戏网站上的公告,如下图:

基于PHP的简单采集数据入库程序

可先利用file_get_contents和简单正则获取基本页面信息

基于PHP的简单采集数据入库程序

整理下基本信息,采集入库:

<?php
  include_once("conn.php");


   if($_GET['id']<=8&&$_GET['id']){
     $id=$_GET['id'];
    $conn=file_get_contents("http://www.93moli.com/news_list_4_$id.html");//获取页面内容
  
  $pattern="/<li><a title=\"(.*)\" target=\"_blank\" href=\"(.*)\">/iUs";//正则

  preg_match_all($pattern, $conn, $arr);//匹配内容到arr数组

  //print_r($arr);die;
  
  foreach ($arr[1] as $key => $value) {//二维数组[2]对应id和[1]刚好一样,利用起key
    $url="http://www.93moli.com/".$arr[2][$key];
    $sql="insert into list(title,url) value ('$value', '$url')";
    mysql_query($sql);

    //echo "<a href='content.php?url=http://www.93moli.com/$url'>$value</a>"."<br/>";  
  }
   $id++;
   echo "正在采集URL数据列表$id...请稍后...";
   echo "<script>window.location='list.php?id=$id'</script>";

 }else{
   echo "采集数据结束。";
 }

?>

conn.php是数据库连接文件

list.php是本页面

由于要采集的数据是分页显示的,且页面地址是规律递增,所以我用了js跳转代码,利用id传值控制采集的页数,也避免了for循环数目过大。

基于PHP的简单采集数据入库程序

基于PHP的简单采集数据入库程序

轻轻松松数据入库,下篇文章写关于具体url采集信息的过程。

PHP 相关文章推荐
用PHP编程语言开发动态WAP页面
Oct 09 PHP
用PHP来写记数器(详细介绍)
Oct 09 PHP
精通php的十大要点(上)
Feb 04 PHP
php mssql 日期出现中文字符的解决方法
Mar 10 PHP
php 自写函数代码 获取关键字 去超链接
Feb 08 PHP
PHP在字符断点处截断文字的实现代码
Apr 21 PHP
PHP导出MySQL数据到Excel文件(fputcsv)
Jul 03 PHP
浅析Yii中使用RBAC的完全指南(用户角色权限控制)
Jun 20 PHP
PHP获取MAC地址的具体实例
Dec 13 PHP
php截取字符串函数分享
Feb 02 PHP
php中使用in_array() foreach array_search() 查找数组是否包含时的性能对比
Apr 14 PHP
php正则表达式验证(邮件地址、Url地址、电话号码、邮政编码)
Mar 14 PHP
PHP中设置一个严格30分钟过期Session面试题的4种答案
Jul 30 #PHP
PHP使用Session遇到的一个Permission denied Notice解决办法
Jul 30 #PHP
PHP伪静态Rewrite设置之APACHE篇
Jul 30 #PHP
PHP return语句的另一个作用
Jul 30 #PHP
php mb_substr()函数截取中文字符串应用示例
Jul 29 #PHP
php CI框架插入一条或多条sql记录示例
Jul 29 #PHP
两种设置php载入页面时编码的方法
Jul 29 #PHP
You might like
一个php作的文本留言本的例子(六)
2006/10/09 PHP
wiki-shan写的php在线加密的解密程序
2008/09/07 PHP
php+jquery+html实现点击不刷新加载更多的实例代码
2016/08/12 PHP
thinkphp jquery实现图片上传和预览效果
2020/07/22 PHP
PHP如何实现订单的延时处理详解
2017/12/30 PHP
PHP CURL中传递cookie的方法步骤
2019/05/09 PHP
PHP设计模式(一)工厂模式Factory实例详解【创建型】
2020/05/02 PHP
JavaScript中两个感叹号的作用说明
2011/12/28 Javascript
12款经典的白富美型—jquery图片轮播插件—前端开发必备
2013/01/08 Javascript
随鼠标移动的时钟非常漂亮遗憾的是只支持IE
2014/08/12 Javascript
兼容各大浏览器的JavaScript阻止事件冒泡代码
2015/07/09 Javascript
Nodejs全局安装和本地安装的不同之处
2016/07/04 NodeJs
jquery实现倒计时小应用
2017/09/19 jQuery
vue-cli 组件的导入与使用教程详解
2018/04/11 Javascript
vue.extend与vue.component的区别和联系
2018/09/19 Javascript
vue项目打包上传github并制作预览链接(pages)
2019/04/19 Javascript
nodejs实现获取本地文件夹下图片信息功能示例
2019/06/22 NodeJs
js图数据结构处理 迪杰斯特拉算法代码实例
2019/09/11 Javascript
使用webpack将ES6转化ES5的实现方法
2019/10/13 Javascript
详解用js代码触发dom事件的实现方案
2020/06/10 Javascript
python文件读写操作与linux shell变量命令交互执行的方法
2015/01/14 Python
详解使用Python处理文件目录的相关方法
2015/10/16 Python
Python实现可自定义大小的截屏功能
2018/01/20 Python
python使用装饰器作日志处理的方法
2019/07/11 Python
python 实现PIL模块在图片画线写字
2020/05/16 Python
Python eval函数介绍及用法
2020/11/09 Python
python爬虫调度器用法及实例代码
2020/11/30 Python
结合 CSS3 transition transform 实现简单的跑马灯效果的示例
2018/02/07 HTML / CSS
Sephora丝芙兰泰国官方网站:国际知名化妆品购物
2017/11/15 全球购物
Shopping happy life西班牙:以最优惠的价格提供最好的时尚配饰
2020/03/13 全球购物
一些.net面试题
2014/10/06 面试题
广州足迹信息技术有限公司Java软件工程师试题
2014/02/15 面试题
早读课迟到检讨书
2014/09/25 职场文书
2019旅游导游工作总结
2019/06/27 职场文书
windows11怎么查看wifi密码? win11查看wifi密码的技巧
2021/11/21 数码科技
Python 中面向接口编程
2022/05/20 Python