基于PHP的简单采集数据入库程序【续篇】


Posted in PHP onJuly 30, 2014

在上篇文章中,我们已经采集新闻信息页的列表数据,接下来要做的操作就是从数据库中读取所需要采集的URL,进行页面抓取就行

新建一个content表

不过需要注意的一点是,不能再采用采集URL这种id递增的方法去采集,因为数据表中可能出现id断续,比如id=9,id=11,当采集到id=10的时候,URL是空白的,这样可能会导致采集到了空字段。

这里用到的一个技巧是数据库的查询语句,在我们采集完第一条数据的时候,判断数据库里是否还有大于此id的id编号,若有,读取一条,查询信息重复上面的工作。

具体代码如下:

<?php
  
  include_once("conn.php");
  $id=(int)$_GET['id'];
  $sql="select * from list where id=$id";
  $result=mysql_query($sql);
  $row=mysql_fetch_array($result);//取得对应的url地址
  $content=file_get_contents($row['url']);
  $pattern="/<dd class=\"dataWrap\">(.*)<\/dd>/iUs";
  preg_match($pattern, $content,$info);//获取内容存放info
  echo $title=$row[1]."<br/>";
  echo $content=$info[0]."<hr/>";

  //插入数据库
  $add="insert into content(title,content) value('$title','$content')";
  mysql_query($add);

  $sql2="select * from list where id>$id order by id asc limit 1";
  $result2=mysql_query($sql2);
  $row2=mysql_fetch_array($result2);//取得对应的url地址
  if($row2['id']){
    echo "<script>window.location='content.php?id=$row2[0]'</script>";
  }

?>

基于PHP的简单采集数据入库程序【续篇】

这样子我们所要的新闻内容就采集入库了,接下来只需要对数据的一些样式进行整理就行了。

PHP 相关文章推荐
PHP下MAIL的另一解决方案
Oct 09 PHP
一篇入门的php Class 文章
Apr 04 PHP
PHP extract 将数组拆分成多个变量的函数
Jun 30 PHP
PHP编程函数安全篇
Jan 08 PHP
在php和MySql中计算时间差的方法详解
Mar 27 PHP
php获取、检查类名、函数名、方法名的函数方法
Jun 25 PHP
PHP扩展Memcache分布式部署方案
Dec 06 PHP
php求今天、昨天、明天时间戳的简单实现方法
Jul 28 PHP
php获取ajax的headers方法与内容实例
Dec 27 PHP
PHP保存Base64图片base64_decode的问题整理
Nov 04 PHP
利用PHP内置SERVER开启web服务(本地开发使用)
Jan 22 PHP
PHP加MySQL消息队列深入理解
Feb 27 PHP
基于PHP的简单采集数据入库程序
Jul 30 #PHP
PHP中设置一个严格30分钟过期Session面试题的4种答案
Jul 30 #PHP
PHP使用Session遇到的一个Permission denied Notice解决办法
Jul 30 #PHP
PHP伪静态Rewrite设置之APACHE篇
Jul 30 #PHP
PHP return语句的另一个作用
Jul 30 #PHP
php mb_substr()函数截取中文字符串应用示例
Jul 29 #PHP
php CI框架插入一条或多条sql记录示例
Jul 29 #PHP
You might like
mayfish 数据入库验证代码
2010/04/30 PHP
PHP中绘制图像的一些函数总结
2014/11/19 PHP
Symfony2实现在doctrine中内置数据的方法
2016/02/05 PHP
使Ext的Template可以解析二层的json数据的方法
2007/12/22 Javascript
javascript 建设银行登陆键盘
2008/06/10 Javascript
JQuery入门——用映射方式绑定不同事件应用示例
2013/02/05 Javascript
Javascript遍历Html Table示例(包括内容和属性值)
2014/07/08 Javascript
jQuery提示效果代码分享
2014/11/20 Javascript
JavaScript生成的动态下雨背景效果实现方法
2015/02/25 Javascript
js制作带有遮罩弹出层实现登录注册表单特效代码分享
2015/09/05 Javascript
jQuery动态加载css文件实现方法
2016/06/15 Javascript
jQuery的图片轮播插件PgwSlideshow使用详解
2016/08/11 Javascript
AngularJS extend用法详解及实例代码
2016/11/15 Javascript
JS 对java返回的json格式的数据处理方法
2016/12/05 Javascript
深究AngularJS中$sce的使用
2017/06/12 Javascript
Vue实现简单分页器
2018/12/29 Javascript
JavaScript中常用的简洁高级技巧总结
2019/03/10 Javascript
Vue 实现从文件中获取文本信息的方法详解
2019/10/16 Javascript
详解element-ui 表单校验 Rules 配置 常用黑科技
2020/07/11 Javascript
js实现鼠标滑动到某个div禁止滚动
2020/09/17 Javascript
Vue3+elementui plus创建项目的方法
2020/12/01 Vue.js
在java中如何定义一个抽象属性示例详解
2017/08/18 Python
浅谈Python_Openpyxl使用(最全总结)
2019/09/05 Python
使用Python爬虫库requests发送表单数据和JSON数据
2020/01/25 Python
selenium学习教程之定位以及切换frame(iframe)
2021/01/04 Python
英国女性时尚鞋类的潮流制造者:Koi Footwear
2018/10/19 全球购物
有原因的手表:Flex Watches
2019/03/23 全球购物
巴西葡萄酒商店:Divvino
2020/02/22 全球购物
类和结构的区别
2012/08/15 面试题
入党申请书自我鉴定
2013/10/12 职场文书
文化与传播毕业生求职信
2014/03/09 职场文书
警察先进个人事迹材料
2014/05/16 职场文书
群众路线个人剖析材料及整改措施
2014/11/04 职场文书
门卫管理制度范本
2015/08/05 职场文书
导游词之海南-南湾猴岛
2019/10/12 职场文书
Vue+TypeScript中处理computed方式
2022/04/02 Vue.js