PHP实现采集抓取淘宝网单个商品信息


Posted in PHP onJanuary 08, 2015

调用淘宝的数据可以使用淘宝提供的api,如果只需调用淘宝商品图片名称等公开信息在自己网站上,使用php中的 file_get_contents 函数实现即可。

思路:

file_get_contents(url) 该函数根据 url 如 http://www.baidu.com 将该网页内容(源码)以字符串形式输出(一个整字符串),然后配合preg_match,preg_replace等这些正则表达式操作就可以实现获取该url特定div,img等信息了。当然前题是淘宝在单个商品页面的结构是固定的,如500图的img中id就是J_ImgBooth!

具体实现方法:(获取500图,名称,价格,属性及商品描述)

$text=file_get_contents("http://item.taobao.com/item.htm?id=2380347279"); //将url地址上页面内容保存进$text

A.获取500图:

preg_match('/<img[^>]*id="J_ImgBooth"[^r]*rc=\"([^"]*)\"[^>]*>/', $text, $img); 

//运用正则抓取img标签中id为J_ImgBooth的img,$img[0]为该500图img标签,$img[1]为500图的图片地址;

B. 获取名称:

preg_match('/<title>([^<>]*)<\/title>/', $text, $title); 

//因为正文中的商品名称标签没有特殊class或id正则不好抓取,就抓<title>标签中的内容了,一般来说title中内容就是商品名称了(实际有些出入),$title[0]整个title标签 $title[1]标签中内容;

$title=iconv('GBK','UTF-8',$title);

//如果你的网站是utf8编码,那么需要进行一下转码(淘宝是gbk编码)

C.获取价格:

preg_match('/<([a-z]+)[^i]*id=\"J_StrPrice\"[^>]*>([^<]*)<\/\\1>/is', $text, $price);

//同理获取id为J_StrPrice的标签内容$price[2], $price[0]是整个标签, $price[1]为strong标签名;

$price=floatval($price);//放入数据库估计还有转一下变量类型

D.获取属性:

这之前获取的内容都是在单标签中相对只需一个正则就可搞定,然而如果要获取如

…

 

<div id=”xxx”>

 

…

 

<ul>

 

…

 

</ul>

 

<div>…

 

<div>…

 

</div>

 

</div>

 

</div>

 

…

这样特定div中有未知n个<>标签,获取该特定div将会非常的困难,搜了下网上,最接近的也只是”/<([a-z]+)[^>]*>([^<>]|(?R))*<\/\\1>/”这样使用递归抓取标签对,但是他不能抓特定标签,所以想要轻松抓取class=”attributes”的div我是没法办到了。但是淘宝网页有其特殊性,就是它的各个标签结构基本是固定的…<div>…</div>标签后面不是</div><div id=”description”>就是</div><div>,所以我们可以采用变通法达到获取属性标签内容的目的。

preg_match('/<(div)[^c]*class=\"attributes\"[^>]*>.*<\/\\1>/is', $text, $text0);

//这个正则会抓取<div开始到整个页面最后一个</div>标签,当然我们属性标签就在这个的前面部分。

 

$text1=preg_replace("/<\/div>[^<]*<(div)[^c]*id=\"description\"[^>]*>.*<\/\\1>/is","",$text0);

//匹配到</div ><div id=”description”>至最后</div>然后用””代替(就是把匹配的删除了),所以如果attributes的div后面紧跟的是description那么我们已经达到目的了。

 

$attributes=preg_replace("/<\/div>[^<]*<(div)[^c]*class=\"box J_TBox\"[^>]*>.*<\/\\1>/is","",$text1);

//如果attributes后面紧跟box J_Tbox标签,那么我们还需要使用以上这步来剔除box J_Tbox标签,当然如果attributes的div后面紧跟的是description,这一步将不会匹配到任何即什么都不会做。

E.获取描述:

通过上面方法你肯定觉得淘宝页面上任何标签都可以很简单获取了吧(我之前也是这么想的),但是使用这个方法获取描述时得到的内容将会是“描述加载中”,是的,这个描述内容不是在源码中的,它是打开页面加载进一大堆js后,不知道从淘宝的哪个角落中加载进来的。

好吧,那么我们也可以模仿它放一些js进去。不知道哪些对加载描述有用?没事,全加载进来肯定没错。不知道需要放那些特定div上去有作用?抓一个源码,删掉一些div一步步试试看,你会发现“<div id=”detail”> </div>

<div id="description">

 

<div id="J_DivItemDesc">描述加载中</div>

 

</div>

这几个div是加载描述所必须的,那么下面就是写代码了:

preg_match_all('/<script[^>]*>[^<]*<\/script>/is', $text, $content);//页面js脚本

 $content=$content[0];

 $description='<div id="detail"> </div>

  <div id="description">

   <div id="J_DivItemDesc">描述加载中</div>

  </div>';

foreach ($content as &$v){$description.=iconv('GBK','UTF-8',$v);};

//将这个$description放进页面,描述就会自动的加载进来了,当然多个商品描述在同一个页面也会只有一个描述会被加载的。
PHP 相关文章推荐
推荐文章系统(一)
Oct 09 PHP
PHP的单引号和双引号 字符串效率
May 27 PHP
PHP中输出转义JavaScript代码的实现代码
Apr 22 PHP
php统计时间和内存使用情况示例分享
Mar 13 PHP
php中spl_autoload详解
Oct 17 PHP
php读取目录及子目录下所有文件名的方法
Oct 20 PHP
php用户登录之cookie信息安全分析
May 13 PHP
PHP的mysqli_set_charset()函数讲解
Jan 23 PHP
PHP封装cURL工具类与应用示例
Jul 01 PHP
tp5.1 实现setInc字段自动加1
Oct 18 PHP
laravel 实现根据字段不同值做不同查询
Oct 23 PHP
php数组指针函数功能及用法示例
Feb 11 PHP
linux中cd命令使用详解
Jan 08 #PHP
php计划任务之ignore_user_abort函数实现方法
Jan 08 #PHP
网站防止被刷票的一些思路与方法
Jan 08 #PHP
分享常见的几种页面静态化的方法
Jan 08 #PHP
php的ddos攻击解决方法
Jan 08 #PHP
php的sso单点登录实现方法
Jan 08 #PHP
PHP制作万年历
Jan 07 #PHP
You might like
咖啡风味 世界咖啡主要分布分布 咖啡的生长要求
2021/03/06 新手入门
php截取utf-8中文字符串乱码的解决方法
2010/03/29 PHP
PHP 字符串加密函数(在指定时间内加密还原字符串,超时无法还原)
2010/04/28 PHP
用PHP读取超大文件的实例代码
2012/04/01 PHP
如何使用jQuery+PHP+MySQL来实现一个在线测试项目
2015/04/26 PHP
Google Suggest ;-) 基于js的动态下拉菜单
2006/10/11 Javascript
分享一个asp.net pager分页控件
2012/01/04 Javascript
JS实现一键回顶功能示例代码
2013/10/28 Javascript
js 判断js函数、变量是否存在的简单示例代码
2014/03/04 Javascript
JavaScript控制图片加载完成后调用回调函数的方法
2015/03/20 Javascript
JS实现Select的option上下移动的方法
2016/03/01 Javascript
JavaScript知识点总结(四)之逻辑OR运算符详解
2016/05/31 Javascript
js select下拉联动 更具级联性!
2020/04/17 Javascript
学习使用jQuery表单验证插件和日历插件
2017/02/13 Javascript
在HTML文档中嵌入JavaScript的四种方法
2018/05/07 Javascript
vue 指令和过滤器的基本使用(品牌管理案例)
2019/11/04 Javascript
通过Kettle自定义jar包供javascript使用
2020/01/29 Javascript
[00:34]拔城逐梦,热血永恒!2020(秋)完美世界城市挑战赛报名开启
2020/10/09 DOTA
Python时间戳与时间字符串互相转换实例代码
2013/11/28 Python
在cmd中运行.py文件: python的操作步骤
2018/05/12 Python
一百多行python代码实现抢票助手
2018/09/25 Python
python自动化UI工具发送QQ消息的实例
2019/08/27 Python
Tensorflow读取并输出已保存模型的权重数值方式
2020/01/04 Python
Python视频编辑库MoviePy的使用
2020/04/01 Python
Python 如何实现访问者模式
2020/07/28 Python
皇家道尔顿官网:Royal Doulton
2017/12/06 全球购物
实习教师自我鉴定
2013/09/27 职场文书
历史学专业推荐信
2013/11/06 职场文书
《太阳》教学反思
2014/02/21 职场文书
四年级评语大全
2014/04/21 职场文书
房产销售独家委托书范本
2014/10/01 职场文书
工作违纪检讨书范文
2015/01/26 职场文书
2015年董事长秘书工作总结
2015/07/23 职场文书
实习报告范文之电话客服岗位
2019/07/26 职场文书
初中生入团申请书范文(五篇)
2019/10/16 职场文书
基于Java的MathML转图片的方法(示例代码)
2021/06/23 Java/Android