python抓取京东价格分析京东商品价格走势


Posted in Python onJanuary 09, 2014
from creepy import Crawler
from BeautifulSoup import BeautifulSoup
import urllib2
import json
class MyCrawler(Crawler):
    def process_document(self, doc):
        if doc.status == 200:
            print '[%d] %s' % (doc.status, doc.url)
            try:
                soup = BeautifulSoup(doc.text.decode('gb18030').encode('utf-8'))
            except Exception as e:
                print e
                soup = BeautifulSoup(doc.text)
            print soup.find(id="product-intro").div.h1.text
            url_id=urllib2.unquote(doc.url).decode('utf8').split('/')[-1].split('.')[0]
            f = urllib2.urlopen('http://p.3.cn/prices/get?skuid=J_'+url_id,timeout=5)
            price=json.loads(f.read())
            f.close()
            print price[0]['p']
        else:
            pass
crawler = MyCrawler()
crawler.set_follow_mode(Crawler.F_SAME_HOST)
crawler.set_concurrency_level(16)
crawler.add_url_filter('\.(jpg|jpeg|gif|png|js|css|swf)$')
crawler.crawl('http://item.jd.com/982040.html')
Python 相关文章推荐
利用Python获取操作系统信息实例
Sep 02 Python
Python合并字典键值并去除重复元素的实例
Dec 18 Python
python模块之re正则表达式详解
Feb 03 Python
Python爬虫DOTA排行榜爬取实例(分享)
Jun 13 Python
详谈Python高阶函数与函数装饰器(推荐)
Sep 30 Python
人生苦短我用python python如何快速入门?
Mar 12 Python
Python爬虫工程师面试问题总结
Mar 22 Python
简单谈谈Python的pycurl模块
Apr 07 Python
python执行系统命令后获取返回值的几种方式集合
May 12 Python
使用Python的OpenCV模块识别滑动验证码的缺口(推荐)
May 10 Python
Python 中判断列表是否为空的方法
Nov 24 Python
python实现梯度法 python最速下降法
Mar 24 Python
python实现电子词典
Apr 23 #Python
python中cPickle用法例子分享
Jan 03 #Python
使用python获取CPU和内存信息的思路与实现(linux系统)
Jan 03 #Python
Python群发邮件实例代码
Jan 03 #Python
python切换hosts文件代码示例
Dec 31 #Python
使用Python进行稳定可靠的文件操作详解
Dec 31 #Python
python连接mongodb操作数据示例(mongodb数据库配置类)
Dec 31 #Python
You might like
让的PHP代码飞起来的40条小技巧(提升php效率)
2010/04/12 PHP
php类声明和php类使用方法示例分享
2014/03/29 PHP
关于php支持分块与断点续传文件下载功能代码
2014/05/09 PHP
YII使用url组件美化管理的方法
2015/12/28 PHP
CentOS7系统搭建LAMP及更新PHP版本操作详解
2020/03/26 PHP
THINKPHP-Apache服务器中使用Alias虚拟目录URL重写 隐藏index.php
2021/03/09 PHP
点击文章内容处弹出页面代码
2009/10/01 Javascript
jquery插件制作教程 txtHover
2012/08/17 Javascript
javascript中createElement的两种创建方式
2015/05/14 Javascript
限制复选框最多选择项的实现代码
2016/05/30 Javascript
深入理解JS实现快速排序和去重
2016/10/17 Javascript
Javascript将字符串日期格式化为yyyy-mm-dd的方法
2016/10/27 Javascript
微信小程序 高德地图SDK详解及简单实例(源码下载)
2017/01/11 Javascript
vue实现全选和反选功能
2017/08/31 Javascript
100行代码实现vue表单校验功能(小白自编)
2019/11/19 Javascript
jQuery实现可编辑的表格
2019/12/11 jQuery
Vue实现剪贴板复制功能
2019/12/31 Javascript
python实现字符串中字符分类及个数统计
2018/09/28 Python
在Python dataframe中出生日期转化为年龄的实现方法
2018/10/20 Python
Python中的Socket 与 ScoketServer 通信及遇到问题解决方法
2019/04/01 Python
Python SELENIUM上传文件或图片实现过程
2019/10/28 Python
python列表切片和嵌套列表取值操作详解
2020/02/27 Python
在django admin详情表单显示中添加自定义控件的实现
2020/03/11 Python
python shapely.geometry.polygon任意两个四边形的IOU计算实例
2020/04/12 Python
Keras在训练期间可视化训练误差和测试误差实例
2020/06/16 Python
Sentry错误日志监控使用方法解析
2020/11/12 Python
英国电信商店:BT Shop
2019/12/17 全球购物
RealTek面试题
2016/06/28 面试题
什么是ARP(Address Resolution Protocol)地址解析协议
2013/10/31 面试题
后勤人员自我鉴定
2013/10/20 职场文书
应付会计岗位职责
2013/12/12 职场文书
党员实事承诺书
2014/03/26 职场文书
党的群众路线教育实践活动对照检查材料
2014/09/22 职场文书
节约用电倡议书
2015/04/28 职场文书
在python中读取和写入CSV文件详情
2022/06/28 Python
JS实现简单九宫格抽奖
2022/06/28 Javascript