编程 Python

python抓取京东价格分析京东商品价格走势

Posted in Python onJanuary 09, 2014

from creepy import Crawler
from BeautifulSoup import BeautifulSoup
import urllib2
import json
class MyCrawler(Crawler):
    def process_document(self, doc):
        if doc.status == 200:
            print '[%d] %s' % (doc.status, doc.url)
            try:
                soup = BeautifulSoup(doc.text.decode('gb18030').encode('utf-8'))
            except Exception as e:
                print e
                soup = BeautifulSoup(doc.text)
            print soup.find(id="product-intro").div.h1.text
            url_id=urllib2.unquote(doc.url).decode('utf8').split('/')[-1].split('.')[0]
            f = urllib2.urlopen('http://p.3.cn/prices/get?skuid=J_'+url_id,timeout=5)
            price=json.loads(f.read())
            f.close()
            print price[0]['p']
        else:
            pass
crawler = MyCrawler()
crawler.set_follow_mode(Crawler.F_SAME_HOST)
crawler.set_concurrency_level(16)
crawler.add_url_filter('\.(jpg|jpeg|gif|png|js|css|swf)$')
crawler.crawl('http://item.jd.com/982040.html')

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python进程类subprocess的一些操作方法例子

Nov 22 Python

Windows上使用virtualenv搭建Python+Flask开发环境

Jun 07 Python

详谈Python2.6和Python3.0中对除法操作的异同

Apr 28 Python

Python打开文件,将list、numpy数组内容写入txt文件中的方法

Oct 26 Python

python mqtt 客户端的实现代码实例

Sep 25 Python

彻底搞懂 python 中文乱码问题(深入分析)

Feb 28 Python

利用4行Python代码监测每一行程序的运行时间和空间消耗

Apr 22 Python

Python基于Webhook实现github自动化部署

Nov 28 Python

细说NumPy数组的四种乘法的使用

Dec 18 Python

pycharm 多行批量缩进和反向缩进快捷键介绍

Jan 15 Python

Python使用OpenCV实现虚拟缩放效果

Feb 28 Python

python数字图像处理：图像简单滤波

Jun 28 Python

python实现电子词典

Apr 23 #Python

python中cPickle用法例子分享

Jan 03 #Python

使用python获取CPU和内存信息的思路与实现(linux系统)

Jan 03 #Python

Python群发邮件实例代码

Jan 03 #Python

python切换hosts文件代码示例

Dec 31 #Python

使用Python进行稳定可靠的文件操作详解

Dec 31 #Python

python连接mongodb操作数据示例(mongodb数据库配置类)

Dec 31 #Python

You might like

星际争霸中的热键

2020/03/04 星际争霸

东方红 - 来复式再生机的修复

2021/03/02 无线电

在WINDOWS中设置计划任务执行PHP文件的方法

2011/12/19 PHP

微信公众平台开发-微信服务器IP接口实例（含源码）

2017/03/05 PHP

List Installed Hot Fixes

2007/06/12 Javascript

增强的 JavaScript 的 trim 函数的代码

2007/08/13 Javascript

js鼠标点击事件在各个浏览器中的写法及Event对象属性介绍

2013/01/24 Javascript

nodejs的10个性能优化技巧

2014/07/15 NodeJs

node.js中的fs.fsyncSync方法使用说明

2014/12/15 Javascript

元素绑定click点击事件方法

2015/06/08 Javascript

jQuery实现 RadioButton做必选校验功能

2017/06/15 jQuery

分享19个JavaScript 有用的简写写法

2017/07/07 Javascript

react-native组件中NavigatorIOS和ListView结合使用的方法

2017/09/30 Javascript

浅谈Vue SPA 首屏加载优化实践

2017/12/15 Javascript

小程序点击图片实现png转jpg

2019/10/22 Javascript

node+vue实现文件上传功能

2020/05/28 Javascript

基于react项目打包css引用路径错误解决方案

2020/10/28 Javascript

Python NumPy库安装使用笔记

2015/05/18 Python

Python2.x利用commands模块执行Linux shell命令

2016/03/11 Python

python 顺时针打印矩阵的超简洁代码

2018/11/14 Python

python实现QQ空间自动点赞功能

2019/04/09 Python

Python read函数按字节(字符)读取文件的实现

2019/07/03 Python

使用Pandas对数据进行筛选和排序的实现

2019/07/29 Python

python百行代码自制电脑端网速悬浮窗的实现

2020/05/12 Python

解决django框架model中外键不落实到数据库问题

2020/05/20 Python

python对一个数向上取整的实例方法

2020/06/18 Python

Python的Tqdm模块实现进度条配置

2021/02/24 Python

HTML5引入的新数组TypedArray介绍

2012/12/24 HTML / CSS

Ramy Brook官网：美国现代女装品牌

2019/06/18 全球购物

小米俄罗斯授权商店：Xiaomi俄罗斯

2019/12/08 全球购物

现在输入n个数字，以逗号，分开；然后可选择升或者降序排序；按提交键就在另一页面显示按什么排序，结果为，提供reset

2012/11/09 面试题

小学生节约用水倡议书

2014/05/15 职场文书

2014年医院党建工作总结

2014/12/20 职场文书

计划生育个人总结

2015/03/02 职场文书

2016年六一儿童节开幕词

2016/03/04 职场文书

css 中多种边框的实现小窍门

2021/04/07 HTML / CSS