python抓取京东价格分析京东商品价格走势


Posted in Python onJanuary 09, 2014
from creepy import Crawler
from BeautifulSoup import BeautifulSoup
import urllib2
import json
class MyCrawler(Crawler):
    def process_document(self, doc):
        if doc.status == 200:
            print '[%d] %s' % (doc.status, doc.url)
            try:
                soup = BeautifulSoup(doc.text.decode('gb18030').encode('utf-8'))
            except Exception as e:
                print e
                soup = BeautifulSoup(doc.text)
            print soup.find(id="product-intro").div.h1.text
            url_id=urllib2.unquote(doc.url).decode('utf8').split('/')[-1].split('.')[0]
            f = urllib2.urlopen('http://p.3.cn/prices/get?skuid=J_'+url_id,timeout=5)
            price=json.loads(f.read())
            f.close()
            print price[0]['p']
        else:
            pass
crawler = MyCrawler()
crawler.set_follow_mode(Crawler.F_SAME_HOST)
crawler.set_concurrency_level(16)
crawler.add_url_filter('\.(jpg|jpeg|gif|png|js|css|swf)$')
crawler.crawl('http://item.jd.com/982040.html')
Python 相关文章推荐
Python中itertools模块用法详解
Sep 25 Python
Python日期时间对象转换为字符串的实例
Jun 22 Python
python-str,list,set间的转换实例
Jun 27 Python
对Python中for复合语句的使用示例讲解
Nov 01 Python
用Python实现数据的透视表的方法
Nov 16 Python
appium+python adb常用命令分享
Mar 06 Python
python3用PyPDF2解析pdf文件,用正则匹配数据方式
May 12 Python
使用anaconda安装pytorch的实现步骤
Sep 03 Python
python用Configobj模块读取配置文件
Sep 26 Python
去除python中的字符串空格的简单方法
Dec 22 Python
Python关于拓扑排序知识点讲解
Jan 04 Python
matplotlib绘制正余弦曲线图的实现
Feb 22 Python
python实现电子词典
Apr 23 #Python
python中cPickle用法例子分享
Jan 03 #Python
使用python获取CPU和内存信息的思路与实现(linux系统)
Jan 03 #Python
Python群发邮件实例代码
Jan 03 #Python
python切换hosts文件代码示例
Dec 31 #Python
使用Python进行稳定可靠的文件操作详解
Dec 31 #Python
python连接mongodb操作数据示例(mongodb数据库配置类)
Dec 31 #Python
You might like
php中的时间显示
2007/01/18 PHP
php统计文件大小,以GB、MB、KB、B输出
2011/05/29 PHP
PHP操作文件类的函数代码(文件和文件夹创建,复制,移动和删除)
2011/11/10 PHP
PHP模板引擎Smarty的缓存使用总结
2014/04/24 PHP
php 根据自增id创建唯一编号类
2017/04/06 PHP
PHP实现对数字分隔加千分号的方法
2019/03/18 PHP
JavaScript Date对象 日期获取函数
2010/12/19 Javascript
jquery控制左右箭头滚动图片列表的实例
2013/05/20 Javascript
Javascript玩转继承(二)
2014/05/08 Javascript
AngularJS入门教程之Hello World!
2014/12/06 Javascript
node.js中的http.response.write方法使用说明
2014/12/14 Javascript
MVVM模式中ViewModel和View、Model有什么区别?
2015/06/19 Javascript
JS实现的颜色实时渐变效果完整实例
2016/03/25 Javascript
第九章之路径分页标签与徽章组件
2016/04/25 Javascript
node.js(express)中使用Jcrop进行图片剪切上传功能
2017/04/21 Javascript
node.js将MongoDB数据同步到MySQL的步骤
2017/12/10 Javascript
javascript用defineProperty实现简单的双向绑定方法
2020/04/03 Javascript
如何在selenium中使用js实现定位
2020/08/18 Javascript
[49:05]Newbee vs TNC 2018国际邀请赛小组赛BO2 第一场 8.16
2018/08/17 DOTA
python逐行读取文件内容的三种方法
2014/01/20 Python
Python函数式编程指南(三):迭代器详解
2015/06/24 Python
Python简单实现安全开关文件的两种方式
2016/09/19 Python
python根据unicode判断语言类型实例代码
2018/01/17 Python
pandas 对每一列数据进行标准化的方法
2018/06/09 Python
Python 字节流,字符串,十六进制相互转换实例(binascii,bytes)
2020/05/11 Python
Python爬虫开发与项目实战
2020/12/16 Python
html5拖拽应用记录及注意点
2020/05/27 HTML / CSS
怀俄明州飞钓:Platte River Fly Shop
2017/12/28 全球购物
写给妈妈的道歉信
2014/01/11 职场文书
单位委托书范本
2014/04/04 职场文书
道歉信范文
2015/05/12 职场文书
乔布斯辞职信(中英文对照)
2015/05/12 职场文书
比较几种Redis集群方案
2021/06/21 Redis
利用uni-app生成微信小程序的踩坑记录
2022/04/05 Javascript
Win11如何设置右键单击显示所有选项?Win11右键单击显示所有选项设置教程
2022/04/08 数码科技
java.util.NoSuchElementException原因及两种解决方法
2022/06/28 Java/Android