python抓取京东商城手机列表url实例代码


Posted in Python onDecember 18, 2013
#-*- coding: UTF-8 -*-
'''
Created on 2013-12-5
@author: good-temper
'''
import urllib2
import bs4
import time
def getPage(urlStr):
    '''
                获取页面内容
    '''
    content = urllib2.urlopen(urlStr).read()
    return content
def getNextPageUrl(currPageNum):
    #http://list.jd.com/9987-653-655-0-0-0-0-0-0-0-1-1-页码-1-1-72-4137-33.html
    url =  u'http://list.jd.com/9987-653-655-0-0-0-0-0-0-0-1-1-'+str(currPageNum+1)+'-1-1-72-4137-33.html'
    #是否有下一页
    content = getPage(url);
    soup = bs4.BeautifulSoup(content)
    list = soup.findAll('span',{'class':'next-disabled'});
    if(len(list) == 0):
        return url
    return ''
def analyzeList():
    pageNum = 0
    list = []
    url = getNextPageUrl(pageNum)
    while url !='':
        soup = bs4.BeautifulSoup(getPage(url))
        pagelist = soup.findAll('div',{'class':'p-name'})
        for elem in pagelist:
            soup1 =  bs4.BeautifulSoup(str(elem))
            list.append(soup1.find('a')['href'])
        pageNum = pageNum+1
        print pageNum
        url = getNextPageUrl(pageNum)
    return list
def analyzeContent(url):
    return ''
def writeToFile(list, path):
    f = open(path, 'a')
    for elem in list:
        f.write(elem+'\n')
    f.close()
if __name__ == '__main__':
    list = analyzeList()
    print '共抓取'+str(len(list))+'条\n'
    writeToFile(list, u'E:\\jd_phone_list.dat');
Python 相关文章推荐
python数据结构之图深度优先和广度优先实例详解
Jul 08 Python
微信 用脚本查看是否被微信好友删除
Oct 28 Python
python制作爬虫爬取京东商品评论教程
Dec 16 Python
Python常用算法学习基础教程
Apr 13 Python
Python 元组操作总结
Sep 18 Python
python打包成so文件过程解析
Sep 28 Python
Django框架序列化与反序列化操作详解
Nov 01 Python
Python语言异常处理测试过程解析
Jan 08 Python
python线程join方法原理解析
Feb 11 Python
PyTorch笔记之scatter()函数的使用
Feb 12 Python
Python3实现个位数字和十位数字对调, 其乘积不变
May 03 Python
Python定义一个函数的方法
Jun 15 Python
python获取糗百图片代码实例
Dec 18 #Python
python算法学习之计数排序实例
Dec 18 #Python
python算法学习之基数排序实例
Dec 18 #Python
python算法学习之桶排序算法实例(分块排序)
Dec 18 #Python
python计算最大优先级队列实例
Dec 18 #Python
python计算最小优先级队列代码分享
Dec 18 #Python
python查找第k小元素代码分享
Dec 18 #Python
You might like
全国FM电台频率大全 - 3 河北省
2020/03/11 无线电
全国FM电台频率大全 - 11 浙江省
2020/03/11 无线电
PHP简单系统数据添加以及数据删除模块源文件下载
2008/06/07 PHP
PHP处理数组和XML之间的互相转换
2016/06/02 PHP
php 类中的常量、静态属性、非静态属性的区别
2017/04/09 PHP
jQuery Lightbox 图片展示插件使用说明
2010/04/25 Javascript
拥抱模块化的JavaScript
2012/03/07 Javascript
js模拟select下拉菜单控件的代码
2013/05/08 Javascript
AngularJS入门教程(一):静态模板
2014/12/06 Javascript
jquery判断iPhone、Android设备类型
2016/09/14 Javascript
浅析Angular2子模块以及异步加载
2017/04/24 Javascript
ES6中参数的默认值语法介绍
2017/05/03 Javascript
jQuery图片查看插件Magnify开发详解
2017/12/25 jQuery
小程序实现五星点评效果
2018/11/03 Javascript
教你完全理解ReentrantLock重入锁
2019/06/03 Javascript
修改vue源码实现动态路由缓存的方法
2020/01/21 Javascript
Python基于twisted实现简单的web服务器
2014/09/29 Python
利用 python 对目录下的文件进行过滤删除
2017/12/27 Python
python实现简单淘宝秒杀功能
2018/05/03 Python
详解Pytorch 使用Pytorch拟合多项式(多项式回归)
2018/05/24 Python
django数据关系一对多、多对多模型、自关联的建立
2019/07/24 Python
Flask 上传自定义头像的实例详解
2020/01/09 Python
python圣诞树编写实例详解
2020/02/13 Python
Python批量启动多线程代码实例
2020/02/18 Python
Django Auth用户认证组件实现代码
2020/10/13 Python
BIBLOO捷克:购买女装、男装、童装、鞋和配件
2017/01/27 全球购物
“型”走纽约上东区:Sam Edelman
2017/04/02 全球购物
Right-on官方网站:日本知名的休闲服装品牌
2019/07/12 全球购物
英语专业学生的自我评价
2013/12/30 职场文书
教师节横幅标语
2014/10/08 职场文书
教师党员个人自我评价
2015/03/04 职场文书
2015年乡镇纪委工作总结
2015/05/26 职场文书
省级三好学生主要事迹材料
2015/11/03 职场文书
2016年暑假学生家长评语
2015/12/01 职场文书
竞聘演讲报告:基本写作有哪些?附开头范文
2019/10/16 职场文书
Nginx配置之实现多台服务器负载均衡
2021/08/02 Servers