python爬虫爬取淘宝商品信息


Posted in Python onFebruary 23, 2018

本文实例为大家分享了python爬取淘宝商品的具体代码,供大家参考,具体内容如下

import requests as req 
import re 
 
def getHTMLText(url): 
 try: 
 r = req.get(url, timeout=30) 
 r.raise_for_status() 
 r.encoding = r.apparent_encoding 
 return r.text 
 except: 
 return "" 
 
def parasePage(ilt, html): 
 try: 
 plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html) 
 tlt = re.findall(r'\"raw_title\"\:\".*?\"', html) 
 for i in range(len(plt)): 
  price = eval(plt[i].split(':')[1]) 
  title = eval(tlt[i].split(':')[1]) 
  ilt.append([price, title]) 
 except: 
 print("") 
 
 
def printGoodsList(ilt): 
 tplt = "{:4}\t{:8}\t{:16}" 
 print(tplt.format("序列号", "价格", "商品名称")) 
 count = 0 
 for j in ilt: 
 count = count + 1 
 print(tplt.format(count, j[0], j[1])) 
 
def main(): 
 goods = "python爬虫" 
 depth = 3 
 start_url = 'https://s.taobao.com/search?q=' + goods 
 infoList = [] 
 for i in range(depth): 
 try: 
  url = start_url + '&s=' + str(44*i) 
  html = getHTMLText(url) 
  parasePage(infoList, html) 
 except: 
  continue 
 printGoodsList(infoList) 
 
main()

效果图:

python爬虫爬取淘宝商品信息

更多内容请参考专题《python爬取功能汇总》进行学习。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现多线程下载文件的代码实例
Jun 01 Python
Python中的anydbm模版和shelve模版使用指南
Jul 09 Python
Python读取本地文件并解析网页元素的方法
May 21 Python
Python图像的增强处理操作示例【基于ImageEnhance类】
Jan 03 Python
Pyinstaller打包.py生成.exe的方法和报错总结
Apr 02 Python
Python 中Django安装和使用教程详解
Jul 03 Python
python里运用私有属性和方法总结
Jul 08 Python
在pycharm中配置Anaconda以及pip源配置详解
Sep 09 Python
django框架forms组件用法实例详解
Dec 10 Python
使用Python操作ArangoDB的方法步骤
Feb 02 Python
python实现银行账户系统
Feb 22 Python
Opencv 图片的OCR识别的实战示例
Mar 02 Python
python爬取淘宝商品详情页数据
Feb 23 #Python
Python如何抓取天猫商品详细信息及交易记录
Feb 23 #Python
python列表生成式与列表生成器的使用
Feb 23 #Python
1分钟快速生成用于网页内容提取的xslt
Feb 23 #Python
python使用xslt提取网页数据的方法
Feb 23 #Python
Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
Feb 23 #Python
python爬虫获取多页天涯帖子
Feb 23 #Python
You might like
多php服务器实现多session并发运行
2006/10/09 PHP
配置php网页显示各种语法错误
2013/09/23 PHP
php获取Google机器人访问足迹的方法
2015/04/15 PHP
[原创]php实现 data url的图片生成与保存
2016/12/04 PHP
JS之Date对象和获取系统当前时间详解
2014/01/13 Javascript
JS循环遍历JSON数据的方法
2014/07/08 Javascript
javascript学习笔记整理(概述、变量、数据类型简介)
2015/10/25 Javascript
jQuery 1.9.1源码分析系列(十)事件系统之绑定事件
2015/11/19 Javascript
jQuery实现鼠标经过显示动画边框特效
2017/03/24 jQuery
vue.js评论发布信息可插入QQ表情功能
2017/08/08 Javascript
AngularJS自定义过滤器用法经典实例总结
2018/05/17 Javascript
vue生命周期与钩子函数简单示例
2019/03/13 Javascript
浅谈VUE防抖与节流的最佳解决方案(函数式组件)
2019/05/22 Javascript
js定义类的方法示例【ES5与ES6】
2019/07/30 Javascript
Vuex中的Mutations的具体使用方法
2020/06/01 Javascript
Vue(定时器)解决mounted不能获取到data中的数据问题
2020/07/30 Javascript
浅谈Vue static 静态资源路径 和 style问题
2020/11/07 Javascript
[01:01:42]Secret vs Optic Supermajor 胜者组 BO3 第二场 6.4
2018/06/05 DOTA
Python+OpenCV图片局部区域像素值处理详解
2019/01/23 Python
对python For 循环的三种遍历方式解析
2019/02/01 Python
对pandas处理json数据的方法详解
2019/02/08 Python
python初学者,用python实现基本的学生管理系统(python3)代码实例
2019/04/10 Python
Python基础教程之if判断,while循环,循环嵌套
2019/04/25 Python
django foreignkey(外键)的实现
2019/07/29 Python
Python reversed反转序列并生成可迭代对象
2020/10/22 Python
使用Python制作一个数据预处理小工具(多种操作一键完成)
2021/02/07 Python
关于webview适配H5上传照片或者视频文件的方法
2020/11/04 HTML / CSS
Kiehl’s科颜氏西班牙官方网站:源自美国的植物护肤品牌
2020/02/22 全球购物
班会关于环保演讲稿
2013/12/29 职场文书
省三好学生申请材料
2014/01/22 职场文书
经营理念口号
2014/06/21 职场文书
党的群众路线教育实践活动学习笔记范文
2014/11/06 职场文书
广播体操比赛主持词
2015/06/29 职场文书
小程序教您怎样你零成本推广获取数万用户的方法
2019/07/30 职场文书
Nginx 反向代理解决跨域问题多种情况分析
2022/01/18 Servers
SQL Server数据库的三种创建方法汇总
2023/05/08 MySQL