python爬虫爬取淘宝商品信息


Posted in Python onFebruary 23, 2018

本文实例为大家分享了python爬取淘宝商品的具体代码,供大家参考,具体内容如下

import requests as req 
import re 
 
def getHTMLText(url): 
 try: 
 r = req.get(url, timeout=30) 
 r.raise_for_status() 
 r.encoding = r.apparent_encoding 
 return r.text 
 except: 
 return "" 
 
def parasePage(ilt, html): 
 try: 
 plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html) 
 tlt = re.findall(r'\"raw_title\"\:\".*?\"', html) 
 for i in range(len(plt)): 
  price = eval(plt[i].split(':')[1]) 
  title = eval(tlt[i].split(':')[1]) 
  ilt.append([price, title]) 
 except: 
 print("") 
 
 
def printGoodsList(ilt): 
 tplt = "{:4}\t{:8}\t{:16}" 
 print(tplt.format("序列号", "价格", "商品名称")) 
 count = 0 
 for j in ilt: 
 count = count + 1 
 print(tplt.format(count, j[0], j[1])) 
 
def main(): 
 goods = "python爬虫" 
 depth = 3 
 start_url = 'https://s.taobao.com/search?q=' + goods 
 infoList = [] 
 for i in range(depth): 
 try: 
  url = start_url + '&s=' + str(44*i) 
  html = getHTMLText(url) 
  parasePage(infoList, html) 
 except: 
  continue 
 printGoodsList(infoList) 
 
main()

效果图:

python爬虫爬取淘宝商品信息

更多内容请参考专题《python爬取功能汇总》进行学习。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python网络编程之读取网站根目录实例
Sep 30 Python
Python中数字以及算数运算符的相关使用
Oct 12 Python
Python中方法链的使用方法
Feb 23 Python
Python 备份程序代码实现
Mar 06 Python
使用python实现接口的方法
Jul 07 Python
python逆向入门教程
Jan 15 Python
Python使用pyh生成HTML文档的方法示例
Mar 10 Python
python3使用matplotlib绘制散点图
Mar 19 Python
python jenkins 打包构建代码的示例代码
Nov 29 Python
python 中值滤波,椒盐去噪,图片增强实例
Dec 18 Python
用python实现学生管理系统
Jul 24 Python
解决阿里云邮件发送不能使用25端口问题
Aug 07 Python
python爬取淘宝商品详情页数据
Feb 23 #Python
Python如何抓取天猫商品详细信息及交易记录
Feb 23 #Python
python列表生成式与列表生成器的使用
Feb 23 #Python
1分钟快速生成用于网页内容提取的xslt
Feb 23 #Python
python使用xslt提取网页数据的方法
Feb 23 #Python
Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
Feb 23 #Python
python爬虫获取多页天涯帖子
Feb 23 #Python
You might like
德劲1104的电路分析与改良
2021/03/01 无线电
织梦sitemap地图实时推送给百度的教程
2015/08/03 PHP
PHP实现多级分类生成树的方法示例
2017/02/07 PHP
JavaScript高级程序设计(第3版)学习笔记9 js函数(下)
2012/10/11 Javascript
javascript克隆对象深度介绍
2012/11/20 Javascript
js统计页面的来访次数实现代码
2014/05/09 Javascript
jquery对复选框(checkbox)的操作汇总
2016/01/13 Javascript
JavaScript中获取时间的函数集
2016/08/16 Javascript
Node.js 异步异常的处理与domain模块解析
2017/05/10 Javascript
jQuery实现base64前台加密解密功能详解
2017/08/29 jQuery
JS实现定时任务每隔N秒请求后台setInterval定时和ajax请求问题
2017/10/15 Javascript
javascript实现循环广告条效果
2017/12/12 Javascript
JavaScript异步加载问题总结
2018/02/17 Javascript
关于微信公众号开发无法支付的问题解决
2018/12/28 Javascript
layui之数据表格--与后台交互获取数据的方法
2019/09/29 Javascript
js实现小时钟效果
2020/03/25 Javascript
详解Python的Django框架中的Cookie相关处理
2015/07/22 Python
Python脚本获取操作系统版本信息
2016/12/17 Python
pycharm+django创建一个搜索网页实例代码
2018/01/24 Python
Centos7 Python3下安装scrapy的详细步骤
2018/03/15 Python
python使用opencv对图像mask处理的方法
2019/07/05 Python
pow在python中的含义及用法
2019/07/11 Python
详解Python GUI编程之PyQt5入门到实战
2020/12/10 Python
美国隐形眼镜网上商店:Lens.com
2019/09/03 全球购物
美国最大和最受信任的二手轮胎商店:Bestusedtires.com
2020/06/02 全球购物
文秘专业自荐信
2013/10/14 职场文书
优秀信贷员先进事迹
2014/01/31 职场文书
2014年招商引资工作总结
2014/11/22 职场文书
2014保险公司个人工作总结
2014/12/09 职场文书
挂职锻炼个人总结
2015/03/05 职场文书
办公室卫生管理制度
2015/08/04 职场文书
2016大学生暑期社会实践心得体会
2016/01/14 职场文书
原生Js 实现的简单无缝滚动轮播图的示例代码
2021/05/10 Javascript
修改MySQL的数据库引擎为INNODB的方法
2021/05/26 MySQL
python入门学习关于for else的特殊特性讲解
2021/11/20 Python
Golang入门之计时器
2022/05/04 Golang