python爬虫爬取淘宝商品信息


Posted in Python onFebruary 23, 2018

本文实例为大家分享了python爬取淘宝商品的具体代码,供大家参考,具体内容如下

import requests as req 
import re 
 
def getHTMLText(url): 
 try: 
 r = req.get(url, timeout=30) 
 r.raise_for_status() 
 r.encoding = r.apparent_encoding 
 return r.text 
 except: 
 return "" 
 
def parasePage(ilt, html): 
 try: 
 plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html) 
 tlt = re.findall(r'\"raw_title\"\:\".*?\"', html) 
 for i in range(len(plt)): 
  price = eval(plt[i].split(':')[1]) 
  title = eval(tlt[i].split(':')[1]) 
  ilt.append([price, title]) 
 except: 
 print("") 
 
 
def printGoodsList(ilt): 
 tplt = "{:4}\t{:8}\t{:16}" 
 print(tplt.format("序列号", "价格", "商品名称")) 
 count = 0 
 for j in ilt: 
 count = count + 1 
 print(tplt.format(count, j[0], j[1])) 
 
def main(): 
 goods = "python爬虫" 
 depth = 3 
 start_url = 'https://s.taobao.com/search?q=' + goods 
 infoList = [] 
 for i in range(depth): 
 try: 
  url = start_url + '&s=' + str(44*i) 
  html = getHTMLText(url) 
  parasePage(infoList, html) 
 except: 
  continue 
 printGoodsList(infoList) 
 
main()

效果图:

python爬虫爬取淘宝商品信息

更多内容请参考专题《python爬取功能汇总》进行学习。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python中os操作文件及文件路径实例汇总
Jan 15 Python
python脚本内运行linux命令的方法
Jul 02 Python
通过Python实现自动填写调查问卷
Sep 06 Python
python互斥锁、加锁、同步机制、异步通信知识总结
Feb 11 Python
dataframe 按条件替换某一列中的值方法
Jan 29 Python
Pythony运维入门之Socket网络编程详解
Apr 15 Python
使用python写的opencv实时监测和解析二维码和条形码
Aug 14 Python
pytorch numpy list类型之间的相互转换实例
Aug 18 Python
OpenCV Python实现拼图小游戏
Mar 23 Python
django ORM之values和annotate使用详解
May 19 Python
Python字典fromkeys()方法使用代码实例
Jul 20 Python
Python3爬虫发送请求的知识点实例
Jul 30 Python
python爬取淘宝商品详情页数据
Feb 23 #Python
Python如何抓取天猫商品详细信息及交易记录
Feb 23 #Python
python列表生成式与列表生成器的使用
Feb 23 #Python
1分钟快速生成用于网页内容提取的xslt
Feb 23 #Python
python使用xslt提取网页数据的方法
Feb 23 #Python
Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
Feb 23 #Python
python爬虫获取多页天涯帖子
Feb 23 #Python
You might like
定制404错误页面,并发信给管理员的程序
2006/10/09 PHP
php遍历删除整个目录及文件的方法
2015/03/13 PHP
ThinkPHP模板标签eq if 中区分0,null,false的方法
2017/03/24 PHP
php curl获取到json对象并转成数组array的方法
2018/05/31 PHP
ThinkPHP5分页paginate代码实例解析
2020/11/10 PHP
js操作二级联动实现代码
2010/07/27 Javascript
JQuery通过Ajax提交表单并返回结果
2011/07/31 Javascript
checkbox设置复选框的只读效果不让用户勾选
2013/08/12 Javascript
js实现两个值相加alert出来精确到指定位
2013/09/25 Javascript
js实现动画特效的文字链接鼠标悬停提示的方法
2015/03/02 Javascript
JavaScript实现向右伸出的多级网页菜单效果
2015/08/25 Javascript
前端编码规范(3)JavaScript 开发规范
2017/01/21 Javascript
JavaScript中在光标处插入添加文本标签节点的详细方法
2017/03/22 Javascript
JS把字符串格式的时间转换成几秒前、几分钟前、几小时前、几天前等格式
2019/07/10 Javascript
vue 解决uglifyjs-webpack-plugin打包出现报错的问题
2020/08/04 Javascript
vue+iview使用树形控件的具体使用
2020/11/02 Javascript
python的正则表达式re模块的常用方法
2013/03/09 Python
Python Tkinter GUI编程入门介绍
2015/03/10 Python
python SSH模块登录,远程机执行shell命令实例解析
2018/01/12 Python
Python操作Oracle数据库的简单方法和封装类实例
2018/05/07 Python
基于pip install django失败时的解决方法
2018/06/12 Python
浅谈Python 多进程默认不能共享全局变量的问题
2019/01/11 Python
pytorch打印网络结构的实例
2019/08/19 Python
Tensorflow实现在训练好的模型上进行测试
2020/01/20 Python
突袭HTML5之Javascript API扩展1—Web Worker异步执行及相关概述
2013/01/31 HTML / CSS
理肤泉美国官网:La Roche-Posay
2018/01/17 全球购物
澳大利亚最大的百货公司:Myer
2018/12/21 全球购物
JD Sports澳洲官网:英国领先的运动鞋和运动时尚零售商
2020/02/15 全球购物
什么是表空间(tablespace)和系统表空间(System tablespace)
2013/02/25 面试题
AJAX应用和传统Web应用有什么不同
2013/08/24 面试题
护理个人求职信范文
2014/01/08 职场文书
医院工作检讨书范文
2014/02/10 职场文书
缓刑人员思想汇报
2014/10/11 职场文书
埃及王子观后感
2015/06/16 职场文书
HTML+css盒子模型案例(圆,半圆等)“border-radius” 简单易上手
2021/05/10 HTML / CSS
mysql配置SSL证书登录的实现
2021/09/04 MySQL