python爬虫爬取淘宝商品信息


Posted in Python onFebruary 23, 2018

本文实例为大家分享了python爬取淘宝商品的具体代码,供大家参考,具体内容如下

import requests as req 
import re 
 
def getHTMLText(url): 
 try: 
 r = req.get(url, timeout=30) 
 r.raise_for_status() 
 r.encoding = r.apparent_encoding 
 return r.text 
 except: 
 return "" 
 
def parasePage(ilt, html): 
 try: 
 plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html) 
 tlt = re.findall(r'\"raw_title\"\:\".*?\"', html) 
 for i in range(len(plt)): 
  price = eval(plt[i].split(':')[1]) 
  title = eval(tlt[i].split(':')[1]) 
  ilt.append([price, title]) 
 except: 
 print("") 
 
 
def printGoodsList(ilt): 
 tplt = "{:4}\t{:8}\t{:16}" 
 print(tplt.format("序列号", "价格", "商品名称")) 
 count = 0 
 for j in ilt: 
 count = count + 1 
 print(tplt.format(count, j[0], j[1])) 
 
def main(): 
 goods = "python爬虫" 
 depth = 3 
 start_url = 'https://s.taobao.com/search?q=' + goods 
 infoList = [] 
 for i in range(depth): 
 try: 
  url = start_url + '&s=' + str(44*i) 
  html = getHTMLText(url) 
  parasePage(infoList, html) 
 except: 
  continue 
 printGoodsList(infoList) 
 
main()

效果图:

python爬虫爬取淘宝商品信息

更多内容请参考专题《python爬取功能汇总》进行学习。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python连接mysql数据库示例(做增删改操作)
Dec 31 Python
Python数据类型学习笔记
Jan 13 Python
Python实现简易版的Web服务器(推荐)
Jan 29 Python
python中字符串内置函数的用法总结
Sep 13 Python
Appium+python自动化怎么查看程序所占端口号和IP
Jun 14 Python
python程序 线程队列queue使用方法解析
Sep 23 Python
python getopt模块使用实例解析
Dec 18 Python
python pip安装包出现:Failed building wheel for xxx错误的解决
Dec 25 Python
Django 路由层URLconf的实现
Dec 30 Python
python读取与处理netcdf数据方式
Feb 14 Python
Python响应对象text属性乱码解决方案
Mar 31 Python
python实现批处理文件
Jul 28 Python
python爬取淘宝商品详情页数据
Feb 23 #Python
Python如何抓取天猫商品详细信息及交易记录
Feb 23 #Python
python列表生成式与列表生成器的使用
Feb 23 #Python
1分钟快速生成用于网页内容提取的xslt
Feb 23 #Python
python使用xslt提取网页数据的方法
Feb 23 #Python
Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
Feb 23 #Python
python爬虫获取多页天涯帖子
Feb 23 #Python
You might like
利用 window_onload 实现select默认选择
2006/10/09 PHP
在windows平台上构建自己的PHP实现方法(仅适用于php5.2)
2013/07/05 PHP
php的crc32函数使用时需要注意的问题(不然就是坑)
2015/04/21 PHP
Joomla框架实现字符串截取的方法示例
2017/07/18 PHP
javascript 限制输入脚本大全
2009/11/03 Javascript
让人印象深刻的10个jQuery手风琴效果应用
2012/05/08 Javascript
JS实现鼠标单击与双击事件共存
2014/03/08 Javascript
jQuery中outerHeight()方法用法实例
2015/01/19 Javascript
原生js实现移动开发轮播图、相册滑动特效
2015/04/17 Javascript
浅谈javascript事件取消和阻止冒泡
2015/05/26 Javascript
AngularJS基础 ng-click 指令示例代码
2016/08/01 Javascript
js判断数组key是否存在(不用循环)的简单实例
2016/08/03 Javascript
Vue.js每天必学之方法与事件处理器
2016/09/06 Javascript
微信小程序 数据交互与渲染实例详解
2017/01/21 Javascript
无法获取隐藏元素宽度和高度的解决方案
2017/03/07 Javascript
Angular 2.0+ 的数据绑定的实现示例
2017/08/09 Javascript
基于webpack4.X从零搭建React脚手架的方法步骤
2018/12/23 Javascript
layui之数据表格--与后台交互获取数据的方法
2019/09/29 Javascript
Vue实现手机计算器
2020/08/17 Javascript
vue-router定义元信息meta操作
2020/12/07 Vue.js
详解Python中的装饰器、闭包和functools的教程
2015/04/02 Python
Python读写unicode文件的方法
2015/07/10 Python
python如何为创建大量实例节省内存
2018/03/20 Python
python3利用Socket实现通信的方法示例
2019/05/06 Python
Django REST framework 分页的实现代码
2019/06/19 Python
使用PYTHON解析Wireshark的PCAP文件方法
2019/07/23 Python
详解python uiautomator2 watcher的使用方法
2019/09/09 Python
详解Python list和numpy array的存储和读取方法
2019/11/06 Python
html5触摸事件判断滑动方向的实现
2018/06/05 HTML / CSS
大学生自荐书范文
2013/12/10 职场文书
工程安全生产协议书
2014/11/21 职场文书
人事文员岗位职责
2015/02/04 职场文书
2019年第四季度财务部门工作计划
2019/11/02 职场文书
python Tkinter的简单入门教程
2021/04/11 Python
使用python创建股票的时间序列可视化分析
2022/03/03 Python
python实现会员信息管理系统(List)
2022/03/18 Python