python定向爬取淘宝商品价格


Posted in Python onFebruary 27, 2018

python爬虫学习之定向爬取淘宝商品价格,供大家参考,具体内容如下

import requests
import re

def getHTMLText(url):
  try:
    r = requests.get(url, timeout=30)
    r.raise_for_status() #如果发送了一个失败请求(非200响应),#我们可以通过 Response.raise_for_status() 来抛出异常:
    r.encoding= r.apparent_encoding
    return r.text
  except:
    return ""

def parsePage(ilt,html):
  try:
    plt = re.findall(r'\"view_price\"\:\"[\d\.]*?\"',html) #正则表达式来匹配 "view_price":"\d\."类型的字符串
    tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
#正则表达式来匹配 "raw_title":".*?"类型的字符串,.*?是任意字符的最小匹配
    for i in range(len(plt)):
      price = eval(plt[i].split(':')[1])
      title = eval(tlt[i].split(':')[1])
      ilt.append([price,title])
  except:
    print ("")


def PrintGoodsList(ilt):
  tplt = "{:4}\t{:8}\t{:16}"
  print (tplt.format("序号","价格","商品名称"))
  count = 0
  for g in ilt:
    count = count + 1
    print (tplt.format(count,g[0],g[1]))
def main():
  goods = '书包'
  depth = 2
  start_url = 'https://s.taobao.com/search?q=' + goods
  infoList=[]
  for i in range(depth):
    try:
      url = start_url + '&s=' + str(44*i)
      html= getHTMLText(url)
      parsePage(infoList,html)
    except:
      continue

  PrintGoodsList(infoList)

main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python Trie树实现字典排序
Mar 28 Python
Python基本语法经典教程
Mar 11 Python
AI人工智能 Python实现人机对话
Nov 13 Python
Python使用PIL模块生成随机验证码
Nov 21 Python
python中数据爬虫requests库使用方法详解
Feb 11 Python
python创建文件备份的脚本
Sep 11 Python
浅谈Python 多进程默认不能共享全局变量的问题
Jan 11 Python
python实现键盘输入的实操方法
Jul 16 Python
Python实现二叉树的最小深度的两种方法
Sep 30 Python
Python字节单位转换实例
Dec 05 Python
适合Python初学者的一些编程技巧
Feb 12 Python
pytorch实现Tensor变量之间的转换
Feb 17 Python
python抓取文件夹的所有文件
Feb 27 #Python
python数据分析数据标准化及离散化详解
Feb 26 #Python
批量将ppt转换为pdf的Python代码 只要27行!
Feb 26 #Python
python 3利用Dlib 19.7实现摄像头人脸检测特征点标定
Feb 26 #Python
python3利用Dlib19.7实现人脸68个特征点标定
Feb 26 #Python
python微信跳一跳系列之棋子定位颜色识别
Feb 26 #Python
python微信跳一跳系列之棋子定位像素遍历
Feb 26 #Python
You might like
PHP初学者头疼问题总结
2006/07/08 PHP
利用文件属性结合Session实现在线人数统计
2006/10/09 PHP
PHP实现删除非站内外部链接实例代码
2014/06/17 PHP
mysql desc(DESCRIBE)命令实例讲解
2016/09/24 PHP
PHP微信模板消息操作示例
2017/06/29 PHP
JavaScript OOP类与继承
2009/11/15 Javascript
利用jQuery 实现GridView异步排序、分页的代码
2010/02/06 Javascript
js获取class的所有元素
2013/03/28 Javascript
禁止iframe脚本弹出的窗口覆盖了父窗口的方法
2014/09/06 Javascript
jquery 插件实现瀑布流图片展示实例
2015/04/03 Javascript
JS打字效果的动态菜单代码分享
2015/08/21 Javascript
JavaScript+html5 canvas绘制的小人效果
2016/01/27 Javascript
Javascript将字符串日期格式化为yyyy-mm-dd的方法
2016/10/27 Javascript
js 实现一些跨浏览器的事件方法详解及实例
2016/10/27 Javascript
Bootstrap table的使用方法
2016/11/02 Javascript
关于vue-router的beforeEach无限循环的问题解决
2017/09/09 Javascript
解决mpvue + vuex 开发微信小程序vuex辅助函数mapState、mapGetters不可用问题
2018/08/03 Javascript
[00:34]拔城逐梦,热血永恒!2020(秋)完美世界城市挑战赛报名开启
2020/10/09 DOTA
python远程登录代码
2008/04/29 Python
python动态性强类型用法实例
2015/05/09 Python
对Python中gensim库word2vec的使用详解
2018/05/08 Python
浅析python中numpy包中的argsort函数的使用
2018/08/30 Python
python环境路径配置以及命令行运行脚本
2019/04/02 Python
python3实现用turtle模块画一棵随机樱花树
2019/11/21 Python
提高python代码运行效率的一些建议
2020/09/29 Python
BOSE德国官网:尽探索之力,享音乐之极
2016/12/11 全球购物
乐天旅游香港网站:日本饭店预订
2017/11/29 全球购物
P D PAOLA法国官网:西班牙著名的珠宝首饰品牌
2020/02/15 全球购物
如何查找网页漏洞
2016/06/22 面试题
1亿有多大教学反思
2014/05/01 职场文书
群众对十八届四中全会的期盼
2014/10/17 职场文书
公司回复函格式
2015/07/14 职场文书
2019年暑期法院实习报告
2019/12/18 职场文书
python中pandas对多列进行分组统计的实现
2021/06/18 Python
浅谈redis整数集为什么不能降级
2021/07/25 Redis
mysql中DCL常用的用户和权限控制
2022/03/31 MySQL