Python通过正则库爬取淘宝商品信息代码实例


Posted in Python onMarch 02, 2020

使用正则库爬取淘宝商品的商品信息,首先我们需要确定想要爬取的对象

我们在淘宝里搜索“python”,出来的结果

Python通过正则库爬取淘宝商品信息代码实例

从url连接中可以得到搜索商品的关键字是“q=”,所以我们要用的起始url为:https://s.taobao.com/search?q=python

然后翻页,经过对比发现,翻页后,变化的关键字是s,每次翻页,s便以44的倍数增长(可以数一下每页显示的商品数量,刚好是44)
所以可以根据关键字“s=”,来设置爬取的深度(爬取多少页)

右键查看源码,商品名称可能的关键字是“title”和“raw_title”,进一步多看几个商品的名称,发现选取“raw_title”比较合适;商品价格自然就是“view_price”(通过比对淘宝商品展示页面);所以商品名称和商品价格分别是以"raw_title":"名称"和"view_price":"价格",这样的键/值对的形式展示的。

# coding:utf-8

import requests
import re

goods = '水杯'
url = 'https://s.taobao.com/search?q=' + goods

r = requests.get(url=url, timeout=10)
html = r.text

tlist = re.findall(r'\"raw_title\"\:\".*?\"', html) # 正则提取商品名称
plist = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html) # 正则提示商品价格

print(tlist)
print(plist)
print(type(plist)) # 正则表达式提取出的商品名称和商品价格都是以列表形式存储数据的

利用for循环,把每个商品的名称和价格组成一个列表,然后把这写列表再追加到一个大列表中:

goodlist = []
for i in range(len(tlist)):
  title = eval(tlist[i].split(':')[1]) # eval()函数简单说就是用于去掉字符串的引号
  price = eval(plist[i].split(':')[1])
  goodlist.append([title, price]) # 把每个商品的名称和价格组成一个小列表,然后把所有商品组成的列表追加到一个大列表中
  print(goodlist)

大概的思路就是这样的。

def get_html(url):
  """获取源码html"""
  try:
    r = requests.get(url=url, timeout=10)
    r.encoding = r.apparent_encoding
    return r.text
  except:
    print("获取失败")
def get_data(html, goodlist):
  """使用re库解析商品名称和价格
  tlist:商品名称列表
  plist:商品价格列表"""
  tlist = re.findall(r'\"raw_title\"\:\".*?\"', html)
  plist = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)
  for i in range(len(tlist)):
    title = eval(tlist[i].split(':')[1]) # eval()函数简单说就是用于去掉字符串的引号
    price = eval(plist[i].split(':')[1])
    goodlist.append([title, price])


def write_data(list, num):
  # with open('E:/Crawler/case/taob2.txt', 'a') as data:
  #  print(list, file=data)
  for i in range(num): # num控制把爬取到的商品写进多少到文本中
    u = list[i]
    with open('E:/Crawler/case/taob.txt', 'a') as data:
      print(u, file=data)


def main():
  goods = '水杯'
  depth = 3  # 定义爬取深度,即翻页处理
  start_url = 'https://s.taobao.com/search?q=' + goods
  infoList = []
  for i in range(depth):
    try:
      url = start_url + '&s=' + str(44 * i) # 因为淘宝显示每页44个商品,第一页i=0,一次递增
      html = get_html(url)
      get_data(html, infoList)
    except:
      continue
  write_data(infoList, len(infoList))
if __name__ == '__main__':
  main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python内置函数Type()函数一个有趣的用法
Feb 18 Python
用Python创建声明性迷你语言的教程
Apr 13 Python
Python3使用requests登录人人影视网站的方法
May 11 Python
Python使用time模块实现指定时间触发器示例
May 18 Python
python内置函数:lambda、map、filter简单介绍
Nov 16 Python
python+selenium实现登录账户后自动点击的示例
Dec 22 Python
python实现用户答题功能
Jan 17 Python
flask框架url与重定向操作实例详解
Jan 25 Python
解决pytorch-yolov3 train 报错的问题
Feb 18 Python
python def 定义函数,调用函数方式
Jun 02 Python
使用Nibabel库对nii格式图像的读写操作
Jul 01 Python
python3.7添加dlib模块的方法
Jul 01 Python
基于Python爬取爱奇艺资源过程解析
Mar 02 #Python
python GUI库图形界面开发之PyQt5树形结构控件QTreeWidget详细使用方法与实例
Mar 02 #Python
Python处理mysql特殊字符的问题
Mar 02 #Python
新手入门学习python Numpy基础操作
Mar 02 #Python
python中数据库like模糊查询方式
Mar 02 #Python
python读取文件指定行内容实例讲解
Mar 02 #Python
python GUI库图形界面开发之PyQt5选项卡控件QTabWidget详细使用方法与实例
Mar 01 #Python
You might like
PHP正则提取不包含指定网址的图片地址的例子
2014/04/21 PHP
PHP简单操作MongoDB的方法(安装及增删改查)
2016/05/26 PHP
php 处理png图片白色背景色改为透明色的实例代码
2018/12/10 PHP
php curl获取https页面内容,不直接输出返回结果的设置方法
2019/01/15 PHP
运用Windows XP附带的Msicuu.exe、Msizap.exe来彻底卸载顽固程序
2007/04/21 Javascript
JavaScript入门教程(10) 认识其他对象
2009/01/31 Javascript
php对mongodb的扩展(小试牛刀)
2012/11/11 Javascript
js 遍历json返回的map内容示例代码
2013/10/29 Javascript
javascript创建对象的几种模式介绍
2016/05/06 Javascript
jQuery实现判断控件是否显示的方法
2017/01/11 Javascript
Vue2.0权限树组件实现代码
2017/08/29 Javascript
HTML5开发Kinect体感游戏的实例应用
2017/09/18 Javascript
通过JQuery,JQueryUI和Jsplumb实现拖拽模块
2019/06/18 jQuery
vue移动端使用canvas签名的实现
2020/01/15 Javascript
Vuex的API文档说明详解
2020/02/05 Javascript
js利用iframe实现选项卡效果
2020/08/09 Javascript
Vue使用Proxy代理后仍无法生效的解决
2020/11/13 Javascript
python merge、concat合并数据集的实例讲解
2018/04/12 Python
在mac下查找python包存放路径site-packages的实现方法
2018/11/06 Python
Python提取特定时间段内数据的方法实例
2019/04/01 Python
Python 堆叠柱状图绘制方法
2019/07/29 Python
pycharm配置当鼠标悬停时快速提示方法参数
2019/07/31 Python
python3 assert 断言的使用详解 (区别于python2)
2019/11/27 Python
python3中sorted函数里cmp参数改变详解
2020/03/12 Python
Python生成器实现简单"生产者消费者"模型代码实例
2020/03/27 Python
Python爬虫基于lxml解决数据编码乱码问题
2020/07/31 Python
Django中template for如何使用方法
2021/01/31 Python
HTML5中indexedDB 数据库的使用实例
2017/05/11 HTML / CSS
英国豪华装饰照明品牌的在线零售商:Inspyer Lighting
2019/12/10 全球购物
怎样有效的进行自我评价
2013/10/06 职场文书
四查四看整改措施
2014/09/19 职场文书
延安红色之旅心得体会
2014/10/07 职场文书
绿色环保倡议书
2015/04/28 职场文书
Python基础教程,Python入门教程(超详细)
2021/06/24 Python
SQLServer 错误: 15404,无法获取有关 Windows NT 组/用户 WIN-8IVSNAQS8T7\Administrator 的信息
2021/06/30 SQL Server
python的html标准库
2022/04/29 Python