Python通过正则库爬取淘宝商品信息代码实例


Posted in Python onMarch 02, 2020

使用正则库爬取淘宝商品的商品信息,首先我们需要确定想要爬取的对象

我们在淘宝里搜索“python”,出来的结果

Python通过正则库爬取淘宝商品信息代码实例

从url连接中可以得到搜索商品的关键字是“q=”,所以我们要用的起始url为:https://s.taobao.com/search?q=python

然后翻页,经过对比发现,翻页后,变化的关键字是s,每次翻页,s便以44的倍数增长(可以数一下每页显示的商品数量,刚好是44)
所以可以根据关键字“s=”,来设置爬取的深度(爬取多少页)

右键查看源码,商品名称可能的关键字是“title”和“raw_title”,进一步多看几个商品的名称,发现选取“raw_title”比较合适;商品价格自然就是“view_price”(通过比对淘宝商品展示页面);所以商品名称和商品价格分别是以"raw_title":"名称"和"view_price":"价格",这样的键/值对的形式展示的。

# coding:utf-8

import requests
import re

goods = '水杯'
url = 'https://s.taobao.com/search?q=' + goods

r = requests.get(url=url, timeout=10)
html = r.text

tlist = re.findall(r'\"raw_title\"\:\".*?\"', html) # 正则提取商品名称
plist = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html) # 正则提示商品价格

print(tlist)
print(plist)
print(type(plist)) # 正则表达式提取出的商品名称和商品价格都是以列表形式存储数据的

利用for循环,把每个商品的名称和价格组成一个列表,然后把这写列表再追加到一个大列表中:

goodlist = []
for i in range(len(tlist)):
  title = eval(tlist[i].split(':')[1]) # eval()函数简单说就是用于去掉字符串的引号
  price = eval(plist[i].split(':')[1])
  goodlist.append([title, price]) # 把每个商品的名称和价格组成一个小列表,然后把所有商品组成的列表追加到一个大列表中
  print(goodlist)

大概的思路就是这样的。

def get_html(url):
  """获取源码html"""
  try:
    r = requests.get(url=url, timeout=10)
    r.encoding = r.apparent_encoding
    return r.text
  except:
    print("获取失败")
def get_data(html, goodlist):
  """使用re库解析商品名称和价格
  tlist:商品名称列表
  plist:商品价格列表"""
  tlist = re.findall(r'\"raw_title\"\:\".*?\"', html)
  plist = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)
  for i in range(len(tlist)):
    title = eval(tlist[i].split(':')[1]) # eval()函数简单说就是用于去掉字符串的引号
    price = eval(plist[i].split(':')[1])
    goodlist.append([title, price])


def write_data(list, num):
  # with open('E:/Crawler/case/taob2.txt', 'a') as data:
  #  print(list, file=data)
  for i in range(num): # num控制把爬取到的商品写进多少到文本中
    u = list[i]
    with open('E:/Crawler/case/taob.txt', 'a') as data:
      print(u, file=data)


def main():
  goods = '水杯'
  depth = 3  # 定义爬取深度,即翻页处理
  start_url = 'https://s.taobao.com/search?q=' + goods
  infoList = []
  for i in range(depth):
    try:
      url = start_url + '&s=' + str(44 * i) # 因为淘宝显示每页44个商品,第一页i=0,一次递增
      html = get_html(url)
      get_data(html, infoList)
    except:
      continue
  write_data(infoList, len(infoList))
if __name__ == '__main__':
  main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现的简单发送邮件脚本分享
Nov 07 Python
python实现多线程暴力破解登陆路由器功能代码分享
Jan 04 Python
python自然语言编码转换模块codecs介绍
Apr 08 Python
python UNIX_TIMESTAMP时间处理方法分析
Apr 18 Python
谈谈如何手动释放Python的内存
Dec 17 Python
Python中扩展包的安装方法详解
Jun 14 Python
Python实现基于KNN算法的笔迹识别功能详解
Jul 09 Python
PyCharm设置SSH远程调试的方法
Jul 17 Python
python 使用pandas计算累积求和的方法
Feb 08 Python
python f-string式格式化听语音流程讲解
Jun 18 Python
python 实现查询Neo4j多节点的多层关系
Dec 23 Python
python正则表达式re.match()匹配多个字符方法的实现
Jan 27 Python
基于Python爬取爱奇艺资源过程解析
Mar 02 #Python
python GUI库图形界面开发之PyQt5树形结构控件QTreeWidget详细使用方法与实例
Mar 02 #Python
Python处理mysql特殊字符的问题
Mar 02 #Python
新手入门学习python Numpy基础操作
Mar 02 #Python
python中数据库like模糊查询方式
Mar 02 #Python
python读取文件指定行内容实例讲解
Mar 02 #Python
python GUI库图形界面开发之PyQt5选项卡控件QTabWidget详细使用方法与实例
Mar 01 #Python
You might like
全国FM电台频率大全 - 28 甘肃省
2020/03/11 无线电
PHP版自动生成文章摘要
2008/07/23 PHP
表格展示无限级分类(PHP版)
2012/08/21 PHP
9段PHP实用功能的代码推荐
2014/10/14 PHP
让innerHTML的脚本也可以运行起来
2006/07/01 Javascript
splice slice区别
2006/10/09 Javascript
使用JQuery和s3captche实现一个水果名字的验证
2009/08/14 Javascript
鼠标划过实现延迟加载并隐藏层的js代码
2013/10/11 Javascript
JS实现带缓冲效果打开、关闭、移动一个层的方法
2015/05/09 Javascript
AngularJS压缩JS技巧分析
2016/11/08 Javascript
JS实现侧边栏鼠标经过弹出框+缓冲效果
2017/03/29 Javascript
JS排序之选择排序详解
2017/04/08 Javascript
JavaScript实现的数字与字符串转换功能示例
2017/08/23 Javascript
Node.js引入UIBootstrap的方法示例
2018/05/11 Javascript
vue的传参方式汇总和router使用技巧
2018/05/22 Javascript
vue头部导航动态点击处理方法
2018/11/02 Javascript
JavaScript遍历数组的三种方法map、forEach与filter实例详解
2019/02/27 Javascript
在Vue中使用antv的示例代码
2020/06/29 Javascript
[02:35]DOTA2英雄基础教程 末日使者
2013/12/04 DOTA
[38:54]完美世界DOTA2联赛PWL S2 Rebirth vs LBZS 第一场 11.28
2020/12/01 DOTA
Python编写的com组件发生R6034错误的原因与解决办法
2013/04/01 Python
Python实现将16进制字符串转化为ascii字符的方法分析
2017/07/21 Python
详解Python 模拟实现生产者消费者模式的实例
2017/08/10 Python
Python内置函数—vars的具体使用方法
2017/12/04 Python
python发送邮件脚本
2018/05/22 Python
利用Python计算KS的实例详解
2020/03/03 Python
python+gdal+遥感图像拼接(mosaic)的实例
2020/03/10 Python
Python 日期与时间转换的方法
2020/08/01 Python
HTML5调用手机发短信和打电话功能
2020/04/29 HTML / CSS
大专生自我评价
2014/01/28 职场文书
建筑总经理岗位职责
2014/02/02 职场文书
食品安全处置方案
2014/06/14 职场文书
学校党的群众路线教育实践活动整改措施
2014/10/25 职场文书
判断Python中的Nonetype类型
2021/05/25 Python
Java Socket实现Redis客户端的详细说明
2021/05/26 Redis
Python 可迭代对象 iterable的具体使用
2021/08/07 Python