编程 Javascript

使用selenium抓取淘宝的商品信息实例

Posted in Javascript onFebruary 06, 2018

淘宝的页面大量使用了js加载数据，所以采用selenium来进行爬取更为简单，selenum作为一个测试工具，主要配合无窗口浏览器phantomjs来使用。

import re
from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from pyquery import PyQuery as pq
'''
wait.until()语句是selenum里面的显示等待，wait是一个WebDriverWait对象，它设置了等待时间，如果页面在等待时间内
没有在 DOM中找到元素，将继续等待，超出设定时间后则抛出找不到元素的异常,也可以说程序每隔xx秒看一眼，如果条件
成立了，则执行下一步，否则继续等待，直到超过设置的最长时间，然后抛出TimeoutException
1.presence_of_element_located 元素加载出，传入定位元组，如(By.ID, 'p')
2.element_to_be_clickable 元素可点击
3.text_to_be_present_in_element 某个元素文本包含某文字
'''
# 定义一个无界面的浏览器
browser = webdriver.PhantomJS(
 service_args=[
  '--load-images=false',
  '--disk-cache=true'])
# 10s无响应就down掉
wait = WebDriverWait(browser, 10)
#虽然无界面但是必须要定义窗口
browser.set_window_size(1400, 900)

def search():
 '''
 此函数的作用为完成首页点击搜索的功能，替换标签可用于其他网页使用
 :return:
 '''
 print('正在搜索')
 try:
  #访问页面
  browser.get('https://www.taobao.com')
  # 选择到淘宝首页的输入框
  input = wait.until(
   EC.presence_of_element_located((By.CSS_SELECTOR, '#q'))
  )
  #搜索的那个按钮
  submit = wait.until(EC.element_to_be_clickable(
   (By.CSS_SELECTOR, '#J_TSearchForm > div.search-button > button')))
  #send_key作为写到input的内容
  input.send_keys('面条')
  #执行点击搜索的操作
  submit.click()
  #查看到当前的页码一共是多少页
  total = wait.until(EC.presence_of_element_located(
   (By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.total')))
  #获取所有的商品
  get_products()
  #返回总页数
  return total.text
 except TimeoutException:
  return search()

def next_page(page_number):
 '''
 翻页函数，
 :param page_number:
 :return:
 '''
 print('正在翻页', page_number)
 try:
  #这个是我们跳转页的输入框
  input = wait.until(EC.presence_of_element_located(
   (By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > input')))
  #跳转时的确定按钮
  submit = wait.until(
   EC.element_to_be_clickable(
    (By.CSS_SELECTOR,
     '#mainsrp-pager > div > div > div > div.form > span.J_Submit')))
  #清除里面的数字
  input.clear()
  #重新输入数字
  input.send_keys(page_number)
  #选择并点击
  submit.click()
  #判断当前页是不是我们要现实的页
  wait.until(
   EC.text_to_be_present_in_element(
    (By.CSS_SELECTOR,
     '#mainsrp-pager > div > div > div > ul > li.item.active > span'),
    str(page_number)))
  #调用函数获取商品信息
  get_products()
 #捕捉超时，重新进入翻页的函数
 except TimeoutException:
  next_page(page_number)

def get_products():
 '''
 搜到页面信息在此函数在爬取我们需要的信息
 :return:
 '''
 #每一个商品标签，这里是加载出来以后才会拿网页源代码
 wait.until(EC.presence_of_element_located(
  (By.CSS_SELECTOR, '#mainsrp-itemlist .items .item')))
 #这里拿到的是整个网页源代码
 html = browser.page_source
 #pq解析网页源代码
 doc = pq(html)
 items = doc('#mainsrp-itemlist .items .item').items()
 for item in items:
  # print(item)
  product = {
   'image': item.find('.pic .img').attr('src'),
   'price': item.find('.price').text(),
   'deal': item.find('.deal-cnt').text()[:-3],
   'title': item.find('.title').text(),
   'shop': item.find('.shop').text(),
   'location': item.find('.location').text()
  }
  print(product)

def main():
 try:
  #第一步搜索
  total = search()
  #int类型刚才找到的总页数标签，作为跳出循环的条件
  total = int(re.compile('(\d+)').search(total).group(1))
  #只要后面还有就继续爬，继续翻页
  for i in range(2, total + 1):
   next_page(i)
 except Exception:
  print('出错啦')
 finally:
  #关闭浏览器
  browser.close()

if __name__ == '__main__':
 main()

以上这篇使用selenium抓取淘宝的商品信息实例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

- Author -

JeffD

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Javascript 相关文章推荐

JS编程小常识很有用

Nov 26 Javascript

jqeury-easyui-layout问题解决方法

Mar 24 Javascript

javascript中alert()与console.log()的区别

Aug 26 Javascript

JS实现的N多简单无缝滚动代码(包含图文效果)

Nov 06 Javascript

Javascript的表单验证长度

Mar 16 Javascript

jQuery实现立体式数字滚动条增加效果

Dec 21 Javascript

jQuery Validate插件自定义验证规则的方法

Dec 27 Javascript

JS查找英文文章中出现频率最高的单词

Mar 20 Javascript

基于JavaScript中字符串的match与replace方法(详解)

Dec 04 Javascript

Vue中使用create-keyframe-animation与动画钩子完成复杂动画

Apr 09 Javascript

vue中的inject学习教程

Apr 24 Javascript

vue实现简单全选和反选功能

Sep 15 Javascript

vue一个页面实现音乐播放器的示例

Feb 06 #Javascript

使用百度地图实现地图网格的示例

Feb 06 #Javascript

js中的闭包学习心得

Feb 06 #Javascript

JS基于设计模式中的单例模式（Singleton）实现封装对数据增删改查功能

Feb 06 #Javascript

Vue仿今日头条实例详解

Feb 06 #Javascript

electron demo项目npm install安装失败的解决方法

Feb 06 #Javascript

详解React开发必不可少的eslint配置

Feb 05 #Javascript

You might like

PHP中数字检测is_numeric与ctype_digit的区别介绍

2012/10/04 PHP

浅析虚拟主机服务器php fsockopen函数被禁用的解决办法

2013/08/07 PHP

thinkphp特殊标签用法概述

2014/11/24 PHP

PHP中通过trigger_error触发PHP错误示例

2015/06/23 PHP

用javascript编写的第一人称射击游戏

2007/02/25 Javascript

javascript getElementsByTagName

2011/01/31 Javascript

jQuery EasyUI API 中文文档 - Draggable 可拖拽

2011/09/29 Javascript

javascript获取鼠标位置部分的实例代码(兼容IE,FF)

2013/08/05 Javascript

js获得地址栏?问号后参数的方法

2013/08/08 Javascript

javascript去除字符串左右两端的空格

2015/02/05 Javascript

利用jQuery插件imgAreaSelect实现获得选择域的图像信息

2016/12/02 Javascript

基于nodejs+express4.X实现文件下载的实例代码

2017/07/13 NodeJs

vue项目持久化存储数据的实现代码

2018/10/01 Javascript

vue vantUI tab切换时 list组件不触发load事件的问题及解决方法

2020/02/14 Javascript

jQuery事件模型默认行为执行顺序及trigger()与 triggerHandler()比较实例分析

2020/04/30 jQuery

js中复选框的取值及赋值示例详解

2020/10/18 Javascript

python抓取网页时字符集转换问题处理方案分享

2014/06/19 Python

以windows service方式运行Python程序的方法

2015/06/03 Python

Python简单实现自动删除目录下空文件夹的方法

2017/08/29 Python

Python最火、R极具潜力 2017机器学习调查报告

2017/12/11 Python

python 获取页面表格数据存放到csv中的方法

2018/12/26 Python

python栈的基本定义与使用方法示例【初始化、赋值、入栈、出栈等】

2019/10/24 Python

Python中的X[:,0]、X[:,1]、X[:,:,0]、X[:,:,1]、X[:,m:n]和X[:,:,m:n]

2020/02/13 Python

Django自定义列表 models字段显示方式

2020/04/03 Python

Python 列表中的修改、添加和删除元素的实现

2020/06/11 Python

详解CSS3的perspective属性设置3D变换距离的方法

2016/05/23 HTML / CSS

意大利时尚奢侈品店：D’Aniello Boutique

2021/01/19 全球购物

前台接待的工作职责

2013/11/21 职场文书

煤矿安全生产月活动总结

2014/07/05 职场文书

2014年乡镇领导个人整改措施

2014/09/19 职场文书

原告代理词范文

2015/05/25 职场文书

干货：如何写好观后感！

2019/05/21 职场文书

请学会珍惜眼前，因为人生没有下辈子！

2019/11/12 职场文书

两行代码解决Jupyter Notebook中文不能显示的问题

2021/04/24 Python

浅析Python中的随机采样和概率分布

2021/12/06 Python

Python 图片添加美颜效果

2022/04/28 Python