python按综合、销量排序抓取100页的淘宝商品列表信息


Posted in Python onFebruary 24, 2018

进入淘宝网,分别按综合、销量排序抓取100页的所有商品的列表信息。

1、按综合

import re 
from selenium import webdriver 
from selenium.common.exceptions import TimeoutException 
from selenium.webdriver.common.by import By 
from selenium.webdriver.support.ui import WebDriverWait 
from selenium.webdriver.support import expected_conditions as EC 
from pyquery import PyQuery as pq #获取整个网页的源代码 
 
from config import * #可引用congif的所有变量 
import pymongo 
import pymysql 
 
# client=pymongo.MongoClient(MONGO_URL) 
# db = client[MONGO_DB] 
 
# 按综合排序 100页 
 
 
# 打开淘宝链接,输入‘美食',搜索 
# 自动翻页:先得到总页数,再转到 _ 页,确定 
# 
 
# browser = webdriver.PhantomJS(service_args=SERVICE_ARGS) 
# browser =webdriver.Chrome() 
browser = webdriver.Firefox() 
wait = WebDriverWait(browser,10) 
 
def search(): 
 print('正在搜索...') 
 try: 
  browser.get('https://www.taobao.com') #用这个网页'https://s.taobao.com',无法输入keywords 
  input=wait.until( 
    EC.presence_of_element_located((By.CSS_SELECTOR,'#q')) #打开淘宝,右击查看元素,定位到搜索框,选择对应代码,复制-CSS选择器,其实就是‘#q'。 
  ) 
  submit=wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#J_TSearchForm > div.search-button > button'))) 
  input.send_keys(KEYWORD) #模拟操作,输入内容 
  submit.click() #点击提交 
  total = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > div.total'))) #页数 
  return total.text 
 except TimeoutException : 
  return search() 
 
# 翻页 
def next_page(page_number): 
 print('正在翻页',page_number) 
 try: 
  input = wait.until( 
   # 输入框 
   EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > input')) # 打开淘宝,右击查看元素,定位到搜索框,选择对应代码,复制-CSS选择器,其实就是‘#q'。 
  ) 
  # 搜索按钮 
  submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit'))) #未修改 
  input.clear() 
  input.send_keys(page_number) # 模拟操作,输入页码 
  submit.click() 
  #判断翻页是否成功,找到高亮页码数,由数子判断 
  wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR ,'#mainsrp-pager > div > div > div > ul > li.item.active > span'), str(page_number))) 
  get_products() 
 except TimeoutException : 
  next_page(page_number) 
 
# 解析,获取每页的商品并输出 
def get_products(): 
 wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR,'#mainsrp-itemlist .items .item'))) #加载所有宝贝 
 html=browser.page_source 
 doc = pq(html) 
 items = doc('#mainsrp-itemlist .items .item').items() 
 for item in items: 
  product = { 
   # 'picture':item.find('.pic .img').attr('src'),#用find去获取内部元素,选择器是 pic,img,用attr获取属性 
   'image': item.find('.pic .img').attr('data-src'), # 用find去获取内部元素,选择器是 pic,img,用attr获取属性 
   'shop_id': item.find('.shop').find('a').attr('data-userid'), # 店铺 id 
   'data_id': item.find('.shop').find('a').attr('data-nid'), # 商品 id 
   'link': item.find('.pic-box-inner').find('.pic').find('a').attr['href'], 
   'price':item.find('.price').text()[1:-3], # 用text获取内容 
   'deal':item.find('.deal-cnt').text()[:-3], 
   'title':item.find('.title').text().replace(' ',''), 
   'shop':item.find('.shop').text(), 
   'location':item.find('.location').text() 
  } 
  # print(product) 
  # print(product['location']) 
  save_to_mysql(product) 
''''' 
def main(): 
 try: 
  # search() 
  total=search() # 此时 total = ‘共 100 页,' 
  total=int(re.compile('(\d+)').search(total).group(1)) # 用正则表达式提取数字100 
  # print(total) 
  for i in range(2,total+1): 
   next_page(i) 
 except Exception: 
  print('出错啦') 
 finally: # 不管有没有异常,都要执行此操作 
  browser.close() # 关浏览器 
''' 
 
def main(): 
 total=search() 
 total=int(re.compile('(\d+)').search(total).group(1)) 
 for i in range(2,total+1): 
  next_page(i)#显示当前爬取网页的页数 
  print ('搞定%d'%i) 
 
def save_to_mysql(product): 
 # print(product['location']) 
 #,use_unicode = False 
 try: 
  conn = pymysql.connect(host='localhost', user='root', passwd=' ', db='test1', port=3306,charset='utf8' ) 
  cur = conn.cursor() # 创建一个游标对象 
  sql = """INSERT INTO women_clothes_zonghe VALUES (%s,%s,%s,%s,%s,%s,%s,%s,%s)""" 
  cur.execute(sql, (product['shop_id'],product['shop'], product['link'],product['data_id'], product['title'], product['price'], product['location'],product['deal'],product['image'])) 
  # cur.execute(sql) 
  print('- - - - - 数据保存成功 - - - - -') 
  cur.close() 
  conn.commit() 
  conn.close() # 关闭数据 
 except pymysql.Error as e: 
  print(e) 
 
if __name__=='__main__': 
 # 连接数据库 
 conn = pymysql.connect(host='localhost', user='root', passwd=' ', db='test1', port=3306,charset="utf8") 
 cur = conn.cursor() # 创建一个游标对象 
 cur.execute("DROP TABLE IF EXISTS women_clothes_zonghe") # 如果表存在则删除 
 # 创建表sql语句 
 sqlc = """CREATE TABLE women_clothes_zonghe( 
  shop_id VARCHAR(500), 
  shop VARCHAR(500), 
  link VARCHAR(1000), 
  data_id varchar(100), 
  title VARCHAR(1000), 
  price VARCHAR(500), 
  location VARCHAR(500), 
  deal VARCHAR(500), 
  image VARCHAR(1000) 
 )""" 
 cur.execute(sqlc) # 执行创建数据表操作 
 main()

2、按销量

import re 
 
from bs4 import BeautifulSoup 
from pyquery import PyQuery as pq #获取整个网页的源代码 
 
from config import * #可引用congif的所有变量 
import pymongo 
import pymysql 
 
import urllib 
import requests 
import json 
import bs4 
 
from selenium import webdriver 
from pyquery import PyQuery as pq #获取整个网页的源代码 
 
# 完整爬取所有页面的商品信息 共100页 按销量排序 
 
 
browser = webdriver.Firefox() 
wait = WebDriverWait(browser,10) 
 
def get_url(keyword): 
 url_str = urllib.parse.quote(keyword) 
 i = 0 
 for j in range(100): 
  yield{ 
   'url':('https://s.taobao.com/search?q={}&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=' 
   'a21bo.50862.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170808&sort=sale-desc&bcoffset=0&p4ppushleft=%2C44&s={}').format(url_str,i) 
  } 
  i+=44 
 
# 可行 
def get_products(url): 
 browser.get(url) 
 wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR,'#mainsrp-itemlist .items .item'))) #加载所有宝贝 
 html=browser.page_source 
 doc = pq(html) 
 # print(doc) 
 items = doc('#mainsrp-itemlist .items .item').items() 
 for item in items: 
  product = { 
   # 获取 image 时,用'src'总有部分图片获取不到,因为淘宝设有'data-src' 和'src',不同商品这两个属性的前后顺序不一样,直接用'data-src'可避免返回 None 
   'image':item.find('.pic .img').attr('data-src'),#用find去获取内部元素,选择器是 pic,img,用attr获取属性 
   # 'image':item.find('.pic-box-inner').find('.pic').find('img').attr['src'], 
   'price':item.find('.price').text()[1:-3], # 用text获取内容 
   'shop_id': item.find('.shop').find('a').attr('data-userid'), # 店铺 id 
   'data_id': item.find('.shop').find('a').attr('data-nid'), # 商品 id 
   'link': item.find('.pic-box-inner').find('.pic').find('a').attr['href'], 
   'deal':item.find('.deal-cnt').text()[:-3], 
   'title':item.find('.title').text(), 
   'shop':item.find('.shop').text(), 
   'location':item.find('.location').text().replace(' ','') 
  } 
  # print(product) 
  save_to_mysql(product) 
 
def save_to_mysql(product): 
 try: 
  conn = pymysql.connect(host='localhost',user='root',passwd=' ',port=3306,db='test1',charset='utf8') 
  cur = conn.cursor() 
  sql = "insert into women_clothes_sales2 values (%s,%s,%s,%s,%s,%s,%s,%s,%s)" 
  cur.execute(sql,(product['shop_id'],product['shop'],product['link'],product['data_id'],product['title'],product['price'],product['location'],product['deal'],product['image'])) 
  print('- - - 数据保存成功 - - - ') 
  cur.close() 
  conn.commit() 
  conn.close() 
 except pymysql.Error as e: 
  print(e) 
 
def main(): 
 keyword = '女装' 
 links = get_url(keyword) # 字典 
 # 获取每页的 url 
 for link in links: 
  # print(link) 
  url = link['url'] 
  #解析页面 
  # soup = get_html(url) 
  # print(soup) 
  # get_detail(soup,url) 
  get_products(url) 
 
if __name__=='__main__': 
 conn = pymysql.connect(host='localhost',user = 'root',passwd=' ',db='test1',port = 3306,charset='utf8') 
 cur = conn.cursor() 
 cur.execute('Drop table if exists women_clothes_sales2') 
 sqlc = "create table women_clothes_sales2(shop_id varchar(100),shop varchar(500),link varchar(1000),data_id varchar(100),title varchar(500),price varchar(200),location varchar(100),deal varchar(100),image varchar(1000))" 
 cur.execute(sqlc) 
 cur.close() 
 conn.commit() 
 conn.close() 
 main()

更多内容请参考专题《python爬取功能汇总》进行学习。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
用Python实现KNN分类算法
Dec 22 Python
python逆向入门教程
Jan 15 Python
Python爬虫工程师面试问题总结
Mar 22 Python
Django Web开发中django-debug-toolbar的配置以及使用
May 06 Python
详解多线程Django程序耗尽数据库连接的问题
Oct 08 Python
在Python中,不用while和for循环遍历列表的实例
Feb 20 Python
django 2.2和mysql使用的常见问题
Jul 18 Python
python实现WebSocket服务端过程解析
Oct 18 Python
Python 识别12306图片验证码物品的实现示例
Jan 20 Python
Python逐行读取文件内容的方法总结
Feb 14 Python
Python PyQt5整理介绍
Apr 01 Python
Python实现FTP文件定时自动下载的步骤
Dec 19 Python
python2.7+selenium2实现淘宝滑块自动认证功能
Feb 24 #Python
Python 中Pickle库的使用详解
Feb 24 #Python
Python使用Selenium+BeautifulSoup爬取淘宝搜索页
Feb 24 #Python
python3+mysql查询数据并通过邮件群发excel附件
Feb 24 #Python
Python3实现带附件的定时发送邮件功能
Dec 22 #Python
python正则实现提取电话功能
Feb 24 #Python
python3实现公众号每日定时发送日报和图片
Feb 24 #Python
You might like
德劲1107的电路分析与打磨
2021/03/02 无线电
实用函数5
2007/11/08 PHP
php多文件上传下载示例分享
2014/02/20 PHP
php实现微信发红包
2015/12/05 PHP
PHP编程 SSO详细介绍及简单实例
2017/01/13 PHP
Laravel中log无法写入问题的解决
2017/06/17 PHP
PHP实现的文件上传类与用法详解
2017/07/05 PHP
php中pcntl_fork创建子进程的方法实例
2019/03/14 PHP
php实现对文件压缩简单的方法
2019/09/29 PHP
php array 转json及java 转换 json数据格式操作示例
2019/11/13 PHP
PHP fopen中文文件名乱码问题解决方案
2020/10/28 PHP
判断复选框是否被选中的两种方法
2014/06/04 Javascript
jQuery ajax serialize() 方法使用示例
2014/11/02 Javascript
深入理解javascript变量声明
2014/11/20 Javascript
js正则表达式中exec用法实例
2015/07/23 Javascript
jQuery实现带有洗牌效果的动画分页实例
2015/08/31 Javascript
Jquery1.9.1源码分析系列(六)延时对象应用之jQuery.ready
2015/11/24 Javascript
学习使用bootstrap的modal和carousel
2016/12/09 Javascript
微信小程序 动态绑定数据及动态事件处理
2017/03/14 Javascript
NodeJS学习笔记之Module的简介
2017/03/24 NodeJs
layui中的switch开关实现方法
2019/09/03 Javascript
基于Vue sessionStorage实现保留搜索框搜索内容
2020/06/01 Javascript
[01:00:53]2018DOTA2亚洲邀请赛3月29日 小组赛B组 iG VS Secret
2018/03/30 DOTA
Python3基础之条件与循环控制实例解析
2014/08/13 Python
Python浅拷贝与深拷贝用法实例
2015/05/09 Python
你真的了解Python的random模块吗?
2017/12/12 Python
django rest framework 实现用户登录认证详解
2019/07/29 Python
Numpy数组的广播机制的实现
2020/11/03 Python
iframe跨域的几种常用方法
2019/11/11 HTML / CSS
土耳其家居建材网站:Koçtaş
2016/11/22 全球购物
采购部部门职责
2013/12/15 职场文书
培训心得体会
2013/12/29 职场文书
村委会贫困证明
2014/01/14 职场文书
小学优秀班主任材料
2014/12/17 职场文书
评职称个人总结
2015/03/05 职场文书
从贫穷到富有,是知识技能和学习力的差别
2019/08/20 职场文书