python使用sessions模拟登录淘宝的方式


Posted in Python onAugust 16, 2019

之前想爬取一些淘宝的数据,后来发现需要登录,找了很多的资料,有个使用request的sessions加上cookie来登录的,cookie的获取在登录后使用开发者工具可以找到。不过这个登录后获得的网页的代码是静态的,获取动态网页还得另寻他法,一般需要的数据可以在网页的源码中得到,但是你知道的,有些动态加载的就不是那么简单了,而且我发现这样获得的源码中,有些想要获取的数据的格式是经过改动的,比如我要某个商品的具体链接,发现并不能直接使用。 总体而言,这是一次失败的尝试,不过倒是了解到使用sessionscookies可以进到需要登录的网页,也算是一种方式吧。

记录一下失败的一次

import requests
import os
import json
from pyquery import PyQuery as pq
import re
import time
sessions = requests.session()
url = 'https://s.taobao.com/search?q=ipad'
sessions.headers['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36'
sessions.headers['cookie']='miid=8428352431475518963; hng=CN***********; cna=IzulExo***************; thw=cn; __guid=15467**********; enc=Ubrfp%2******************************************************; t=5********************1e0; tracknick=%5*********3; lgc=40***3; tg=0; x=e%3D1%26p%3D*%26s%3D0%26c%3D0%26f%3D0%26g%3D0%26t%3D0%26__ll%3D-1%26_ato%3D0; cookie2=393e1f359e39e184059e8c87422bb5ce; v=0; _tb_token_=e7e035bee1ae8; _m_h5_tk=ebb49583b4434c3ff9f4bb277236a5d2_1541089384718; _m_h5_tk_enc=b0dd87431f8ade45b56bccb4982c0bf4; alitrackid=world.taobao.com; swfstore=29789; unb=3159140427; sg=374; _l_g_=Ug%3D%3D; skt=c9446f78d9091af3; cookie1=AHt5ehB%2FBw25k99NwMwTM4z3CWVA2J%2FVUVn4V3D2TMk%3D; csg=7b6476e0; uc3=vt3=F8dByRjNVxN9vRJQjTQ%3D&id2=UNGToApZ%2B2dYHA%3D%3D&nk2=sECE1uX4Wg%3D%3D&lg2=VFC%2FuZ9ayeYq2g%3D%3D; existShop=MTU0MTA4NzI2Ng%3D%3D; _cc_=Vq8l%2BKCLiw%3D%3D; dnk=%5Cu6C38%5Cu65E0%5Cu540D3; _nk_=%5Cu6C38%5Cu65E0%5Cu540D3; cookie17=UNGToApZ%2B2dYHA%'
for i in range(1):
  strs=str(i*44)
  urls=url+'&s='+strs
  html=sessions.get(urls).text
  doc=pq(html)
  doc=str(doc)
  os.chdir(r'G:\PS\PY')
  contentss=[]
  htmls=re.compile(r'p4pTags(.*?)"risk"')   
  garbage=re.compile(r'itemlist(.*?)"risk"')
  gb=garbage.findall(doc,re.S|re.M)
  finhtml=htmls.findall(doc,re.S|re.M)
  finhtml=finhtml+gb
  print(len(finhtml))
  #提取信息的正则表达式
  raw_title=r'"raw_title":"(.*?)"'
  view_price= r'"view_price":"(.*?)"' #价格
  view_fee=r'"view_fee":"(.*?)"'   #折扣
  item_loc = r'"item_loc":"(.*?)"' #地区
  view_sales = r'"view_sales":"(.*?)"' #付款人数
  comment_count = r'"comment_count":"(.*?)"' #评论数
  detail_url=r'"detail_url":"(.*?)"'   #url    
  for html in finhtml:
    rtitle=re.findall(raw_title,html)
    price=re.findall(view_price,html)
    fee=re.findall(view_fee,html)
    loc=re.findall(item_loc,html)
    sales= re.findall(view_sales,html)
    comment=re.findall(comment_count,html)
    deurl=re.findall(detail_url,html)
    for rt,p,f,l,s,c,u in zip(rtitle,price,fee,loc,sales,comment,deurl):
      contentss.append({"raw_title":rt,"view_price":p,"view_fee":f,"item_loc":l,"view_sales":s,"comment_count":c,"detail_url":u})  
  with open('ipad.json','a',encoding='utf-8') as file:
    file.write(json.dumps(contentss,indent=2,ensure_ascii=False))
  time.sleep(2)#访问间隔

总结

以上所述是小编给大家介绍的python使用sessions模拟登录淘宝,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

Python 相关文章推荐
python使用mysqldb连接数据库操作方法示例详解
Dec 03 Python
python 根据pid杀死相应进程的方法
Jan 16 Python
python 获取list特定元素下标的实例讲解
Apr 09 Python
python 爬虫 批量获取代理ip的实例代码
May 22 Python
Python实现处理逆波兰表达式示例
Jul 30 Python
用Python实现筛选文件脚本的方法
Oct 27 Python
Python 整行读取文本方法并去掉readlines换行\n操作
Sep 03 Python
Django使用django-simple-captcha做验证码的实现示例
Jan 07 Python
python palywright库基本使用
Jan 21 Python
python随机打印成绩排名表
Jun 23 Python
python自动化操作之动态验证码、滑动验证码的降噪和识别
Aug 30 Python
尝试使用Python爬取城市租房信息
Apr 12 Python
Django错误:TypeError at / 'bool' object is not callable解决
Aug 16 #Python
Python facenet进行人脸识别测试过程解析
Aug 16 #Python
Python Web框架之Django框架Model基础详解
Aug 16 #Python
pycharm配置git(图文教程)
Aug 16 #Python
Django如何实现上传图片功能
Aug 16 #Python
Python如何调用JS文件中的函数
Aug 16 #Python
用Python批量把文件复制到另一个文件夹的实现方法
Aug 16 #Python
You might like
PHP入门
2006/10/09 PHP
php 安全过滤函数代码
2011/05/07 PHP
php设计模式 Prototype (原型模式)代码
2011/06/26 PHP
超强多功能php绿色集成环境详解
2017/01/25 PHP
浅析JavaScript中的CSS属性及命名规范
2013/11/28 Javascript
textarea 控制输入字符字节数(示例代码)
2013/12/27 Javascript
JavaScript实现单击下拉框选择直接跳转页面的方法
2015/07/02 Javascript
javascript冒泡排序小结
2016/04/10 Javascript
Google 地图API资料整理及详细介绍
2016/08/06 Javascript
Angularjs添加排序查询功能的实例代码
2017/10/24 Javascript
React Native基础入门之初步使用Flexbox布局
2018/07/02 Javascript
JQuery Ajax动态加载Table数据的实例讲解
2018/08/09 jQuery
JS字典Dictionary类定义与用法示例
2019/02/01 Javascript
JavaScript类型相关的常用操作总结
2019/02/14 Javascript
vue h5移动端禁止缩放代码
2019/10/28 Javascript
vue+element 实现商城主题开发的示例代码
2020/03/26 Javascript
在Vue中使用antv的示例代码
2020/06/29 Javascript
[56:00]2018DOTA2亚洲邀请赛 4.6 淘汰赛 VP vs TNC 第二场
2018/04/10 DOTA
深入理解python中的atexit模块
2017/03/07 Python
Pytorch 抽取vgg各层并进行定制化处理的方法
2019/08/20 Python
python openssl模块安装及用法
2020/12/06 Python
一款纯css3实现的鼠标悬停动画按钮
2014/12/29 HTML / CSS
浅析rem和em和px vh vw和% 移动端长度单位
2016/04/28 HTML / CSS
意大利在线药房:Saninforma
2021/02/11 全球购物
季度思想汇报
2014/01/01 职场文书
大学生饮食配送创业计划书
2014/01/04 职场文书
小学生获奖感言范文
2014/02/02 职场文书
师德师风建设方案
2014/05/08 职场文书
离婚协议书范本样本
2014/08/19 职场文书
我们的节日元宵活动方案
2014/08/23 职场文书
2015年物流客服工作总结
2015/07/27 职场文书
合作合同协议书
2016/03/21 职场文书
python 实现定时任务的四种方式
2021/04/01 Python
SQL实现LeetCode(197.上升温度)
2021/08/07 MySQL
【海涛解说】暗牧也疯狂,牛蛙成配角
2022/04/01 DOTA
mysql中关键词exists的用法实例详解
2022/06/10 MySQL