编程 Python

python使用sessions模拟登录淘宝的方式

Posted in Python onAugust 16, 2019

之前想爬取一些淘宝的数据，后来发现需要登录，找了很多的资料，有个使用request的sessions加上cookie来登录的，cookie的获取在登录后使用开发者工具可以找到。不过这个登录后获得的网页的代码是静态的，获取动态网页还得另寻他法，一般需要的数据可以在网页的源码中得到，但是你知道的，有些动态加载的就不是那么简单了，而且我发现这样获得的源码中，有些想要获取的数据的格式是经过改动的，比如我要某个商品的具体链接，发现并不能直接使用。总体而言，这是一次失败的尝试，不过倒是了解到使用sessions和cookies可以进到需要登录的网页，也算是一种方式吧。

记录一下失败的一次

import requests
import os
import json
from pyquery import PyQuery as pq
import re
import time
sessions = requests.session()
url = 'https://s.taobao.com/search?q=ipad'
sessions.headers['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36'
sessions.headers['cookie']='miid=8428352431475518963; hng=CN***********; cna=IzulExo***************; thw=cn; __guid=15467**********; enc=Ubrfp%2******************************************************; t=5********************1e0; tracknick=%5*********3; lgc=40***3; tg=0; x=e%3D1%26p%3D*%26s%3D0%26c%3D0%26f%3D0%26g%3D0%26t%3D0%26__ll%3D-1%26_ato%3D0; cookie2=393e1f359e39e184059e8c87422bb5ce; v=0; _tb_token_=e7e035bee1ae8; _m_h5_tk=ebb49583b4434c3ff9f4bb277236a5d2_1541089384718; _m_h5_tk_enc=b0dd87431f8ade45b56bccb4982c0bf4; alitrackid=world.taobao.com; swfstore=29789; unb=3159140427; sg=374; _l_g_=Ug%3D%3D; skt=c9446f78d9091af3; cookie1=AHt5ehB%2FBw25k99NwMwTM4z3CWVA2J%2FVUVn4V3D2TMk%3D; csg=7b6476e0; uc3=vt3=F8dByRjNVxN9vRJQjTQ%3D&id2=UNGToApZ%2B2dYHA%3D%3D&nk2=sECE1uX4Wg%3D%3D&lg2=VFC%2FuZ9ayeYq2g%3D%3D; existShop=MTU0MTA4NzI2Ng%3D%3D; _cc_=Vq8l%2BKCLiw%3D%3D; dnk=%5Cu6C38%5Cu65E0%5Cu540D3; _nk_=%5Cu6C38%5Cu65E0%5Cu540D3; cookie17=UNGToApZ%2B2dYHA%'
for i in range(1):
  strs=str(i*44)
  urls=url+'&s='+strs
  html=sessions.get(urls).text
  doc=pq(html)
  doc=str(doc)
  os.chdir(r'G:\PS\PY')
  contentss=[]
  htmls=re.compile(r'p4pTags(.*?)"risk"')   
  garbage=re.compile(r'itemlist(.*?)"risk"')
  gb=garbage.findall(doc,re.S|re.M)
  finhtml=htmls.findall(doc,re.S|re.M)
  finhtml=finhtml+gb
  print(len(finhtml))
  #提取信息的正则表达式
  raw_title=r'"raw_title":"(.*?)"'
  view_price= r'"view_price":"(.*?)"' #价格
  view_fee=r'"view_fee":"(.*?)"'   #折扣
  item_loc = r'"item_loc":"(.*?)"' #地区
  view_sales = r'"view_sales":"(.*?)"' #付款人数
  comment_count = r'"comment_count":"(.*?)"' #评论数
  detail_url=r'"detail_url":"(.*?)"'   #url    
  for html in finhtml:
    rtitle=re.findall(raw_title,html)
    price=re.findall(view_price,html)
    fee=re.findall(view_fee,html)
    loc=re.findall(item_loc,html)
    sales= re.findall(view_sales,html)
    comment=re.findall(comment_count,html)
    deurl=re.findall(detail_url,html)
    for rt,p,f,l,s,c,u in zip(rtitle,price,fee,loc,sales,comment,deurl):
      contentss.append({"raw_title":rt,"view_price":p,"view_fee":f,"item_loc":l,"view_sales":s,"comment_count":c,"detail_url":u})  
  with open('ipad.json','a',encoding='utf-8') as file:
    file.write(json.dumps(contentss,indent=2,ensure_ascii=False))
  time.sleep(2)#访问间隔

总结

以上所述是小编给大家介绍的python使用sessions模拟登录淘宝,希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持！
如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

python使用sessions模拟登录淘宝的方式

- Author -

吴子夜

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

通过代码实例展示Python中列表生成式的用法

Mar 31 Python

python实现分析apache和nginx日志文件并输出访客ip列表的方法

Apr 04 Python

使用 Python 实现微信公众号粉丝迁移流程

Jan 03 Python

Python 12306抢火车票脚本 Python京东抢手机脚本

Feb 06 Python

Django自定义过滤器定义与用法示例

Mar 22 Python

windows下添加Python环境变量的方法汇总

May 14 Python

NLTK 3.2.4 环境搭建教程

Sep 19 Python

Python何时应该使用Lambda函数

Jul 02 Python

Django 实现前端图片压缩功能的方法

Aug 07 Python

解决jupyter notebook 前面书写后面内容消失的问题

Apr 13 Python

Python稀疏矩阵及参数保存代码实现

Apr 18 Python

Django Model层F，Q对象和聚合函数原理解析

Nov 12 Python

Django错误：TypeError at / 'bool' object is not callable解决

Aug 16 #Python

Python facenet进行人脸识别测试过程解析

Aug 16 #Python

Python Web框架之Django框架Model基础详解

Aug 16 #Python

pycharm配置git(图文教程)

Aug 16 #Python

Django如何实现上传图片功能

Aug 16 #Python

Python如何调用JS文件中的函数

Aug 16 #Python

用Python批量把文件复制到另一个文件夹的实现方法

Aug 16 #Python

You might like

PHP中spl_autoload_register()函数用法实例详解

2016/07/18 PHP

php基于单例模式封装mysql类完整实例

2016/10/18 PHP

Zend Framework框架实现类似Google搜索分页效果

2016/11/25 PHP

PHP封装的多文件上传类实例与用法详解

2017/02/07 PHP

Laravel接收前端ajax传来的数据的实例代码

2017/07/20 PHP

php在windows环境下获得cpu内存实时使用率(推荐)

2018/02/08 PHP

获取Javscript执行函数名称的方法

2006/12/22 Javascript

表单切换，用回车键替换Tab健(不支持IE)

2011/07/20 Javascript

取得窗口大小兼容所有浏览器的js代码

2011/08/09 Javascript

jQuery+JSON+jPlayer实现QQ空间音乐查询功能示例

2013/06/17 Javascript

FireBug 调试JS入门教程如何调试JS

2013/12/23 Javascript

javascript实现des解密加密全过程

2014/04/03 Javascript

JavaScript判断手机号运营商是移动、联通、电信还是其他(代码简单)

2015/09/25 Javascript

基于javascript实现图片预加载

2016/01/05 Javascript

Bootstrap导航条可点击和鼠标悬停显示下拉菜单的实现代码

2016/06/23 Javascript

jQuery插件dataTables添加序号列的方法

2016/07/06 Javascript

ionic App问题总结系列之ionic点击系统返回键退出App

2017/08/19 Javascript

vue-cli+webpack项目修改项目名称的方法

2018/02/28 Javascript

详解vue项目中如何引入全局sass/less变量、function、mixin

2018/06/02 Javascript

[01:05:52]DOTA2-DPC中国联赛正赛 Ehome vs Aster BO3 第一场 2月2日

2021/03/11 DOTA

Pyramid将models.py文件的内容分布到多个文件的方法

2013/11/27 Python

python实现爬取千万淘宝商品的方法

2015/06/30 Python

Python的时间模块datetime详解

2017/04/17 Python

Pandas过滤dataframe中包含特定字符串的数据方法

2018/11/07 Python

Python3.5面向对象与继承图文实例详解

2019/04/24 Python

Python PIL图片添加字体的例子

2019/08/22 Python

如何安装2019Pycharm最新版本(详细教程)

2019/09/26 Python

使用pytorch完成kaggle猫狗图像识别方式

2020/01/10 Python

html5使用canvas实现弹幕功能示例

2017/09/11 HTML / CSS

成人教育自我鉴定

2013/11/01 职场文书

政法干警核心价值观心得体会

2014/09/11 职场文书

财务统计员岗位职责

2015/04/14 职场文书

2015年小学语文工作总结

2015/05/25 职场文书

哈姆雷特读书笔记

2015/06/29 职场文书

运动会新闻稿

2015/07/17 职场文书

php png失真的原因及解决办法

2021/11/17 PHP