python使用sessions模拟登录淘宝的方式


Posted in Python onAugust 16, 2019

之前想爬取一些淘宝的数据,后来发现需要登录,找了很多的资料,有个使用request的sessions加上cookie来登录的,cookie的获取在登录后使用开发者工具可以找到。不过这个登录后获得的网页的代码是静态的,获取动态网页还得另寻他法,一般需要的数据可以在网页的源码中得到,但是你知道的,有些动态加载的就不是那么简单了,而且我发现这样获得的源码中,有些想要获取的数据的格式是经过改动的,比如我要某个商品的具体链接,发现并不能直接使用。 总体而言,这是一次失败的尝试,不过倒是了解到使用sessionscookies可以进到需要登录的网页,也算是一种方式吧。

记录一下失败的一次

import requests
import os
import json
from pyquery import PyQuery as pq
import re
import time
sessions = requests.session()
url = 'https://s.taobao.com/search?q=ipad'
sessions.headers['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36'
sessions.headers['cookie']='miid=8428352431475518963; hng=CN***********; cna=IzulExo***************; thw=cn; __guid=15467**********; enc=Ubrfp%2******************************************************; t=5********************1e0; tracknick=%5*********3; lgc=40***3; tg=0; x=e%3D1%26p%3D*%26s%3D0%26c%3D0%26f%3D0%26g%3D0%26t%3D0%26__ll%3D-1%26_ato%3D0; cookie2=393e1f359e39e184059e8c87422bb5ce; v=0; _tb_token_=e7e035bee1ae8; _m_h5_tk=ebb49583b4434c3ff9f4bb277236a5d2_1541089384718; _m_h5_tk_enc=b0dd87431f8ade45b56bccb4982c0bf4; alitrackid=world.taobao.com; swfstore=29789; unb=3159140427; sg=374; _l_g_=Ug%3D%3D; skt=c9446f78d9091af3; cookie1=AHt5ehB%2FBw25k99NwMwTM4z3CWVA2J%2FVUVn4V3D2TMk%3D; csg=7b6476e0; uc3=vt3=F8dByRjNVxN9vRJQjTQ%3D&id2=UNGToApZ%2B2dYHA%3D%3D&nk2=sECE1uX4Wg%3D%3D&lg2=VFC%2FuZ9ayeYq2g%3D%3D; existShop=MTU0MTA4NzI2Ng%3D%3D; _cc_=Vq8l%2BKCLiw%3D%3D; dnk=%5Cu6C38%5Cu65E0%5Cu540D3; _nk_=%5Cu6C38%5Cu65E0%5Cu540D3; cookie17=UNGToApZ%2B2dYHA%'
for i in range(1):
  strs=str(i*44)
  urls=url+'&s='+strs
  html=sessions.get(urls).text
  doc=pq(html)
  doc=str(doc)
  os.chdir(r'G:\PS\PY')
  contentss=[]
  htmls=re.compile(r'p4pTags(.*?)"risk"')   
  garbage=re.compile(r'itemlist(.*?)"risk"')
  gb=garbage.findall(doc,re.S|re.M)
  finhtml=htmls.findall(doc,re.S|re.M)
  finhtml=finhtml+gb
  print(len(finhtml))
  #提取信息的正则表达式
  raw_title=r'"raw_title":"(.*?)"'
  view_price= r'"view_price":"(.*?)"' #价格
  view_fee=r'"view_fee":"(.*?)"'   #折扣
  item_loc = r'"item_loc":"(.*?)"' #地区
  view_sales = r'"view_sales":"(.*?)"' #付款人数
  comment_count = r'"comment_count":"(.*?)"' #评论数
  detail_url=r'"detail_url":"(.*?)"'   #url    
  for html in finhtml:
    rtitle=re.findall(raw_title,html)
    price=re.findall(view_price,html)
    fee=re.findall(view_fee,html)
    loc=re.findall(item_loc,html)
    sales= re.findall(view_sales,html)
    comment=re.findall(comment_count,html)
    deurl=re.findall(detail_url,html)
    for rt,p,f,l,s,c,u in zip(rtitle,price,fee,loc,sales,comment,deurl):
      contentss.append({"raw_title":rt,"view_price":p,"view_fee":f,"item_loc":l,"view_sales":s,"comment_count":c,"detail_url":u})  
  with open('ipad.json','a',encoding='utf-8') as file:
    file.write(json.dumps(contentss,indent=2,ensure_ascii=False))
  time.sleep(2)#访问间隔

总结

以上所述是小编给大家介绍的python使用sessions模拟登录淘宝,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

Python 相关文章推荐
通过代码实例展示Python中列表生成式的用法
Mar 31 Python
python实现分析apache和nginx日志文件并输出访客ip列表的方法
Apr 04 Python
使用 Python 实现微信公众号粉丝迁移流程
Jan 03 Python
Python 12306抢火车票脚本 Python京东抢手机脚本
Feb 06 Python
Django自定义过滤器定义与用法示例
Mar 22 Python
windows下添加Python环境变量的方法汇总
May 14 Python
NLTK 3.2.4 环境搭建教程
Sep 19 Python
Python何时应该使用Lambda函数
Jul 02 Python
Django 实现前端图片压缩功能的方法
Aug 07 Python
解决jupyter notebook 前面书写后面内容消失的问题
Apr 13 Python
Python稀疏矩阵及参数保存代码实现
Apr 18 Python
Django Model层F,Q对象和聚合函数原理解析
Nov 12 Python
Django错误:TypeError at / 'bool' object is not callable解决
Aug 16 #Python
Python facenet进行人脸识别测试过程解析
Aug 16 #Python
Python Web框架之Django框架Model基础详解
Aug 16 #Python
pycharm配置git(图文教程)
Aug 16 #Python
Django如何实现上传图片功能
Aug 16 #Python
Python如何调用JS文件中的函数
Aug 16 #Python
用Python批量把文件复制到另一个文件夹的实现方法
Aug 16 #Python
You might like
PHP中spl_autoload_register()函数用法实例详解
2016/07/18 PHP
php基于单例模式封装mysql类完整实例
2016/10/18 PHP
Zend Framework框架实现类似Google搜索分页效果
2016/11/25 PHP
PHP封装的多文件上传类实例与用法详解
2017/02/07 PHP
Laravel接收前端ajax传来的数据的实例代码
2017/07/20 PHP
php在windows环境下获得cpu内存实时使用率(推荐)
2018/02/08 PHP
获取Javscript执行函数名称的方法
2006/12/22 Javascript
表单切换,用回车键替换Tab健(不支持IE)
2011/07/20 Javascript
取得窗口大小 兼容所有浏览器的js代码
2011/08/09 Javascript
jQuery+JSON+jPlayer实现QQ空间音乐查询功能示例
2013/06/17 Javascript
FireBug 调试JS入门教程 如何调试JS
2013/12/23 Javascript
javascript实现des解密加密全过程
2014/04/03 Javascript
JavaScript判断手机号运营商是移动、联通、电信还是其他(代码简单)
2015/09/25 Javascript
基于javascript实现图片预加载
2016/01/05 Javascript
Bootstrap导航条可点击和鼠标悬停显示下拉菜单的实现代码
2016/06/23 Javascript
jQuery插件dataTables添加序号列的方法
2016/07/06 Javascript
ionic App问题总结系列之ionic点击系统返回键退出App
2017/08/19 Javascript
vue-cli+webpack项目 修改项目名称的方法
2018/02/28 Javascript
详解vue项目中如何引入全局sass/less变量、function、mixin
2018/06/02 Javascript
[01:05:52]DOTA2-DPC中国联赛 正赛 Ehome vs Aster BO3 第一场 2月2日
2021/03/11 DOTA
Pyramid将models.py文件的内容分布到多个文件的方法
2013/11/27 Python
python实现爬取千万淘宝商品的方法
2015/06/30 Python
Python的时间模块datetime详解
2017/04/17 Python
Pandas过滤dataframe中包含特定字符串的数据方法
2018/11/07 Python
Python3.5面向对象与继承图文实例详解
2019/04/24 Python
Python PIL图片添加字体的例子
2019/08/22 Python
如何安装2019Pycharm最新版本(详细教程)
2019/09/26 Python
使用pytorch完成kaggle猫狗图像识别方式
2020/01/10 Python
html5使用canvas实现弹幕功能示例
2017/09/11 HTML / CSS
成人教育自我鉴定
2013/11/01 职场文书
政法干警核心价值观心得体会
2014/09/11 职场文书
财务统计员岗位职责
2015/04/14 职场文书
2015年小学语文工作总结
2015/05/25 职场文书
哈姆雷特读书笔记
2015/06/29 职场文书
运动会新闻稿
2015/07/17 职场文书
php png失真的原因及解决办法
2021/11/17 PHP