爬虫代理的cookie如何生成运行


Posted in Python onSeptember 22, 2020

HTTP是用于互联网传输数据信息到本地的一种传送协议

我们在浏览器中输入输入关键词,会返回页面内容。这就是我们用浏览器向网站所在的服务器发送了一个请求,网站的服务器接收到这个请求后进行解析,然后把网页内容呈现出来。

有时候服务器网站会检测IP在一个时间段内的请求次数,如果过于频繁,就会拒绝服务,简称为封IP。

HTTP代理就是用别人的IP进行访问,进行IP伪装。

除非是访问网站或APP专用数据api接口,正常的HTTP请求都需要进行ua(User-Agent)优化,因为ua是浏览器标识,如果http请求没有ua,或ua太少,都会被网站运维统计异常的,ua越丰富分布就越真实。cookie最好是登陆获取的,一般访客的cookie,对方限制会比较严格,可以控制一个地区新访客的访问频率。另外反爬统计的js也要分析下,是不是做了机器人判断,有没有做窗口分辨率判断等。

生成cookie:

import os
import time
import zipfile

from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait


class GenCookies(object):
  USER_AGENT = open('useragents.txt').readlines()
  # www.16yun.cn 代理配置
  PROXY_HOST = 't.16yun.cn' # proxy or host
  PROXY_PORT = 31111 # port
  PROXY_USER = 'USERNAME' # username
  PROXY_PASS = 'PASSWORD' # password
def open(self):
    """
    打开网页输入用户名密码并点击
    :return: None
    """
    self.browser.delete_all_cookies()
    self.browser.get(self.url)
    username = self.wait.until(EC.presence_of_element_located((By.ID, 'loginName')))
    password = self.wait.until(EC.presence_of_element_located((By.ID, 'loginPassword')))
    submit = self.wait.until(EC.element_to_be_clickable((By.ID, 'loginAction')))
    username.send_keys(self.username)
    password.send_keys(self.password)
    time.sleep(1)
    submit.click()

  def password_error(self):
    """
    判断是否密码错误
    :return:
    """
    try:
      return WebDriverWait(self.browser, 5).until(
        EC.text_to_be_present_in_element((By.ID, 'errorMsg'), '用户名或密码错误'))
    except TimeoutException:
      return False

  def get_cookies(self):
    """
    获取Cookies
    :return:
    """
    return self.browser.get_cookies()

运行cookie:

API接口开始运行
* Running on http://0.0.0.0:5000/ (Press CTRL+C to quit)
Cookies生成进程开始运行
Cookies检测进程开始运行
正在生成Cookies 账号 180000000 密码 16yun
正在测试Cookies 用户名 180000000
Cookies有效 180000000

如果HTTP请求成功,HTTP的状态码会返回200且返回数据。当然其他HTTP其他状态码也有,403表示禁止访问,504服务器内部出错等等。

以上就是爬虫代理的cookie如何生成运行的详细内容,更多关于爬虫代理 cookie的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python类定义的讲解
Nov 01 Python
实例讲解Python中的私有属性
Aug 21 Python
pygame实现弹力球及其变速效果
Jul 03 Python
关于Python 3中print函数的换行详解
Aug 08 Python
利用Python暴力破解zip文件口令的方法详解
Dec 21 Python
使用Python实现从各个子文件夹中复制指定文件的方法
Oct 25 Python
Python 中使用 PyMySQL模块操作数据库的方法
Nov 10 Python
pytorch之inception_v3的实现案例
Jan 06 Python
Python request使用方法及问题总结
Apr 26 Python
浅谈keras2 predict和fit_generator的坑
Jun 17 Python
python3.9实现pyinstaller打包python文件成exe
Dec 13 Python
python热力图实现简单方法
Jan 29 Python
python 如何将office文件转换为PDF
Sep 22 #Python
Python制作一个仿QQ办公版的图形登录界面
Sep 22 #Python
Python使用for生成列表实现过程解析
Sep 22 #Python
python实现发送带附件的邮件代码分享
Sep 22 #Python
使用Python绘制台风轨迹图的示例代码
Sep 21 #Python
利用python绘制中国地图(含省界、河流等)
Sep 21 #Python
python利用google翻译方法实例(翻译字幕文件)
Sep 21 #Python
You might like
phpstorm配置Xdebug进行调试PHP教程
2014/12/01 PHP
PDO::query讲解
2019/01/29 PHP
php反序列化长度变化尾部字符串逃逸(0CTF-2016-piapiapia)
2020/02/15 PHP
JavaScript中void(0)的具体含义解释
2007/02/27 Javascript
基于jquery的图片的切换(以数字的形式)
2011/02/14 Javascript
JavaScript中创建对象和继承示例解读
2014/02/12 Javascript
jQuery获取URL请求参数的方法
2015/07/18 Javascript
JavaScript实现自动消除按钮功能的方法
2015/08/05 Javascript
动态创建按钮的JavaScript代码
2016/01/29 Javascript
JavaScript驾驭网页-DOM
2016/03/24 Javascript
基于gulp合并压缩Seajs模块的方式说明
2016/06/14 Javascript
RGB和YUV 多媒体编程基础详细介绍
2016/11/04 Javascript
jQueryeasyui 中如何使用datetimebox 取两个日期间相隔的天数
2017/06/13 jQuery
JS模拟超市简易收银台小程序代码解析
2017/08/18 Javascript
详解Eslint 配置及规则说明
2018/09/10 Javascript
Vue插件从封装到发布的完整步骤记录
2019/02/28 Javascript
Python函数中定义参数的四种方式
2014/11/30 Python
python 捕获shell脚本的输出结果实例
2017/01/04 Python
Python实现针对中文排序的方法
2017/05/09 Python
Python正则捕获操作示例
2017/08/19 Python
如何高效使用Python字典的方法详解
2017/08/31 Python
用tensorflow实现弹性网络回归算法
2018/01/09 Python
Python基于BeautifulSoup和requests实现的爬虫功能示例
2019/08/02 Python
python使用selenium爬虫知乎的方法示例
2020/10/28 Python
python爬虫中PhantomJS加载页面的实例方法
2020/11/12 Python
The Hut德国站点:时装、家居用品、美容等
2016/09/23 全球购物
中国领先的专业家电网购平台:国美在线
2016/12/25 全球购物
俄语地区最大的中国商品在线购物网站之一:Umka Mall
2019/11/03 全球购物
精彩的推荐信范文
2013/11/26 职场文书
厉行勤俭节约倡议书
2014/05/16 职场文书
影子教师研修方案
2014/06/14 职场文书
2019年教师节活动策划方案
2019/09/09 职场文书
Nginx URL重写rewrite机制原理及使用实例
2021/04/01 Servers
vue+elementui 实现新增和修改共用一个弹框的完整代码
2021/06/08 Vue.js
使用pandas生成/读取csv文件的方法实例
2021/07/09 Python
利用Python读取微信朋友圈的多种方法总结
2021/08/23 Python