编程 Python

python多线程爬取西刺代理的示例代码

Posted in Python onJanuary 30, 2021

西刺代理是一个国内IP代理，由于代理倒闭了，所以我就把原来的代码放出来供大家学习吧。

镜像地址：https://www.blib.cn/url/xcdl.html

首先找到所有的tr标签，与class="odd"的标签，然后提取出来。

然后再依次找到tr标签里面的所有td标签，然后只提取出里面的[1,2,5,9]这四个标签的位置，其他的不提取。

python多线程爬取西刺代理的示例代码

最后可以写出提取单一页面的代码，提取后将其保存到文件中。

import sys,re,threading
import requests,lxml
from queue import Queue
import argparse
from bs4 import BeautifulSoup

head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36"}

if __name__ == "__main__":
  ip_list=[]
  fp = open("SpiderAddr.json","a+",encoding="utf-8")
  url = "https://www.blib.cn/url/xcdl.html"
  request = requests.get(url=url,headers=head)
  soup = BeautifulSoup(request.content,"lxml")
  data = soup.find_all(name="tr",attrs={"class": re.compile("|[^odd]")})
  for item in data:
    soup_proxy = BeautifulSoup(str(item),"lxml")
    proxy_list = soup_proxy.find_all(name="td")
    for i in [1,2,5,9]:
      ip_list.append(proxy_list[i].string)
    print("[+] 爬行列表: {} 已转存".format(ip_list))
    fp.write(str(ip_list) + '\n')
    ip_list.clear()

爬取后会将文件保存为 SpiderAddr.json 格式。

python多线程爬取西刺代理的示例代码

最后再使用另一段代码，将其转换为一个SSR代理工具直接能识别的格式，{'http': 'http://119.101.112.31:9999'}

import sys,re,threading
import requests,lxml
from queue import Queue
import argparse
from bs4 import BeautifulSoup

if __name__ == "__main__":
  result = []
  fp = open("SpiderAddr.json","r")
  data = fp.readlines()

  for item in data:
    dic = {}
    read_line = eval(item.replace("\n",""))
    Protocol = read_line[2].lower()
    if Protocol == "http":
      dic[Protocol] = "http://" + read_line[0] + ":" + read_line[1]
    else:
      dic[Protocol] = "https://" + read_line[0] + ":" + read_line[1]
    result.append(dic)
    print(result)

python多线程爬取西刺代理的示例代码

完整多线程版代码如下所示。

import sys,re,threading
import requests,lxml
from queue import Queue
import argparse
from bs4 import BeautifulSoup

head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36"}

class AgentSpider(threading.Thread):
  def __init__(self,queue):
    threading.Thread.__init__(self)
    self._queue = queue

  def run(self):
    ip_list=[]
    fp = open("SpiderAddr.json","a+",encoding="utf-8")
    while not self._queue.empty():
      url = self._queue.get()
      try:
        request = requests.get(url=url,headers=head)
        soup = BeautifulSoup(request.content,"lxml")
        data = soup.find_all(name="tr",attrs={"class": re.compile("|[^odd]")})
        for item in data:
          soup_proxy = BeautifulSoup(str(item),"lxml")
          proxy_list = soup_proxy.find_all(name="td")
          for i in [1,2,5,9]:
            ip_list.append(proxy_list[i].string)
          print("[+] 爬行列表: {} 已转存".format(ip_list))
          fp.write(str(ip_list) + '\n')
          ip_list.clear()
      except Exception:
        pass

def StartThread(count):
  queue = Queue()
  threads = []
  for item in range(1,int(count)+1):
    url = "https://www.xicidaili.com/nn/{}".format(item)
    queue.put(url)
    print("[+] 生成爬行链接 {}".format(url))

  for item in range(count):
    threads.append(AgentSpider(queue))
  for t in threads:
    t.start()
  for t in threads:
    t.join()

# 转换函数
def ConversionAgentIP(FileName):
  result = []
  fp = open(FileName,"r")
  data = fp.readlines()

  for item in data:
    dic = {}
    read_line = eval(item.replace("\n",""))
    Protocol = read_line[2].lower()
    if Protocol == "http":
      dic[Protocol] = "http://" + read_line[0] + ":" + read_line[1]
    else:
      dic[Protocol] = "https://" + read_line[0] + ":" + read_line[1]
    result.append(dic)
  return result

if __name__ == "__main__":
  parser = argparse.ArgumentParser()
  parser.add_argument("-p","--page",dest="page",help="指定爬行多少页")
  parser.add_argument("-f","--file",dest="file",help="将爬取到的结果转化为代理格式 SpiderAddr.json")
  args = parser.parse_args()
  if args.page:
    StartThread(int(args.page))
  elif args.file:
    dic = ConversionAgentIP(args.file)
    for item in dic:
      print(item)
  else:
    parser.print_help()

以上就是python多线程爬取西刺代理的示例代码的详细内容，更多关于python多线程爬取代理的资料请关注三水点靠木其它相关文章！

python多线程爬取西刺代理的示例代码

- Author -

王瑞

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python循环语句之break与continue的用法

Oct 14 Python

TensorFlow实现卷积神经网络

May 24 Python

Python从使用线程到使用async/await的深入讲解

Sep 16 Python

python3.6环境安装+pip环境配置教程图文详解

Jun 20 Python

Pandas之Dropna滤除缺失数据的实现方法

Jun 25 Python

Python Django 命名空间模式的实现

Aug 09 Python

python GUI库图形界面开发之PyQt5线程类QThread详细使用方法

Feb 26 Python

利用python在excel中画图的实现方法

Mar 17 Python

Python多线程通信queue队列用法实例分析

Mar 24 Python

使用matlab 判断两个矩阵是否相等的实例

May 11 Python

如何理解python中数字列表

May 29 Python

Python如何将将模块分割成多个文件

Aug 04 Python

Python如何实现Paramiko的二次封装

Jan 30 #Python

python实现按日期归档文件

Jan 30 #Python

python使用Windows的wmic命令监控文件运行状况,如有异常发送邮件报警

Jan 30 #Python

如何用Django处理gzip数据流

Jan 29 #Python

Spy++的使用方法及下载教程

Jan 29 #Python

Python实现随机爬山算法

Jan 29 #Python

用pushplus+python监控亚马逊到货动态推送微信

Jan 29 #Python

You might like

ThinkPHP之R方法实例详解

2014/06/20 PHP

PHP单态模式简单用法示例

2016/11/16 PHP

laravel按天、按小时,查询数据的实例

2019/10/09 PHP

PHP简单实现图片格式转换(jpg转png，gif转png等)

2019/10/30 PHP

url地址自动加#号问题说明

2010/08/21 Javascript

微博@符号的用户名提示效果。(想@到谁？)

2010/11/05 Javascript

基于jQuery捕获超链接事件进行局部刷新代码

2012/05/10 Javascript

jquery中event对象属性与方法小结

2013/12/18 Javascript

jquery的each方法使用示例分享

2014/03/25 Javascript

ExtJS4利根据登录后不同的角色分配不同的树形菜单

2014/05/02 Javascript

Nodejs中读取中文文件编码问题、发送邮件和定时任务实例

2015/01/01 NodeJs

jQuery调用ajax请求的常见方法汇总

2015/03/24 Javascript

javascript实现检验的各种规则

2015/07/31 Javascript

jQuery焦点图轮播插件KinSlideshow用法分析

2016/06/08 Javascript

如何解决手机浏览器页面点击不跳转浏览器双击放大网页

2016/07/01 Javascript

js修改onclick动作的四种方法(推荐)

2016/08/18 Javascript

Angularjs自定义指令Directive详解

2017/05/27 Javascript

JS按条件 serialize() 对应标签的使用方法

2017/07/24 Javascript

详解基于vue-cli配置移动端自适应

2018/01/13 Javascript

Vue 使用中的小技巧

2018/04/26 Javascript

分享5个顶级的JavaScript Ajax组件库

2018/09/16 Javascript

简单了解vue中父子组件如何相互传递值（基础向）

2019/07/12 Javascript

基于javascript的无缝滚动动画实现2

2020/08/07 Javascript

[06:45]2018DOTA2亚洲邀请赛 4.5 SOLO赛 Sccc vs Maybe

2018/04/06 DOTA

Python中用于去除空格的三个函数的使用小结

2015/04/07 Python

利用python生成一个导出数据库的bat脚本文件的方法

2016/12/30 Python

python实现换位加密算法的示例

2018/10/14 Python

解决pycharm回车之后不能换行或不能缩进的问题

2019/01/16 Python

python字符串查找函数的用法详解

2019/07/08 Python

Python 调用C++封装的进一步探索交流

2021/03/04 Python

Canvas环形饼图与手势控制的实现代码

2019/11/08 HTML / CSS

馥绿德雅美国官方网站：Rene Furterer头皮护理专家

2019/05/01 全球购物

国防教育标语

2014/10/08 职场文书

离婚协议书范本2014

2014/10/27 职场文书

教你用eclipse连接mysql数据库

2021/04/22 MySQL

Java并发编程之Executor接口的使用

2021/06/21 Java/Android