编程 Python

python分布式编程实现过程解析

Posted in Python onNovember 08, 2019

分布式编程的难点在于：

1.服务器之间的通信，主节点如何了解从节点的执行进度，并在从节点之间进行负载均衡和任务调度；

2.如何让多个服务器上的进程访问同一资源的不同部分进行执行

第一部分涉及到网络编程的底层细节

第二个问题让我联想到hdfs的一些功能。

首先分布式进程还是解决的是单机单进程无法处理的大数据量大计算量的问题，希望能加通过一份代码（最多主+从两份）来并行执行一个大任务。

这就面临两个问题，首先将程序分布到多台服务器，其次将输入数据分配给多台服务器。

第一个问题相对比较简单，毕竟程序一般不会太长，即便是超级jar包的spark程序，也不过百兆。

但数据里不同，如今企业级别的数据动辄GB、TB，如果在分布式程序执行之前首先要进行大容量数据的转移，显然是不可取的。

这时候我们就需要一个中央共享数据源，所有服务器都可以对这个数据源进行并行存取（块block），这就已经非常接近hdfs的功能。

因为在hdfs中，集群中的多台服务器共享同一个hdfs，每台机器访问hdfs就像访问本地数据一样（还是稍微慢一点）；

计算任务执行完之后，每台服务器还可以将自己的计算结果写回hdfs，每台服务器的结果被存储成了结果目录中的小文件。

# task_master.py

import random, time, queue
from multiprocessing.managers import BaseManager

# 发送任务的队列:
task_queue = queue.Queue()
# 接收结果的队列:
result_queue = queue.Queue()

# 从BaseManager继承的QueueManager:
class QueueManager(BaseManager):
  pass

# 把两个Queue都注册到网络上, callable参数关联了Queue对象:
QueueManager.register('get_task_queue', callable=lambda: task_queue)
QueueManager.register('get_result_queue', callable=lambda: result_queue)
# 绑定端口5000, 设置验证码'abc':
manager = QueueManager(address=('', 5000), authkey=b'abc')
# 启动Queue:
manager.start()
# 获得通过网络访问的Queue对象:
task = manager.get_task_queue()
result = manager.get_result_queue()
# 放几个任务进去:
for i in range(10):
  n = random.randint(0, 10000)
  print('Put task %d...' % n)
  task.put(n)
# 从result队列读取结果:
print('Try get results...')
for i in range(10):
  r = result.get(timeout=10)
  print('Result: %s' % r)
# 关闭:
manager.shutdown()
print('master exit.')

# task_worker.py

import time, sys, queue
from multiprocessing.managers import BaseManager

# 创建类似的QueueManager:
class QueueManager(BaseManager):
  pass

# 由于这个QueueManager只从网络上获取Queue，所以注册时只提供名字:
QueueManager.register('get_task_queue')
QueueManager.register('get_result_queue')

# 连接到服务器，也就是运行task_master.py的机器:
server_addr = '127.0.0.1'
print('Connect to server %s...' % server_addr)
# 端口和验证码注意保持与task_master.py设置的完全一致:
m = QueueManager(address=(server_addr, 5000), authkey=b'abc')
# 从网络连接:
m.connect()
# 获取Queue的对象:
task = m.get_task_queue()
result = m.get_result_queue()
# 从task队列取任务,并把结果写入result队列:
for i in range(10):
  try:
    n = task.get(timeout=1)
    print('run task %d * %d...' % (n, n))
    r = '%d * %d = %d' % (n, n, n*n)
    time.sleep(1)
    result.put(r)
  except Queue.Empty:
    print('task queue is empty.')
# 处理结束:
print('worker exit.')

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python分布式编程实现过程解析

- Author -

Mars.wang

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python共享引用(多个变量引用)示例代码

Dec 04 Python

Python ORM框架SQLAlchemy学习笔记之安装和简单查询实例

Jun 10 Python

PyTorch线性回归和逻辑回归实战示例

May 22 Python

python实现点对点聊天程序

Jul 28 Python

python requests.post带head和body的实例

Jan 02 Python

python opencv 批量改变图片的尺寸大小的方法

Jun 28 Python

tesserocr与pytesseract模块的使用方法解析

Aug 30 Python

使用Python paramiko模块利用多线程实现ssh并发执行操作

Dec 05 Python

Django-xadmin后台导入json数据及后台显示信息图标和主题更改方式

Mar 11 Python

python 实现aes256加密

Nov 27 Python

python 通过使用Yolact训练数据集

Apr 06 Python

python编程项目中线上问题排查与解决

Nov 01 Python

详解mac python+selenium+Chrome 简单案例

Nov 08 #Python

python manage.py runserver流程解析

Nov 08 #Python

详解python中docx库的安装过程

Nov 08 #Python

numpy.array 操作使用简单总结

Nov 08 #Python

如何在python中写hive脚本

Nov 08 #Python

Python 依赖库太多了该如何管理

Nov 08 #Python

python+OpenCV实现车牌号码识别

Nov 08 #Python

You might like

PHP 高级课程笔记面向对象

2009/06/21 PHP

PHP测试程序运行时间的类

2012/02/05 PHP

PHP5.5和之前的版本empty函数的不同之处

2014/06/13 PHP

php_pdo 预处理语句详解

2016/11/21 PHP

php成功操作redis cluster集群的实例教程

2019/01/13 PHP

php使用mysqli和pdo扩展，测试对比mysql数据库的执行效率完整示例

2019/05/09 PHP

document.getElementById的简写方式(获取id对象的简略写法)

2010/09/10 Javascript

js 判断checkbox是否选中的实现代码

2010/11/23 Javascript

javascript教程之不完整的继承(js原型链)

2014/01/13 Javascript

js动态修改表格行colspan列跨度的方法

2015/03/30 Javascript

基于Javascript实现倒计时功能

2016/02/22 Javascript

JavaScript 正则表达式中global模式的特性

2016/02/25 Javascript

AngularJS 中的指令实践开发指南(一)

2016/03/20 Javascript

javascript常见数字进制转换实例分析

2016/04/21 Javascript

jQuery实现调整表格单列顺序完整实例

2016/06/20 Javascript

基于Javascript实现的不重复ID的生成器

2016/12/25 Javascript

Angular实现购物车计算示例代码

2017/02/21 Javascript

全面解析vue中的数据双向绑定

2017/05/10 Javascript

详解Vue路由History mode模式中页面无法渲染的原因及解决

2017/09/28 Javascript

用React-Native+Mobx做一个迷你水果商城APP(附源码)

2017/12/25 Javascript

JavaScript强制类型转换和隐式类型转换操作示例

2019/05/01 Javascript

p5.js实现动态图形临摹

2019/10/23 Javascript

为什么JavaScript中0.1 + 0.2 != 0.3

2020/12/03 Javascript

[01:03:42]VP vs VGJ.S 2018国际邀请赛小组赛BO2 第一场 8.19

2018/08/21 DOTA

仅利用30行Python代码来展示X算法

2015/04/01 Python

Python实现的单向循环链表功能示例

2017/11/10 Python

如何使用Python进行OCR识别图片中的文字

2019/04/01 Python

Python学习笔记之Break和Continue用法分析

2019/08/14 Python

解析HTML5的存储功能和web SQL的相关操作方法

2016/02/19 HTML / CSS

美国高品质个性化珠宝销售网站：Jewlr

2018/05/03 全球购物

Hashtable 添加内容的方式有哪几种，有什么区别？

2012/04/08 面试题

高级编程求职信模板

2014/02/16 职场文书

校长师德师风自我剖析材料

2014/09/29 职场文书

工作证明英文模板

2014/10/21 职场文书

辞职信范文大全

2015/03/02 职场文书

教你用eclipse连接mysql数据库

2021/04/22 MySQL