编程 Python

TensorFlow学习之分布式的TensorFlow运行环境

Posted in Python onFebruary 05, 2020

当我们在大型的数据集上面进行深度学习的训练时，往往需要大量的运行资源，而且还要花费大量时间才能完成训练。

1.分布式TensorFlow的角色与原理

在分布式的TensorFlow中的角色分配如下：

PS：作为分布式训练的服务端，等待各个终端(supervisors)来连接。

worker：在TensorFlow的代码注释中被称为终端(supervisors)，作为分布式训练的计算资源终端。

chief supervisors：在众多的运算终端中必须选择一个作为主要的运算终端。该终端在运算终端中最先启动，它的功能是合并各个终端运算后的学习参数，将其保存或者载入。

每个具体的网络标识都是唯一的，即分布在不同IP的机器上(或者同一个机器的不同端口)。在实际的运行中，各个角色的网络构建部分代码必须100%的相同。三者的分工如下：

服务端作为一个多方协调者，等待各个运算终端来连接。

chief supervisors会在启动时同一管理全局的学习参数，进行初始化或者从模型载入。

其他的运算终端只是负责得到其对应的任务并进行计算，并不会保存检查点，用于TensorBoard可视化中的summary日志等任何参数信息。

在整个过程都是通过RPC协议来进行通信的。

2.分布部署TensorFlow的具体方法

配置过程中，首先建立一个server，在server中会将ps及所有worker的IP端口准备好。接着，使用tf.train.Supervisor中的managed_ssion来管理一个打开的session。session中只是负责运算，而通信协调的事情就都交给supervisor来管理了。

3.部署训练实例

下面开始实现一个分布式训练的网络模型，以线性回归为例，通过3个端口来建立3个终端，分别是一个ps，两个worker，实现TensorFlow的分布式运算。

1. 为每个角色添加IP地址和端口，创建sever，在一台机器上开3个不同的端口，分别代表PS，chief supervisor和worker。角色的名称用strjob_name表示，以ps为例，代码如下：

# 定义IP和端口
strps_hosts = 'localhost:1681'
strworker_hosts = 'localhost:1682,localhost:1683'
# 定义角色名称
strjob_name = 'ps'
task_index = 0
# 将字符串转数组
ps_hosts = strps_hosts.split(',')
worker_hosts = strps_hosts.split(',')
cluster_spec = tf.train.ClusterSpec({'ps': ps_hosts, 'worker': worker_hosts})
# 创建server
server = tf.train.Server({'ps':ps_hosts, 'worker':worker_hosts}, job_name=strjob_name, task_index=task_index)

2为ps角色添加等待函数

ps角色使用server.join函数进行线程挂起，开始接受连续消息。

# ps角色使用join进行等待
if strjob_name == 'ps':
  print("wait")
  server.join()

3.创建网络的结构

与正常的程序不同，在创建网络结构时，使用tf.device函数将全部的节点都放在当前任务下。在tf.device函数中的任务是通过tf.train.replica_device_setter来指定的。在tf.train.replica_device_setter中使用worker_device来定义具体任务名称；使用cluster的配置来指定角色及对应的IP地址，从而实现管理整个任务下的图节点。代码如下：

with tf.device(tf.train.replica_device_setter(worker_device='/job:worker/task:%d'%task_index,
                       cluster=cluster_spec)):
  X = tf.placeholder('float')
  Y = tf.placeholder('float')
  # 模型参数
  w = tf.Variable(tf.random_normal([1]), name='weight')
  b = tf.Variable(tf.zeros([1]), name='bias')
  global_step = tf.train.get_or_create_global_step()  # 获取迭代次数
  z = tf.multiply(X, w) + b
  tf.summary('z', z)
  cost = tf.reduce_mean(tf.square(Y - z))
  tf.summary.scalar('loss_function', cost)
  learning_rate = 0.001
  optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(cost, global_step=global_step)
  saver = tf.train.Saver(max_to_keep=1)
  merged_summary_op = tf.summary.merge_all() # 合并所有summary
  init = tf.global_variables_initializer()

4.创建Supercisor，管理session

在tf.train.Supervisor函数中，is_chief表明为是否为chief Supervisor角色，这里将task_index=0的worker设置成chief Supervisor。saver需要将保存检查点的saver对象传入。init_op表示使用初始化变量的函数。

training_epochs = 2000
display_step = 2
sv = tf.train.Supervisor(is_chief=(task_index == 0),# 0号为chief
             logdir='log/spuer/',
             init_op=init,
             summary_op=None,
             saver=saver,
             global_step=global_step,
             save_model_secs=5)
# 连接目标角色创建session
with sv.managed_session(saver.target) as sess:

5迭代训练

session中的内容与以前一样，直接迭代训练即可。由于使用了supervisor管理session，将使用sv.summary_computed函数来保存summary文件。

print('sess ok')
  print(global_step.eval(session=sess))
  for epoch in range(global_step.eval(session=sess), training_epochs*len(train_x)):
    for (x, y) in zip(train_x, train_y):
      _, epoch = sess.run([optimizer, global_step], feed_dict={X: x, Y: y})
      summary_str = sess.run(merged_summary_op, feed_dict={X: x, Y: y})
      sv.summary_computed(sess, summary_str, global_step=epoch)
      if epoch % display_step == 0:
        loss = sess.run(cost, feed_dict={X:train_x, Y:train_y})
        print("Epoch:", epoch+1, 'loss:', loss, 'W=', sess.run(w), w, 'b=', sess.run(b))
  print(' finished ')
  sv.saver.save(sess, 'log/linear/' + "sv.cpk", global_step=epoch)
sv.stop()

（1）在设置自动保存检查点文件后，手动保存仍然有效，

（2）在运行一半后，在运行supervisor时会自动载入模型的参数，不需要手动调用restore。

（3）在session中不需要进行初始化的操作。

6.建立worker文件

新建两个py文件，设置task_index分别为0和1，其他的部分和上述的代码相一致。

strjob_name = 'worker'
task_index = 1
strjob_name = 'worker'
task_index = 0

7.运行

我们分别启动写好的三个文件，在运行结果中，我们可以看到循环的次数不是连续的，显示结果中会有警告，这是因为在构建supervisor时没有填写local_init_op参数，该参数的含义是在创建worker实例时，初始化本地变量，上述代码中没有设置，系统会自动初始化，并给出警告提示。

分布运算的目的是为了提高整体运算速度，如果同步epoch的准确率需要牺牲总体运行速度为代价，自然很不合适。

在ps的文件中，它只是负责连接，并不参与运算。

总结

以上所述是小编给大家介绍的TensorFlow学习之分布式的TensorFlow运行环境，希望对大家有所帮助！！

TensorFlow学习之分布式的TensorFlow运行环境

- Author -

Baby-Lily

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python妹子图简单爬虫实例

Jul 07 Python

简单讲解Python中的字符串与字符串的输入输出

Mar 13 Python

Python中的with语句与上下文管理器学习总结

Jun 28 Python

利用 Monkey 命令操作屏幕快速滑动

Dec 07 Python

win10 64bit下python NLTK安装教程

Sep 19 Python

对python判断是否回文数的实例详解

Feb 08 Python

Python多进程方式抓取基金网站内容的方法分析

Jun 03 Python

Python数据可视化 pyecharts实现各种统计图表过程详解

Aug 15 Python

Django框架HttpResponse对象用法实例分析

Nov 01 Python

Python通过TensorFLow进行线性模型训练原理与实现方法详解

Jan 15 Python

PyTorch加载自己的数据集实例详解

Mar 18 Python

Python面向对象之内置函数相关知识总结

Jun 24 Python

TensorFlow MNIST手写数据集的实现方法

Feb 05 #Python

tensorflow之并行读入数据详解

Feb 05 #Python

tensorflow mnist 数据加载实现并画图效果

Feb 05 #Python

tensorflow 自定义损失函数示例代码

Feb 05 #Python

利用Tensorflow的队列多线程读取数据方式

Feb 05 #Python

Tensorflow 多线程与多进程数据加载实例

Feb 05 #Python

TensorFlow自定义损失函数来预测商品销售量

Feb 05 #Python

You might like

php 生成WML页面方法详解

2009/08/09 PHP

PHP输出当前进程所有变量/常量/模块/函数/类的示例

2013/11/07 PHP

php获取ip及网址的简单方法(必看)

2017/04/01 PHP

Javascript实例教程(19) 使用HoTMetal(5)

2006/12/23 Javascript

extjs 学习笔记（一）一些基础知识

2009/10/13 Javascript

js实现多选项切换导航菜单的方法

2015/02/06 Javascript

JavaScript中用getDate()方法返回指定日期的教程

2015/06/09 Javascript

BootStrap的alert提示框的关闭后再显示怎么解决

2016/05/17 Javascript

微信小程序网络请求API详解

2016/10/25 Javascript

jquery实现文本框的禁用和启用

2016/12/07 Javascript

jQuery自定义多选下拉框效果

2017/06/19 jQuery

vue中使用refs定位dom出现undefined的解决方法

2017/12/21 Javascript

详解react-native WebView 返回处理(非回调方法可解决)

2018/02/27 Javascript

详解JavaScript的变量

2019/04/04 Javascript

CKeditor4 字体颜色功能配置方法教程

2019/06/26 Javascript

layui表单提交到后台自动封装到实体类的方法

2019/09/12 Javascript

electron-vue开发环境内存泄漏问题汇总

2019/10/10 Javascript

vue style width a href动态拼接问题的解决

2020/08/07 Javascript

Vue实现鼠标经过文字显示悬浮框效果的示例代码

2020/10/14 Javascript

解决ant design vue中树形控件defaultExpandAll设置无效的问题

2020/10/26 Javascript

Python字符和字符值(ASCII或Unicode码值)转换方法

2015/05/21 Python

Python中read()、readline()和readlines()三者间的区别和用法

2017/07/30 Python

教你用Python创建微信聊天机器人

2020/03/31 Python

Python importlib动态导入模块实现代码

2020/04/16 Python

全球领先美式家具品牌：Ashley爱室丽家居

2017/08/07 全球购物

瑞典快乐袜子：Happy Socks

2018/02/16 全球购物

精灵市场：Pixie Market

2019/06/18 全球购物

Eton丹麦官网：精美的男式衬衫

2020/05/27 全球购物

戴尔新加坡官网：Dell Singapore

2020/12/13 全球购物

班级道德讲堂实施方案

2014/02/24 职场文书

计算机科学系职业生涯规划书

2014/03/08 职场文书

平面设计求职信

2014/03/10 职场文书

观看《永远的雷锋》心得体会

2014/03/12 职场文书

产品包装策划方案

2014/05/18 职场文书

2015年农村党员公开承诺事项

2015/04/28 职场文书

Rust 连接 PostgreSQL 数据库的详细过程

2022/01/22 PostgreSQL