当前位置:   article > 正文

分布式训练基本原理_分布式训练 算力 网络

分布式训练 算力 网络

分布式训练基本原理
近十年来,深度学习技术不断刷新视觉、自然语言、语音、搜索、推荐等领域各种任务的纪录。这其中的原因,用一个关键词描述就是“大规模”。大规模的数据使得模型有足够的知识可以记忆,大规模参数量的模型使得模型本身有能力记忆更多的数据,大规模高性能的算力(以GPU为典型代表)使得模型的训练速度有百倍甚至千倍的提升。数据、模型、算力的发展催生了大规模深度学习这个领域,如何进行多机任务的拆分、如何配置集群训练资源、如何平衡训练速度和收敛速度、如何训练单机无法训练的模型、弹性训练与容错等都是这个方向重点研究的问题。分布式训练正是解决上述问题,提升训练效率的最有效手段。分布式训练的核心目的是加快模型的训练速度,如何加快训练速度的呢?首先,可以把单机单卡的模型训练过程看成是一个流水线生产的过程,数据就是输入生产线的原材料,而模型的网络可以看成生产线上的加工设备。数据经过第一个生产环节处理后,得到的结果发给下一个环节处理,后面环节依次类推。后来工厂要求提高生产效率,最直观的方法就是再加一条生产线,分出一部分原材料交由新生产线处理,这样生产的时间直接压缩了一半,有哪些生产环节可以同时做的,可以直接对单个生产线进行拆分重组。分布式训练采用了同样的方式,即将训练任务按照一定方法拆分到多个计算节点进行计算,再按照一定的方法对拆分后计算得到的信息,一般是梯度信息或基于梯度更新后的参数信息,进行聚合。这个拆分可以采用多种不同的方式,一般被统称为“并行方式”,而信息聚合的方式可以称为“模型更新传递方式”。下面将从这两个方面对分布式训练进行介绍。
在这里插入图片描述

分布式训练的并行方式

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/正经夜光杯/article/detail/1011822
推荐阅读
相关标签
  

闽ICP备14008679号