莘羽专业数码电器网
首页 > 测评 > 上海交大招生办解读最新高招如同OpenAI训练大型神经网络的四种基本方法展现了教育领域的智慧与力量

上海交大招生办解读最新高招如同OpenAI训练大型神经网络的四种基本方法展现了教育领域的智慧与力量

来源:上海交大招生办

编译:张伟

编辑:李明

在当前的人工智能领域,大型神经网络是热门话题之一。那么,如何有效地训练这些巨大的模型呢?近期,曾推出GPT-3的大规模预训练模型的OpenAI发布了一篇文章,详细介绍了基于GPU的四种节省内存并行训练方法。这四种方法分别是:

数据并行——不同GPU上同时处理不同的数据子集。

流水线并行——不同GPU上分担模型各个层次的计算。

张量并行——将单一运算拆分到多个GPU上进行。

专家混合(MOE)——每层只通过一小部分参数来处理每个示例。

图注:展示了三层模型在各种并行策略下的执行情况,每一种颜色代表一个层级,用虚线隔开不同的GPU。

数据并行需要确保所有工作都有相同的参数副本,这意味着存储参数副本带来了额外成本,但可以通过一些策略来增加可用RAM,如在两次使用之间将参数卸载到CPU内存。在同步梯度更新时,每个worker独立计算梯度、平均后再更新新参数,而步骤2中阻塞通信可能会影响吞吐量,有异步同步方案可以消除这一损耗但会影响学习效率,因此通常采用同步方式。

流水线并行则是将模型水平分割成连续块,每个块仅保存一部分参数,因而每个GPU所需内存按比例减少。由于顺序依赖性,在worker等待前一个机器输出作为其输入时,将产生大量空闲时间,这被称为“泡沫”。我们可以重用数据并行思想,将批次拆分为微批次,使得每个worker只处理微批次的一部分,以降低泡沫成本,并使新计算与等待时间重叠。梯度在微批次间进行平均,并且只有所有微批次完成后才更新参数。

张量并排列垂直和水平拆分,可以提高矩阵乘法操作,比如Transformer中的自注意力和MLP层使用Megatron-LM中的这种技术;或像PTD-P那样跨维度平滑通信以减少泡沫损失;还有序列並平直接利用输入序列按时间轴拆分以减少峰值内存消耗。

最后,还有专家混合(MoE)方法,它通过选择性激活重新计算来节省内存,但也能扩展到数万亿级别的大型网络。此外,还有一些其他设计,如检查点、混合精度训练和零复制技术(ZeRO),它们也有助于更好地管理设备资源,从而实现对越来越大的神经网络培训。

标签:

猜你喜欢

数码电器测评 春天的礼物选购...
春天是万物复苏之季,充满了生机与活力。在这个美好的季节里,送老师什么花成为了许多学生们的心事。选择一束适合老师口味的鲜花,不仅能表达学生对老师深深的尊敬和...
数码电器测评 百合花纯洁的守...
百合花,作为一朵优雅而纯净的花卉,它在不同的文化和传统中都有着独特而深刻的意义。从古至今,百合花一直是人们心目中的爱情、美丽和忠贞的象征。 首先,百合花代...
数码电器测评 时间的回响勿忘我
时间的回响:勿忘我 在这片悠长的岁月里,历史如同一位慈祥的老人,温柔地把故事讲给我们听。每一个故事都蕴含着深远的意义,每一个名字都承载着不朽的情感。然而,...
数码电器测评 机械传动设备老...
在现代工业中,机械传动设备是不可或缺的,它们通过将能量从一个部件转移到另一个部件,以实现机器和机械系统的协同工作。这些设备不仅提高了生产效率,还保障了产品...

强力推荐