谷歌大脑:混合专家层超大规模 AI,模型性能提升 1000 多倍
发布时间:2017-03-21谷歌大脑的这项最新研究作者包括Geoffrey Hinton 和Jeff Dean,论文提出了一个超大规模的神经网络——稀疏门控混合专家层(Sparsely-Gated Mixture-of-Experts layer,MoE)。MoE 包含上万个子网络,每个网络的参数更是高达1370 亿个之多。通过灵活控制部分网络,新的技术在大规模语言建模和机器翻译基准测试中,花费很小的计算力实现了性能的显著提升。这项工作是深度网络条件计算在产业实践中的首次成功,有助于推广神经网络以及新应用的产生。
论文摘要:神经网络吸收信息的能力受其参数数量的限制。有人在理论上提出了条件计算(conditional computation)的概念,作为大幅提升模型容量而不会大幅增加计算力需求的一种方法。在条件计算中,部分网络的活动以样本数量为基础(active on a per-example basis)。然而在实践中,要实现条件计算,在算法和性能方面还存在很大的挑战。
在本次研究中,我们针对这些问题并最终在实践中发挥出条件计算的潜力,在模型容量上得到超过1000 倍的提升,同时让现代GPU 集群的计算效率仅发生了微小的损失。我们提出了一个稀疏门控混合专家层(Sparsely-Gated Mixture-of-Experts layer,MoE),由多达数千个前馈子网络组成。可训练的门控网络会决定这些专家层(expert)的稀疏组合,并将其用于每个样本。
我们将MoE 应用于语言建模和机器翻译任务,在这些任务中模型性能(model capacity)对于吸收训练语料库中可用的大量知识至关重要。我们提出的模型架构中,高达1370 亿个参数被卷积地应用于堆叠的LSTM 层当中。在大型语言建模和机器翻译基准测试中,这些模型以更低的计算成本获了得比现有最好技术更好的结果。
相关论文:Outrageously large neural networks: The sparsely-gated mixture-of-experts layer
来源:新智元