當前位置：首頁 > 新聞資訊 > 機器人開發 > 讓大規模深度學習訓練線性加速、性能無損，基于BMUF的Adam優化器并行化實踐

讓大規模深度學習訓練線性加速、性能無損，基于BMUF的Adam優化器并行化實踐

來源：AI科技大本營編輯：創澤時間：2020/5/29 主題：其他 [加盟]

作為一種自適應步長隨機梯度優化器，自2014年提出以來，Adam 算法便以其卓越的性能風靡深度學習領域。為了提高應用于訓練大規模任務時的效率，該算法通常與同步隨機梯度（Synchronous Stochastic Gradient，SSG）技術相結合，采用數據并行（data parallel）的方式在多臺機器上執行。在本文中，我們稱這一方法為 Sync-Adam。

本質上來講，Sync-Adam 通過將一個 minibatch 內樣本的梯度計算分布到多臺機器上達到加速目的，因此通信十分頻繁，并且隨著并行機器數目增多，minibatch 內樣本的數量也成比例增加，這種情況下，通常會損害最終得到的模型的性能。為解決基于 SSG 的 Adam 算法可擴展性差的難題，我們把目光投向了逐區塊模型更新濾波（Blockwise Model-Update Filtering, BMUF）框架。

BMUF 是一種通信高效的通用分布式優化算法框架，于2016年由微軟亞洲研究院語音組的研究人員提出并發表。該算法在多個并行工作機之間周期性同步模型更新信息，并與歷史更新信息相結合提升全局模型性能。與基于 SSG 的算法相比，BMUF 具有通信頻率較低、訓練幾乎線性加速、模型性能基本無損的特點。這一算法已經在工業界廣泛用于大規模深度學習模型的訓練。

本文中，我們采用 BMUF 框架并行化 Adam 算法，并在微軟大規模 OCR 和語音產品數據集上進行了測試。實驗結果表明，在大規模 OCR 任務中，BMUF-Adam 在多達64機的并行訓練中幾乎實現了線性加速的同時，基本沒有模型性能損失，在32機大詞匯量連續語音識別任務中也獲得了類似效果。

接下來我們探討如何采用 BMUF 框架賦能 Adam 算法，在大規模深度學習任務上成就不凡。

在基于 BMUF 的訓練框架下，假設我們總共有 N 個并行工作機，一個工作機可以是一塊或多塊 GPU 卡，也可以是一個計算節點。給定一個包含 Nτ 個 minibatch 的訓練數據子集，首先我們將這些數據均勻分布到 N 個并行工作機，每臺工作機獲得 τ 個 minibatch。從一個共同的初始模型 θ_(t-τ)^((init)) 開始，N 個工作機獨立更新各自的局部模型 τ 步，得到 {θ_(t,1),θ_(t,2),…,θ_(t,N)}，對局部模型取平均得到 θ ̅_t。這一過程稱之為數據塊內并行優化（Intra-Block Parallel Optimization, IBPO）。與直接將 θ ̅_t 作為全局模型不同，BMUF 技術將歷史更新信息與當前更新信息結合，得到全局模型：

糖心vlog芭芭拉的圣诞惊喜,糖心视频下载官网手机版,甜糖心愿计划官网,vlog糖心,糖心vlog下载最新地址安卓,糖心volg官网com,为什么糖心vlog网页版进不去了,cctv糖心vlog,糖心官网首页入口,唐伯虎糖心vlog高三

讓大規模深度學習訓練線性加速、性能無損，基于BMUF的Adam優化器并行化實踐

基于深度學習和傳統算法的人體姿態估計，技術細節都講清楚了

傳統目標檢測算法對比

基于深度學習目標檢測模型優缺點對比

如何更高效地壓縮時序數據？基于深度強化學習的探索

滴滴機器學習平臺調度系統的演進與K8s二次開發

人工智能和機器學習之間的差異及其重要性

面向動態記憶和學習功能的神經電晶體可塑性研究

CVPOS自助收銀的挑戰以及商品識別算法工程落地方法和經驗

內容流量管理的關鍵技術：多任務保量優化算法實踐

百變應用場景下，優酷基于圖執行引擎的算法服務框架筑造之路

餓了么推薦算法的演進及在線學習實踐

拯救渣畫質，馬賽克圖秒變高清，杜克大學提出AI新算法

服務機器人(迎賓、講解、導診...)

智能消毒機器人

機器人開發平臺

讓大規模深度學習訓練線性加速、性能無損，基于BMUF的Adam優化器并行化實踐

服務機器人(迎賓、講解、導診...)

智能消毒機器人

機器人開發平臺

讓大規模深度學習訓練線性加速、性能無損，基于BMUF的Adam優化器并行化實踐

服務機器人(迎賓、講解、導診...)