久久天天躁狠狠躁夜夜躁,国产精品入口福利,97久久精品人人爽人人爽蜜臀 ,中文字幕国产精品一区二区

當前位置首頁 > 教育資訊

訓練深度學習模型的能耗需求等人關注了2019年訓練

更新時間:2024-03-03 文章作者:佚名 信息來源:網絡整理 閱讀次數:

在強化學習中,通過樣本和計算效率之間的反直覺權衡,選擇正確的進化策略可能比看起來更有效。d3s物理好資源網(原物理ok網)

現代生活充滿了各種低效率的情況,但深度學習的能源成本卻沒有那么明顯。 在您的辦公桌上設置一個高性能工作站,冷卻風扇發出的熱氣流不斷提醒您正在持續使用大量能源。 然而,如果工作被推到大廳的共享集群中,直觀地感受到設計決策對電費的影響就變得有點困難。 如果在大型項目中使用云計算,能源的使用和后續后果將逐漸離你關心的對象越來越遠。 然而,看不見、摸不著對于一個項目來說并不是一個可行的決定。 在大規模的極端情況下,可能意味著這些項目的能源消耗大于汽車整個產品周期的能源消耗。d3s物理好資源網(原物理ok網)

訓練深度學習模型的能耗要求d3s物理好資源網(原物理ok網)

2019年,重點關注了訓練現代深度學習模型的大量能源需求。他們主要針對一個名為“訓練深度學習模型”的大型自然語言處理模型,所花費的時間基本相同。d3s物理好資源網(原物理ok網)

他們估計,使用存在大量變量的訓練所釋放的二氧化碳量約為從紐約飛往舊金山的航班釋放的二氧化碳量的 10%。 此估算基于主要由云提供商發布的能耗假設以及低于 1,000 美元的財務成本(云計算假設)。 對于商業項目來說,這可能是一筆劃算的支出,但當考慮到優化和實驗等因素時,能源費用很容易就會增加 10 倍或更多。d3s物理好資源網(原物理ok網)

和他的同事估計,將神經架構搜索 (NAS) 添加到 NLP 模型開發中將使價格標簽和相應的碳足跡增加數百萬美元。 盡管許多大型模型利用專門的硬件,例如谷歌的TPU來進行訓練,從而降低了30到80倍的能源成本,使訓練稍微便宜一些,但這仍然是一筆巨大的開支。 在本文重點關注的強化學習領域,低效訓練的后果可能會毀掉一個項目、產品或業務。d3s物理好資源網(原物理ok網)

使用星際爭霸II的訓練示例(二)d3s物理好資源網(原物理ok網)

在過去的44天里,訓練有素的特工在多人即時戰略游戲《星際爭霸II》中通過三場比賽達到了大師級別,擊敗了排名中99.8%的玩家。 主打游戲高手項目Dota2進行了10個月(約800人/天)的實戰訓練,目的是擊敗人類選手的世界冠軍。d3s物理好資源網(原物理ok網)

由于使用了TPU、虛擬工作者等技術,確實很難準確估算此類游戲玩家的能耗成本。 據估計,培養五人冠軍的云計算成本約為1200萬美元至1800萬美元。 顯然,這對于典型的學術或行業機器學習團隊來說是遙不可及的。 在強化學習領域,低效的學習帶來了另一個危險:中等復雜的強化學習任務,探索性和樣本效率低下,可能永遠找不到可行的解決方案。d3s物理好資源網(原物理ok網)

使用強化學習 (NL) 預測蛋白質結構d3s物理好資源網(原物理ok網)

這里,選擇一個中等復雜的強化學習任務作為例子:根據序列預測蛋白質結構。 一個由 100 個氨基酸連接在一起的小蛋白質就像一條有 100 個鏈接的鏈,每個鏈接都是 21 個獨特的鏈接變體之一,這些鏈接變體又根據每個鏈接之間的角度形成一個結構。假設有 9 種可能的簡化配置每個氨基酸/鏈環之間的鍵角,我們需要d3s物理好資源網(原物理ok網)

迭代以查看每種可能的結構。 這 100 個鏈接蛋白大致類似于強化學習環境。 每個步驟由 100 個時間步驟和 9 個可能的動作組成,它們的組合是爆炸性的。d3s物理好資源網(原物理ok網)

當然,強化學習代理不會隨機采樣所有可能的游戲狀態。 相反,代理將通過最佳猜測、定向探索和隨機搜索的組合來生成學習軌跡。 這種生成經驗的方法被稱為典型的“on-”學習算法。 能夠找到局部最優方法的智能體可能會永遠停留在那里,重復相同的錯誤,并且永遠無法解決整個問題。d3s物理好資源網(原物理ok網)

從歷史上看效率解釋舉例,強化學習受益于盡可能類似于監督學習的問題的制定,例如讓學生頭上綁三個攝像頭徒步旅行,左攝像頭生成“右轉”的訓練標簽圖像效率解釋舉例,而右攝像頭生成訓練標簽圖像。右側標有“左轉”,中間的攝像機標有“直行”。d3s物理好資源網(原物理ok網)

最后,您將擁有一個適合訓練導航森林小徑( 至 )的帶標簽數據集。 在接下來的部分中,我們將討論相似的概念(例如,模仿學習)和基于模型的強化學習如何顯著減少代理學習任務所需的訓練示例數量,以及為什么這并不總是有益的。 。d3s物理好資源網(原物理ok網)

事半功倍:讓強化學習代理從示例中學到最好的知識d3s物理好資源網(原物理ok網)

深度強化學習是機器學習的一個分支,受到動物和人類認知、最優控制和深度學習等領域的啟發。 有一個明顯的類似動物行為的實驗,其中將動物(代理)置于特定的情境中:它必須學會通過解決問題來獲取食物(獎勵)。 只需要幾個類似的例子,動物就開始將一系列行為與食物獎勵聯系起來。 然而,為了實現代理參數的穩定更新,深度強化學習算法可能需要為每個時期考慮 100,000 到 100,000 個。 時間步數。d3s物理好資源網(原物理ok網)

大多數強化學習環境都是按步驟制定的。 環境生成一個觀察結果,代理根據該觀察結果決定對環境應用哪些操作。 環境根據其當前狀態和代理選擇的操作進行更新,在本文中稱為時間步。 學習所需的時間步長或“樣本”越少,算法的效率就越高。d3s物理好資源網(原物理ok網)

大多數現代強化學習算法的重要性在于其核心,這是一種反復試驗的形式。 對于不使用顯式探索技術的智能體,其隨機活動偶爾會做正確的事情(do right)。 否則,如果沒有主動獎勵,智能體可能會(本質上)永遠與環境交互。 。 事實上,近端策略優化(一種在一系列基準測試中實現競爭性能的算法)在一系列程序生成的環境中的硬探索模式下完全失敗。 正如您可以想象的那樣,這對于許多相關任務來說都是一個問題。d3s物理好資源網(原物理ok網)

學習玩視頻游戲的智能體可能會體驗到積極的獎勵和隨機動作(也稱為按鈕搗亂),這就是 Atari 套件成為流行的強化學習基準的原因。 對于更復雜的任務,例如如何打復雜的結,機器人不太可能偶然找出解決方案。 無論允許多少次隨機交互,實現預期結果的可能性都不會很高。d3s物理好資源網(原物理ok網)

正如之前關于學習操作魔方的討論中所見,通過手動編程定制的打結機器人來打結,從一開始就學會這樣做的強化學習代理仍然遙不可及。 不言而喻,人類也不會學會打結。 如果一個小孩被單獨留在一個滿是未系鞋帶的運動鞋的房間里,他將很難自己打一個標準的“兔子”結。 就像思想實驗中的幼兒一樣,強化學習代理可以更好地從示例中學習,以便完成打結等復雜任務。d3s物理好資源網(原物理ok網)

使用強化學習教機器打結的示例d3s物理好資源網(原物理ok網)

通過將實體繩索的自主學習與真人演示相結合,伯克利的研究人員解決了教機器打結的問題。 首先,這部分可以進行模擬:機器人和桌子上的繩子之間的隨機交互,以便了解它們如何工作并學習合理的模型。 在代理的自主學習周期中,會顯示所需的操作:打一個簡單的結。 代理能夠模擬所需的操作而不會出錯。 自學習世界動力學模型(在上面的例子中,一張有繩子的桌子)與人類想要執行的動作緊密耦合。 模仿學習和相關的逆強化學習代表了一些樣本效率最高的強化學習方法。d3s物理好資源網(原物理ok網)

打結是一項深奧的任務(顯然超出了許多學習算法的能力),但它允許我們比較不同學習算法應用于更標準任務的樣本效率。 In d3s物理好資源網(原物理ok網)

的深度 RL 課程講座 21、幻燈片 29 通過比較公開發布的任務的結論,給出了各種 RL 算法的相對樣本效率。 這是一項 2D 運動任務,使用機器人模糊地模擬貓的運動。 可以在(需要付費許可證)和(開源、免費)物理模擬器中實現。d3s物理好資源網(原物理ok網)

根據幻燈片內容,我們期望基于模型/逆強化學習的總時間步對應的進化策略具有最低的樣本失敗率和最高的效率。 下面轉載了幻燈片中的估值以及文獻中的具體示例。d3s物理好資源網(原物理ok網)

機器人在 Py 中進行模擬,目標是盡可能快地前進。 盡管以 3D 形式呈現,但移動僅限于 2D 平面。 就像獵豹一樣,但只有一半的身體。d3s物理好資源網(原物理ok網)

表 1:各種 RL 算法的相對樣本效率。d3s物理好資源網(原物理ok網)

同一類算法的實現之間的樣本效率差異很大,我發現幻燈片中的估計相對于文獻中的具體示例可能有些夸大。 特別是,進化策略論文提出了一種比TRPO樣本效率更高的方法,即策略梯度方法,并用它與TRPO進行比較。 報告指出: 的解決方案花費了 300 萬個時間步,遠低于 10 億步的估計。d3s物理好資源網(原物理ok網)

此外,實驗室發表的一篇相關論文將遺傳算法應用于Atari游戲,其樣本效率約為10億時間步,約為課程預估的5倍。d3s物理好資源網(原物理ok網)

在某些情況下,多即是少——從進化中學習d3s物理好資源網(原物理ok網)

在上面討論的示例中,進化策略是樣本效率最低的方法之一,通常需要比其他方法多至少 10 倍的步驟來學習給定的任務。 在另一個極端,基于模型的方法和模仿方法需要最少的時間步來學習相同的任務。d3s物理好資源網(原物理ok網)

乍一看,這似乎與基于進化的方法相反,但當您針對計算而不是樣本效率進行優化時,會發生有趣的事情。 由于運行演化策略的開銷減少,甚至不需要反向傳播過程,因此它們實際上需要更少的計算,并且本質上是并行計算。 由于群體中的每個或單個代理不依賴于其他代理/節點的結果,因此學習算法變得相對并行。 使用高速仿真器,它可以在更短的時間內解決給定的問題(根據墻上的時鐘測量)。d3s物理好資源網(原物理ok網)

gup任務的起始狀態和目標狀態。 綠色膠囊沿著黃色桿滑動,目的是保持紅色桿平衡和直立。d3s物理好資源網(原物理ok網)

為了對計算效率進行粗略比較,我在車桿擺動任務 -v0 上運行了不同學習算法的幾種開源實現。 代表性進化算法和協方差矩陣自適應的源代碼可以在 中找到,而其他算法則是 Deep RL 資源的一部分。d3s物理好資源網(原物理ok網)

策略架構保持不變:前饋密集神經網絡,共有 16 個神經元,每個神經元有兩個隱藏層。 我在單核 2.4GHz CPU 上運行了所有算法,并且可以看到在沒有任何并行化加速的情況下訓練時間的差異。 值得注意的是,使用進化策略在10分鐘內對1440名工人進行了類人訓練,得出了以下結論:如果有并行CPU核心,并行可以真正實現加速,并且確實是有利可圖的。d3s物理好資源網(原物理ok網)

表2:不同學習方法的掛鐘時間和樣本效率對比表d3s物理好資源網(原物理ok網)

上表很好地說明了不同算法所需資源之間的相對關系:樣本效率最高的算法(soft actor-)需要大約一半的步長,但消耗了 34 倍的 CPU 時間。 雙延遲 DDPG(又名 TD3)和軟角色算法不如其他算法穩定。d3s物理好資源網(原物理ok網)

由于缺乏開源工具,在運行表2中的實驗時沒有考慮基于模型的強化學習算法。基于模型的強化學習的進一步研究受到閉源開發和缺乏標準環境的影響,但許多科學家們為標準化基于模型的強化學習算法做出了不懈的努力。 他們發現大多數基于模型的強化學習方法能夠在大約 25,000 步內解決“鐘擺”任務,類似于上表中報告的策略梯度方法 ( ),但訓練時間與策略梯度方法相同 ( )方法100至200次。d3s物理好資源網(原物理ok網)

雖然深度學習似乎仍然青睞“花哨”的強化學習方法,但基于進化的方法已經卷土重來。 自2016年起從事“進化策略作為強化學習的可擴展替代方案”的研究,并參加了2017年遺傳算法的大規模演示:學習玩雅達利游戲。 沒有高級強化學習算法的花哨數學陷阱,進化算法的概念非常簡單:創建一個群體并為群體中的每個人設置某些任務,最好的玩家成為下一代的種子,循環不斷重復,直到表現出色已達到閾值。 由于其背后的一些簡單概念及其固有的并行化潛力,可以看出進化算法將是您最稀缺的資源:可以節省開發人員的大量時間。d3s物理好資源網(原物理ok網)

關于計算和樣本效率的一些附加說明d3s物理好資源網(原物理ok網)

在單個任務上直接比較不同 RL 算法之間的計算和樣本效率并不完全公平,因為在實現中可能存在許多不同的變量。 一種算法可能會更早收斂,但無法達到與另一種較慢的算法相同的分數。 總的來說,我可以打賭,在任何已發布的 RL 項目中,作者花費了比任何其他算法更多的精力來優化和試驗他們的新方法。d3s物理好資源網(原物理ok網)

上面討論的示例很好地回答了強化學習代理的期望問題。 基于模型的方法雖然很有前途,但與其他選擇相比還不成熟,不值得付出額外的努力。 也許,這就是神奇之處:進化算法在各種任務上都表現得非常好,不應該被忽視,即使它們被認為“過時”或“太簡單”。 當考慮到所有可用資源的價值及其消耗時,進化算法確實提供了最佳回報。d3s物理好資源網(原物理ok網)

原來的。 經許可轉載。d3s物理好資源網(原物理ok網)

相關鏈接:d3s物理好資源網(原物理ok網)

發表評論

統計代碼放這里
主站蜘蛛池模板: 德州市| 宁城县| 曲周县| 湛江市| 延津县| 涟源市| 三穗县| 微博| 芦山县| 两当县| 隆安县| 无棣县| 绥滨县| 赤峰市| 临朐县| 怀安县| 金华市| 蒙山县| 宝鸡市| 岢岚县| 潞西市| 太白县| 徐州市| 淮安市| 烟台市| 汶上县| 商水县| 宁化县| 交口县| 丹凤县| 玉溪市| 江阴市| 贵德县| 庆云县| 永兴县| 柯坪县| 神农架林区| 霍州市| 黔西县| 东方市| 沙洋县|