久久天天躁狠狠躁夜夜躁,国产精品入口福利,97久久精品人人爽人人爽蜜臀 ,中文字幕国产精品一区二区

當(dāng)前位置首頁 > 信息公告

量子物理學(xué)基礎(chǔ)知識網(wǎng)絡(luò)圖 LSTM還沒「死」

更新時間:2023-11-03 文章作者:佚名 信息來源:網(wǎng)絡(luò)整理 閱讀次數(shù):

假如說「LSTM」已死,它為什么仍然還能在大賽中成為贏家呢?5FD物理好資源網(wǎng)(原物理ok網(wǎng))

長短期記憶(LongShort-Term,LSTM)是一種時間循環(huán)神經(jīng)網(wǎng)路(RNN),論文首次發(fā)表于1997年。因為奇特的設(shè)計結(jié)構(gòu),LSTM適宜于處理和預(yù)測時間序列中間隔和延后特別長的重要風(fēng)波。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

在過去幾六年里,LSTM發(fā)展怎么了?5FD物理好資源網(wǎng)(原物理ok網(wǎng))

密切關(guān)注機器學(xué)習(xí)的研究者,近來幾年她們見證了科學(xué)領(lǐng)域前所未有的革命性進步。這些進步猶如20世紀初,愛因斯坦的論文成為量子熱學(xué)的基礎(chǔ)一樣。只是這一次,奇跡發(fā)生在論文的推出,該論文一作為Alex,是大名鼎鼎的優(yōu)秀中學(xué)生代表之一。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

出席了2012年9月30日舉辦的大規(guī)模視覺辨識挑戰(zhàn)賽,達到最低的15.3%的Top-5錯誤率,比第二名低10.8個百分點。這一結(jié)果重新點燃了人們對機器學(xué)習(xí)(后來轉(zhuǎn)變?yōu)?a href='http://www.njxqhms.com/redianxinxi/21328.html' title='終南小師父:LCD背光驅(qū)動電路原理深度剖析!' target='_blank'>深度學(xué)習(xí))的興趣。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

我們很難評估每次技術(shù)突破:在一項新技術(shù)被引入并開始普及之前,另一項技術(shù)可能顯得更強悍、更快或更實惠。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

技術(shù)的突破創(chuàng)造了這么多的炒作,吸引了許多新人,她們常常熱情很高,但經(jīng)驗甚少。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

深度學(xué)習(xí)領(lǐng)域中一個被誤會的突破就是循環(huán)神經(jīng)網(wǎng)路(:RNN)家族。假如你用微軟搜索例如「LSTMsaredead」「RNNshavedied」短語你會發(fā)覺,搜索下來的結(jié)果大部份是不正確的或則結(jié)果太片面。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

本文中數(shù)據(jù)科學(xué)家Nikos撰文《Deep:No,LSTMsAreNotDead!》,文中指出循環(huán)網(wǎng)路依然是十分有用的,可應(yīng)用于許多實際場景。據(jù)悉,本文不只是討論LSTM和,文中還介紹了數(shù)據(jù)科學(xué)中無偏評估這一概念。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

以下是原文內(nèi)容,整篇以第一人稱述說。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

LSTM當(dāng)初主導(dǎo)了NLP領(lǐng)域5FD物理好資源網(wǎng)(原物理ok網(wǎng))

每位小型科技公司還會采用LSTM,在NLP研究中都有LSTM的身影。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

早在1997年,LSTM在論文《LONGSHORT-TERM》中被提出,直至2014年才步入高速發(fā)展階段。它們屬于循環(huán)神經(jīng)網(wǎng)路家族-RNN,以及門控循環(huán)單元GRU。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

隨著GPU的可訪問性和第一個深度學(xué)習(xí)框架的出現(xiàn),LSTM成為支配NLP領(lǐng)域的SOTA模型。2013年詞嵌入的出現(xiàn)推動了遷移學(xué)習(xí)機制的完善。事實上,當(dāng)時幾乎所有NLP任務(wù)的標準組件都是:a)預(yù)訓(xùn)練詞嵌入,b)LSTM和c)序列到序列構(gòu)架。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

在哪個時期,每位數(shù)據(jù)科學(xué)家都同意LSTM主導(dǎo)了NLP領(lǐng)域:它們被用于語音辨識、文本到語音合成、語言建模和機器翻譯。每家小型科技公司都接受了LSTM;毫不夸張的說沒有LSTM就沒有NLP。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

微軟為機器翻譯創(chuàng)建的最佳模型之一,如右圖1所示:5FD物理好資源網(wǎng)(原物理ok網(wǎng))

圖1:微軟神經(jīng)機器翻譯-GNMT構(gòu)架。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

這個復(fù)雜的模型存在于微軟翻譯服務(wù)中,與之前的版本相比,GNMT降低了60%的翻譯錯誤。正如我們看見的,GNMT大量使用了LSTM,產(chǎn)生了知名的編碼器-解碼器拓撲(包括一個單向LSTM)。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

據(jù)悉,GNMT還借助了,這是一種容許模型在須要時關(guān)注輸入序列相關(guān)部份的機制。如圖1所示,其中編碼器的底部向量使用注意力分數(shù)加權(quán)。換句話說,每位時間步驟中的每位詞組都有一個可學(xué)習(xí)的分數(shù),以最小化錯誤。要了解更多信息量子物理學(xué)基礎(chǔ)知識網(wǎng)絡(luò)圖,請查看資料:5FD物理好資源網(wǎng)(原物理ok網(wǎng))

但是,LSTM有兩個缺點:首先LSTM不容易在訓(xùn)練過程中并行化;其次因為它們具有周期性,它們可以建模的序列寬度是有限制的。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

打開的世界5FD物理好資源網(wǎng)(原物理ok網(wǎng))

RNN是序列模型,也就是說詞組是按次序處理的。并且,可以并行處理所有的詞組。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

2017年,微軟在論文《IsAllYouNeed》中推出,這是NLP生態(tài)系統(tǒng)的里程碑式的進步。這個新模型通過提出多頭注意力機制來深入研究注意力,具體表現(xiàn)在:5FD物理好資源網(wǎng)(原物理ok網(wǎng))

但是,沒有使用LSTM,雖然在提取上下文信息很重要的第一層(LSTM可能很有用),提出了一種不同的機制,稱為位置編碼。這闡明了兩類模型之間的主要區(qū)別:RNN是序列模型,這意味著詞組是按次序處理的;但并行處理所有詞組,這大大降低了訓(xùn)練時間。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

從那之后,成為研究語言處理的基礎(chǔ),并形成了新的變體。變體如右圖2所示:5FD物理好資源網(wǎng)(原物理ok網(wǎng))

圖2:開源的系列5FD物理好資源網(wǎng)(原物理ok網(wǎng))

不能被遺忘的時間序列5FD物理好資源網(wǎng)(原物理ok網(wǎng))

LSTM和都十分擅長對序列信息進行建模。為此,它們也可以應(yīng)用于時間序列預(yù)測(TSF)案例。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

傳統(tǒng)統(tǒng)計方式博得第一輪5FD物理好資源網(wǎng)(原物理ok網(wǎng))

但是,實驗結(jié)果表明,LSTM和在確切度方面并非一定優(yōu)于傳統(tǒng)統(tǒng)計方式(比如ARIMA)。另一方面,統(tǒng)計方式和基于RNN的方式相結(jié)合更有效。一個典型的事例是Uber建立的ES-RNN模型,該模型最終博得了M4大賽。該模式是一種在擴張的LSTM之上使用指數(shù)平滑的混和模型。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

其實,也遭到了考驗。對于時間序列預(yù)測,最常用的方式是使用原始的,并將位置編碼層替換為層。并且,模型也難以趕超統(tǒng)計技巧。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

據(jù)悉,我還想說明以下幾點:5FD物理好資源網(wǎng)(原物理ok網(wǎng))

其實,就預(yù)測能力而言,ML方式并不總是優(yōu)于統(tǒng)計方式。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

深度學(xué)習(xí)(DL)博得第二輪5FD物理好資源網(wǎng)(原物理ok網(wǎng))

直至2018~2019年,深度學(xué)習(xí)模型才開始在時間序列預(yù)測任務(wù)中顯得更具競爭力。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

右圖3和圖4顯示了兩個SOTA模型,分別為微軟的(TFT)和亞馬遜的。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

TFT。圖源:5FD物理好資源網(wǎng)(原物理ok網(wǎng))

圖源:模型構(gòu)架。圖源:5FD物理好資源網(wǎng)(原物理ok網(wǎng))

這兩個模型有好多有趣的地方,但與本文主題形成共鳴的最重要一點是:5FD物理好資源網(wǎng)(原物理ok網(wǎng))

它們都使用了LSTM!如何做到的呢?5FD物理好資源網(wǎng)(原物理ok網(wǎng))

TFT是一種用于時間序列的多層純深度學(xué)習(xí)模型,該模型具有LSTM編碼器-解碼器以及提供有可解釋預(yù)測的全新注意力機制。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

是一個復(fù)雜的時間序列模型,它結(jié)合了自回歸和深度學(xué)習(xí)的特點。上圖4中的h_i,t向量實際上是LSTM單元的隱藏狀態(tài),它們被拿來估算高斯分布的μ和σ參數(shù)。從這個分布中,選擇n個樣本,其中位數(shù)代表預(yù)測值。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

結(jié)果表明,這兩種深度學(xué)習(xí)模型都優(yōu)于傳統(tǒng)的統(tǒng)計方式。據(jù)悉,這兩種模型都愈發(fā)通用,由于它們可以處理多個時間序列并接受更豐富的功能集,其中TFT略勝一籌。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

循環(huán)與注意力怎么關(guān)聯(lián)上去5FD物理好資源網(wǎng)(原物理ok網(wǎng))

為了學(xué)習(xí)不同尺度的時序關(guān)系,TFT使用循環(huán)層進行局部處理,使用可解釋的自注意力層進行常年依賴。考慮到我們目前所曉得的以及上文所述,可以得出以下推論:循環(huán)網(wǎng)路十分擅長捕捉序列的局部時間特點,而注意力則更擅長學(xué)習(xí)常年動態(tài)。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

這不是一個輕率的推論。TFT論文的作者通過執(zhí)行消融剖析證明了這一點。她們在其他組件中測試了LSTM編碼器-解碼器層:在消融實驗中使用原始的標準位置編碼層來替換它,得出了以下兩個推論:5FD物理好資源網(wǎng)(原物理ok網(wǎng))

序列到序列層的使用對模型性能形成增益;在執(zhí)行基準測試的5個數(shù)據(jù)集中的4個,LSTM層實現(xiàn)了更佳的性能。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

因而,我們可以有掌握地得出推論:LSTM層一直是時間序列深度學(xué)習(xí)模型中的一個特別有用的組件。據(jù)悉,它們不會對抗注意力機制,相反可以與基于注意力的組件相結(jié)合,進一步提升模型的效率。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

LSTM的隱藏優(yōu)勢:條件輸出5FD物理好資源網(wǎng)(原物理ok網(wǎng))

條件輸出是LSTM最被忽略的優(yōu)勢之一,許多數(shù)據(jù)科學(xué)從業(yè)者依然沒有意識到這一點。假如你仍然在用原始循環(huán)網(wǎng)路,都會發(fā)覺這種類型的網(wǎng)路只能處理被表示為具有各類依賴關(guān)系的序列的時序數(shù)據(jù)。并且,它們不能直接對靜態(tài)元數(shù)據(jù)或非時變數(shù)據(jù)進行建模。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

在NLP中,靜態(tài)元數(shù)據(jù)是不相關(guān)的。相反,NLP模型專注于詞組詞匯表,其中每位詞組都由嵌入表示,這是整個模型的統(tǒng)一概念。每位詞組所來自文檔的類型并不重要,只要NLP模型可以學(xué)習(xí)每位詞組的正確上下文感知表示即可。但要記住:一個特定的詞組可以有不同的嵌入,這取決于它的涵義和它在語句中的位置。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

然而,在時間序列模型中,非時變數(shù)據(jù)的影響要大得多。諸如,假定我們有一個涉及商店產(chǎn)品的銷售預(yù)測場景,產(chǎn)品的銷量可以建模為時間序列,但也會遭到周末等外部誘因的影響。因而,一個好的預(yù)測模型也應(yīng)當(dāng)考慮這種變量。這就是TFT所做的,參見右圖5。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

圖5:外部靜態(tài)變量對預(yù)測的影響。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

然而,TFT是怎樣實現(xiàn)的呢?TFT專為集成靜態(tài)元數(shù)據(jù)而設(shè)計,它使用了各類技術(shù),最重要的一個與LSTM有關(guān)。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

LSTM使用[11]中首次介紹的方法無縫地執(zhí)行此任務(wù):沒有將LSTM的初始h_0隱藏狀態(tài)和單元狀態(tài)c_0設(shè)置為0(或隨機),而是使用指定向量或嵌入來初始化它們。或則正如TFT所做的一樣,在擬合期間使這種向量可訓(xùn)練。通過這些方法,LSTM單元的輸出可以適當(dāng)?shù)卦谕獠孔兞可习l(fā)揮作用,而不會影響其時間依賴性。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

LSTMvsTCN5FD物理好資源網(wǎng)(原物理ok網(wǎng))

在注意力和出現(xiàn)之前,有另一種有望改變現(xiàn)況的模型,即時間頻域網(wǎng)路(,TCN)。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

TCN在2016年首次提出并在2018年規(guī)范化,它借助頻域網(wǎng)路對基于序列的數(shù)據(jù)進行建模。自然地,它們也是時間序列預(yù)測任務(wù)的理想方案。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

擴張頻域示意圖,其中過濾器大小k=3,擴張因子d=1,2,4。體會野可以覆蓋來自輸入序列的所有數(shù)據(jù)點x_0...x_T。圖源:5FD物理好資源網(wǎng)(原物理ok網(wǎng))

TCN的「秘密裝備」是擴張頻域,如上圖6所示。標準CNN使用固定大小的內(nèi)核/過濾器,因而它們只能覆蓋毗鄰的數(shù)據(jù)元素。TCN使用擴張頻域,它們在不同厚度的輸入序列上使用填充(),因而才能測量彼此毗鄰但位置完全不同的item之間的依賴關(guān)系。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

據(jù)悉,TCN中還使用了其他技術(shù),比如方差聯(lián)接,它如今已然成為深度網(wǎng)路的標準。這兒主要關(guān)注LSTM與TCN之間的差別:5FD物理好資源網(wǎng)(原物理ok網(wǎng))

TCN和LSTM都有各自的異同點。最好的方式是對它們進行評估,找到最適宜自己的方案。但要注意,除非你的用例特別小,否則難以通過單個TCN或LSTM模型實現(xiàn)SOTA性能。現(xiàn)代用例會考慮更多外部參數(shù),這就須要更具挑戰(zhàn)性的技巧。反過來,這也就意味著必須使用多個組件或模型。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

中的深度學(xué)習(xí)和時間序列5FD物理好資源網(wǎng)(原物理ok網(wǎng))

到目前為止,我們?nèi)匀辉趶膶W(xué)術(shù)角度評估單個模型。但是,假如我們要制訂一個更詳盡的觀點,就不能忽視實際應(yīng)用。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

提供了一個挺好的評估基準,我們以賽事為例:呼吸機壓力預(yù)測。該賽事任務(wù)是依照控制輸入的序列預(yù)測機械肺部的壓力序列。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

這場賽事之所以具有挑戰(zhàn)性量子物理學(xué)基礎(chǔ)知識網(wǎng)絡(luò)圖,有三個誘因:5FD物理好資源網(wǎng)(原物理ok網(wǎng))

現(xiàn)今,有兩個比較有趣的地方介紹一下:第一個是排行前三的團隊以及其他許多團隊在她們的最終解決方案中起碼使用了一個基于LSTM的組件(比如LSTMS,單向LSTMS)。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

取勝團隊遞交了一個多層次深度構(gòu)架,其中包括一個LSTM網(wǎng)路和一個塊。此構(gòu)架如圖7所示:5FD物理好資源網(wǎng)(原物理ok網(wǎng))

圖7:第一名解決方案構(gòu)架。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

頻域神經(jīng)網(wǎng)路的命運5FD物理好資源網(wǎng)(原物理ok網(wǎng))

我希望這篇文章對LSTM的價值做出了挺好的論證。并且毫無疑惑是機器學(xué)習(xí)領(lǐng)域一個驚人突破。這些突破性的成功將會推動未來更高級別的研究。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

2020年,被改編為計算機視覺版,誕生了(ViT),論文《AnImageisWorth16x16Words:forImageatScale》中提出。這篇論文引起了進一步的研究,最終經(jīng)過不斷的升級,ViT模型還能在圖象分類任務(wù)中優(yōu)于CNN。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

為此,這個階段,我希望我們不要再說「CNN早已死亡」或者「CNN正在沒落」這樣的評價。5FD物理好資源網(wǎng)(原物理ok網(wǎng))

總結(jié)來講,本文可以總結(jié)為以下幾點:5FD物理好資源網(wǎng)(原物理ok網(wǎng))

原文鏈接:5FD物理好資源網(wǎng)(原物理ok網(wǎng))

發(fā)表評論

統(tǒng)計代碼放這里
主站蜘蛛池模板: 威海市| 萨迦县| 平舆县| 偃师市| 建昌县| 吉林省| 鸡西市| 平度市| 商城县| 嘉祥县| 沅江市| 原平市| 伊宁县| 富民县| 潞西市| 黑水县| 罗甸县| 临汾市| 宿州市| 锡林郭勒盟| 旬邑县| 即墨市| 沅陵县| 孟连| 吉水县| 汉源县| 沙田区| 湘西| 鸡泽县| 富蕴县| 平塘县| 长宁县| 彰化县| 周口市| 民和| 灌阳县| 新田县| 赞皇县| 新宁县| 搜索| 纳雍县|