久久天天躁狠狠躁夜夜躁,国产精品入口福利,97久久精品人人爽人人爽蜜臀 ,中文字幕国产精品一区二区

當(dāng)前位置首頁 > 信息公告

物理實(shí)驗(yàn)成本為零!南大LAMDA開源虛擬RL訓(xùn)練環(huán)境

更新時(shí)間:2023-10-17 文章作者:佚名 信息來源:網(wǎng)絡(luò)整理 閱讀次數(shù):

在化學(xué)世界的任務(wù)中應(yīng)用加強(qiáng)學(xué)習(xí)是極具挑戰(zhàn)性的。按照當(dāng)前加強(qiáng)學(xué)習(xí)技巧的要求,在化學(xué)環(huán)境中進(jìn)行大量實(shí)驗(yàn)是不可行的。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

上海學(xué)院LAMDA侍競(jìng)成、俞揚(yáng)等人團(tuán)隊(duì)近來發(fā)表在AAAI2019的論文,描述了在天貓這個(gè)小型在線零售平臺(tái)、同時(shí)也是一個(gè)取樣成本較高的化學(xué)環(huán)境中,借助加強(qiáng)學(xué)習(xí)來更好地進(jìn)行商品搜索的項(xiàng)目。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

論文地址:Fra物理好資源網(wǎng)(原物理ok網(wǎng))

她們沒有直接在天貓上訓(xùn)練加強(qiáng)學(xué)習(xí),而是提出了一個(gè)環(huán)境建立方式:先建立虛擬天貓(-),這是一個(gè)從歷史顧客行為數(shù)據(jù)小學(xué)習(xí)的模擬器,之后在虛擬天貓上訓(xùn)練策略,不須要實(shí)物取樣成本。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

據(jù)悉,本研究的貢獻(xiàn)如下:Fra物理好資源網(wǎng)(原物理ok網(wǎng))

為加強(qiáng)學(xué)習(xí)建立的-構(gòu)架Fra物理好資源網(wǎng)(原物理ok網(wǎng))

在實(shí)驗(yàn)中,-是從數(shù)以億計(jì)的真實(shí)天貓顧客記錄中訓(xùn)練下來的。與真實(shí)天貓相比,虛擬天貓忠實(shí)地還原了真實(shí)環(huán)境的重要屬性。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

該研究進(jìn)一步證明,純粹在虛擬天貓上訓(xùn)練的策略,通過在線A/B測(cè)試,其數(shù)學(xué)取樣成本為零,可以明顯優(yōu)于傳統(tǒng)的監(jiān)督方式在現(xiàn)實(shí)世界中的性能。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

研究人員希望這項(xiàng)工作可以為在復(fù)雜化學(xué)環(huán)境中應(yīng)用加強(qiáng)學(xué)習(xí)提供一些啟示。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

據(jù)悉,-模型也早已開源:Fra物理好資源網(wǎng)(原物理ok網(wǎng))

接出來,新智元帶來這篇論文的翻譯剖析:Fra物理好資源網(wǎng)(原物理ok網(wǎng))

在化學(xué)世界應(yīng)用RL為什么重要Fra物理好資源網(wǎng)(原物理ok網(wǎng))

隨著深度神經(jīng)網(wǎng)路的融合,加強(qiáng)學(xué)習(xí)(RL)近來取得了許多重要進(jìn)展,在游戲、機(jī)器人、自然語言處理等領(lǐng)域取得了好多成功。但是,關(guān)于RL在化學(xué)世界任務(wù)中的應(yīng)用的研究較少,如與顧客交互的小型在線系統(tǒng),這可能對(duì)用戶體驗(yàn)和社會(huì)財(cái)富形成很大的影響。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

小型在線系統(tǒng)即使甚少與RL方式相結(jié)合,但確實(shí)追求應(yīng)用RL。實(shí)際上大學(xué)物理虛擬實(shí)驗(yàn)平臺(tái),許多在線系統(tǒng)都涉及到序列決策和延后反饋。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

比如,手動(dòng)化交易系統(tǒng)須要依照歷史指標(biāo)和所有相關(guān)信息高頻率地管理投資組合,并通過剖析常年利潤仔細(xì)調(diào)整其策略。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

同樣的,電子商務(wù)搜索引擎也會(huì)觀察到賣家的需求,并將排行好的商品頁面顯示給賣家,之后在得到用戶反饋后更新其決策模型,追求利潤最大化。在這期間,假如賣家繼續(xù)瀏覽,它會(huì)依照賣家的最新信息不斷顯示新的頁面。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

往年的解決方案主要基于監(jiān)督學(xué)習(xí)。它們難以學(xué)習(xí)序列決策和最大化常年回報(bào)。因而大學(xué)物理虛擬實(shí)驗(yàn)平臺(tái),RL解決方案十分有吸引力。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

三大算法克服虛擬天貓應(yīng)用RL的障礙Fra物理好資源網(wǎng)(原物理ok網(wǎng))

在這種場(chǎng)景中直接應(yīng)用RL的一個(gè)主要障礙是,當(dāng)前的RL算法一般須要與環(huán)境進(jìn)行大量的交互,這須要很高的化學(xué)成本,例如實(shí)際的金錢、幾天到幾個(gè)月的時(shí)間、糟糕的用戶體驗(yàn),甚至是生命(醫(yī)療任務(wù)中)。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

為了防止化學(xué)成本,RL訓(xùn)練常常使用模擬器。微軟在數(shù)據(jù)中心冷卻方面的應(yīng)用(Gaoand2014)就展示了一個(gè)挺好的實(shí)踐:用一個(gè)神經(jīng)網(wǎng)路來模擬系統(tǒng)動(dòng)態(tài),之后通過一些最先進(jìn)的RL算法在模擬環(huán)境中訓(xùn)練策略。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

在這個(gè)天貓商品搜索項(xiàng)目中,我們使用了類似的過程:構(gòu)建一個(gè)模擬器,即-,之后就可以在模擬器中離線訓(xùn)練策略,借助RL算法實(shí)現(xiàn)常年利潤最大化。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

理想情況下,這樣獲得的策略在真實(shí)環(huán)境中可以同樣表現(xiàn)良好,或則起碼可以為更實(shí)惠的在線調(diào)優(yōu)提供良好的初始化。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

但是,與模擬數(shù)據(jù)中心的動(dòng)態(tài)不同,模擬數(shù)億顧客在動(dòng)態(tài)環(huán)境中的行為更具挑戰(zhàn)性。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

我們處理了按照顧客策略生成的顧客行為數(shù)據(jù)。現(xiàn)有的模仿學(xué)習(xí)方式可以實(shí)現(xiàn)從數(shù)據(jù)中推導(dǎo)入一個(gè)策略。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

行為克隆(,BC)方式(1992)主要是從狀態(tài)-行為數(shù)據(jù)中通過監(jiān)督方式來學(xué)習(xí)策略。BC要求對(duì)RL任務(wù)中不滿足的演示數(shù)據(jù)進(jìn)行i.i.d.假定。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

逆加強(qiáng)學(xué)習(xí)(IRL)方式從數(shù)據(jù)小學(xué)習(xí)一個(gè)獎(jiǎng)勵(lì)函數(shù),之后按照這個(gè)獎(jiǎng)勵(lì)函數(shù)訓(xùn)練一個(gè)策略。IRL放松了數(shù)據(jù)的i.i.d.假定,但依然假定環(huán)境是靜態(tài)的。當(dāng)環(huán)境(即天貓平臺(tái))發(fā)生變化時(shí),學(xué)習(xí)策略可能會(huì)失敗。上述問題促使這種方式在建立虛擬天貓時(shí)不太實(shí)用。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

在這項(xiàng)工作中,我們通過生成顧客和生成交互來建立虛擬天貓。有搜索需求的顧客步入天貓并觸發(fā)平臺(tái)搜索引擎,這類搜索需求的分布十分復(fù)雜和廣泛。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

然而,從數(shù)據(jù)庫中抽取的樣本并不能生成數(shù)據(jù)之外的顧客,進(jìn)而造成最終模型的泛化程度較低。我們提出了GAN-for-on(GAN-SD)方式來生成虛擬顧客,由于我們發(fā)覺傳統(tǒng)的方式,如GMM和GAN,并不適宜這些高維數(shù)據(jù)。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

為了生成交互(),我們提出多主體對(duì)抗模仿學(xué)習(xí)(Multi-agent,MAIL)技巧。我們可以直接在虛擬天貓中調(diào)用天貓平臺(tái)策略,但這會(huì)造成創(chuàng)造一個(gè)難以適應(yīng)真實(shí)環(huán)境變化的靜態(tài)環(huán)境。為此,MAIL同時(shí)學(xué)習(xí)顧客策略和平臺(tái)策略。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

為了同時(shí)學(xué)習(xí)這兩個(gè)策略,MAIL采用了GAIL(HoandErmon2016)的思想,使用生成對(duì)抗框架(etal.2014)。MAIL訓(xùn)練一個(gè)鑒定器來分辨模擬的交互和真實(shí)的交互;區(qū)別訊號(hào)作為獎(jiǎng)勵(lì)反饋,以訓(xùn)練顧客策略和平臺(tái)策略,因而形成更真實(shí)的交互。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

在生成顧客和交互后,虛擬天貓就完成了,接出來可以用于訓(xùn)練平臺(tái)策略。但是,我們注意到加強(qiáng)學(xué)習(xí)算法的強(qiáng)悍程度足以過擬合虛擬天貓的不足,這意味著它可以在虛擬環(huán)境中做得挺好,但在現(xiàn)實(shí)中卻很差。為此,我們提出行動(dòng)規(guī)范約束(Norm,ANC)來使策略規(guī)范化。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

在實(shí)驗(yàn)中,我們從數(shù)以億計(jì)的顧客記錄中建立了虛擬天貓,并與真實(shí)環(huán)境進(jìn)行對(duì)比。我們的結(jié)果顯示,虛擬天貓成功地構(gòu)建了十分接近真實(shí)環(huán)境的屬性。之后,我們借助虛擬天貓訓(xùn)練平臺(tái)策略,以實(shí)現(xiàn)收入最大化。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

與傳統(tǒng)的監(jiān)督學(xué)習(xí)方式相比,虛擬天貓訓(xùn)練的策略在真實(shí)環(huán)境下的利潤提升了2%以上,化學(xué)實(shí)驗(yàn)成本為零。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

接出來,本文繼續(xù)介紹虛擬天貓方式、離線和在線實(shí)驗(yàn),以及推論。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

怎樣建立一個(gè)虛擬天貓?Fra物理好資源網(wǎng)(原物理ok網(wǎng))

問題描述Fra物理好資源網(wǎng)(原物理ok網(wǎng))

商品搜索是天貓的核心業(yè)務(wù)。天貓可以被視為搜索引擎與顧客交互的系統(tǒng)。天貓的搜索引擎負(fù)責(zé)處理對(duì)數(shù)十億商品搜索懇求的微秒級(jí)響應(yīng),而顧客對(duì)商品的偏好也豐富多樣。從引擎的角度來看,天貓平臺(tái)的工作原理如下。顧客訪問,向搜索引擎發(fā)送搜索懇求。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

大學(xué)物理虛擬實(shí)驗(yàn)室_虛擬物理實(shí)驗(yàn)室最新版_大學(xué)物理虛擬實(shí)驗(yàn)平臺(tái)Fra物理好資源網(wǎng)(原物理ok網(wǎng))

之后,搜索引擎對(duì)相關(guān)商品進(jìn)行排序,并向顧客顯示頁面視圖(PV),對(duì)搜索懇求作出適當(dāng)響應(yīng)。顧客給出反饋訊號(hào),例如買東西,之后轉(zhuǎn)入下一頁,或依據(jù)頁筆試圖或賣方自身意愿離開天貓。搜索引擎接收反饋訊號(hào),并為下一個(gè)PV懇求作出新的決定。天貓的業(yè)務(wù)目標(biāo)之一是通過優(yōu)化顯示PV的策略來實(shí)現(xiàn)銷售量的最大化。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

作為反饋訊號(hào),例如,會(huì)受之前的PV影響的顧客行為,在優(yōu)化搜索引擎策略時(shí),將其視為多步驟決策問題,而不是單步監(jiān)督學(xué)習(xí)問題,是更為合理的選擇。因而,考慮到搜索引擎作為代理,以及顧客的反饋?zhàn)鳛橄鄳?yīng)的環(huán)境,天貓中的商品搜索是一個(gè)連續(xù)決策問題。假定顧客只記住有限數(shù)目的最新PV,這是合理的,這意味著反饋訊號(hào)僅受搜索代理的m個(gè)歷史行為的影響。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

圖2:搜索引擎視角和顧客視角下的天貓搜索Fra物理好資源網(wǎng)(原物理ok網(wǎng))

注意,假若假定m=1,即顧客的反饋僅受最后一個(gè)引擎行為的影響,這就是標(biāo)準(zhǔn)馬爾可夫決策過程。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

另一方面,假如我們將顧客視為agent,將搜索引擎視為環(huán)境,這么顧客的購物流程也就可視作次序決策流程。顧客對(duì)排行后的商品,也就是搜索引擎的動(dòng)作作出響應(yīng)。顧客的行為即反饋訊號(hào),它會(huì)遭到近來m個(gè)PV的影響,這種PV由搜索引擎生成,并遭到來自顧客的最后反饋的影響。顧客的行為也具有馬爾可夫?qū)傩浴轭櫩椭朴嗁徫镄抡倪^程可以視為對(duì)顧客的天貓購物偏好的優(yōu)化過程。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

如圖2所示,搜索引擎和顧客互為彼此的環(huán)境,兩者的策略是耦合在一起的。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

假如顧客只是轉(zhuǎn)向下一頁而沒有其他行為,這么負(fù)責(zé)記錄顧客特點(diǎn)和搜索懇求的引擎的觀察結(jié)果將保持不變。假如顧客發(fā)送了另一個(gè)懇求,或離開了天貓,記錄狀態(tài)都會(huì)發(fā)生變化。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

與搜索引擎相比,顧客個(gè)人對(duì)環(huán)境常常更敏感,因而我們?yōu)轭櫩瓦M(jìn)行了一些非常的設(shè)計(jì)。顧客行為將遭到TA想要的以及TA聽到的內(nèi)容的影響,分別用S和A表示,其中S是引擎觀察結(jié)果,即包含懇求的顧客特點(diǎn),A是引擎動(dòng)作,即向顧客顯示的頁面視圖。考慮到客戶的訂購意圖會(huì)隨瀏覽頁數(shù)的變化而變化,設(shè)Sc=S×A×N,其中N表示頁面索引空間。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

函數(shù)定義如下:Fra物理好資源網(wǎng)(原物理ok網(wǎng))

對(duì)于搜索引擎而言,假若顧客買了東西,我們給引擎獎(jiǎng)勵(lì)為1,否則為0。對(duì)于顧客,獎(jiǎng)勵(lì)函數(shù)量前尚不明晰。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

GAN-SD:生成顧客特點(diǎn)Fra物理好資源網(wǎng)(原物理ok網(wǎng))

為了建立虛擬天貓,須要首先生成顧客特點(diǎn),即對(duì)包括來自Pc的懇求的用戶Uc進(jìn)行取樣,以觸發(fā)交互過程。生成的顧客分布應(yīng)與真實(shí)分布相像。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

在高維空間中對(duì)分布進(jìn)行學(xué)習(xí)很具有挑戰(zhàn)性。像高斯混和模型(GMM)之類的精典方式很難實(shí)現(xiàn)這些相像分布。而眾所周知,GAN框架可以挺好地生成接近于原始數(shù)據(jù)的樣本,并在生成圖象方面取得了巨大成功。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

但是,傳統(tǒng)的GAN判斷器就能判斷某一實(shí)例是否來自真實(shí)世界,但缺少捕獲顧客分布構(gòu)架的能力。為了生成分布而不是單個(gè)實(shí)例,我們提出了用于模擬分布的生成性對(duì)抗網(wǎng)路(GAN-SD),如算法1中所示。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

GAN-SD算法偽代碼示意圖Fra物理好資源網(wǎng)(原物理ok網(wǎng))

與GAN類似,GAN-SD也包括生成器G和判斷器D。其中,判定器企圖通過最大化以下目標(biāo)函數(shù):Fra物理好資源網(wǎng)(原物理ok網(wǎng))

來正確分辨生成的數(shù)據(jù)和訓(xùn)練數(shù)據(jù)。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

而更新后的生成器則在實(shí)現(xiàn)以下目標(biāo)函數(shù)的最大化:Fra物理好資源網(wǎng)(原物理ok網(wǎng))

借助KL分歧和熵約束,GAN-SD從真實(shí)數(shù)據(jù)小學(xué)習(xí)具有更多引導(dǎo)信息的生成器,而且可以形成比傳統(tǒng)GAN更好的分布。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

MAIL:生成交互過程Fra物理好資源網(wǎng)(原物理ok網(wǎng))

通過模擬顧客策略,在虛擬天貓之間生成顧客與平臺(tái)之間的交互。本文通過基于GAIL思想的多智能體對(duì)抗模仿學(xué)習(xí)(MAIL)方式來實(shí)現(xiàn)這一目標(biāo)。GAIL容許智能體在訓(xùn)練期間與環(huán)境交互,同時(shí)獎(jiǎng)勵(lì)功能也在不斷優(yōu)化。注意,在GAIL訓(xùn)練期間應(yīng)當(dāng)才能訪問環(huán)境。并且,訓(xùn)練顧客策略須要將引擎視為未知環(huán)境或動(dòng)態(tài)環(huán)境。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

與在靜態(tài)環(huán)境中訓(xùn)練一個(gè)智能體策略的GAIL不同,MAIL是一種面向多智能體的訓(xùn)練策略,可用于訓(xùn)練顧客策略和引擎策略。以這些方法得到顧客策略才能包含不同的搜索引擎策略。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

因?yàn)镸AIL將兩個(gè)策略一起訓(xùn)練,即代理和環(huán)境,只須要?dú)v史數(shù)據(jù),不須要訪問真實(shí)環(huán)境。MAIL算法偽代碼如右圖所示:Fra物理好資源網(wǎng)(原物理ok網(wǎng))

實(shí)驗(yàn)設(shè)定及結(jié)果Fra物理好資源網(wǎng)(原物理ok網(wǎng))

為了驗(yàn)證“虛擬天貓”的療效,我們使用以下量度指標(biāo):Fra物理好資源網(wǎng)(原物理ok網(wǎng))

總營業(yè)額(TT):所售商品的單價(jià)值。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

總數(shù)(TV):銷售商品的數(shù)目。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

訂購頁面的訂購(R2P):形成訂購行為的PV數(shù)目占總PV的比列。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

圖3:學(xué)習(xí)后的客戶分布的對(duì)比Fra物理好資源網(wǎng)(原物理ok網(wǎng))

圖4:真實(shí)天貓和虛擬天貓之間的R2P對(duì)比Fra物理好資源網(wǎng)(原物理ok網(wǎng))

大學(xué)物理虛擬實(shí)驗(yàn)室_大學(xué)物理虛擬實(shí)驗(yàn)平臺(tái)_虛擬物理實(shí)驗(yàn)室最新版Fra物理好資源網(wǎng)(原物理ok網(wǎng))

本文在線實(shí)驗(yàn)中采用了全部檢測(cè)方法。在離線實(shí)驗(yàn)中只使用了R2P方式,由于我們沒有對(duì)顧客數(shù)目和商品價(jià)錢作出預(yù)測(cè)。了以便在真實(shí)環(huán)境和虛擬環(huán)境之間比較這種指標(biāo),我們提早在真實(shí)環(huán)境(非常是天貓網(wǎng)的在線A/B測(cè)試)中布署了隨機(jī)引擎策略,并搜集了相應(yīng)的軌跡作為歷史數(shù)據(jù)(約4億條記錄)。本文沒有假定生成數(shù)據(jù)的引擎策略,也就是說,在建立虛擬環(huán)境時(shí),可能采用的是任何未知的復(fù)雜模型。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

表1:虛擬數(shù)據(jù)和真實(shí)數(shù)據(jù)之間的KL分歧Fra物理好資源網(wǎng)(原物理ok網(wǎng))

表2:采用行為克隆和MAIL算法的模擬器隨時(shí)間的R2P性能提高Fra物理好資源網(wǎng)(原物理ok網(wǎng))

推論Fra物理好資源網(wǎng)(原物理ok網(wǎng))

為了解決天貓網(wǎng)站中面向商品搜索的加強(qiáng)學(xué)習(xí)的高成本問題,本文提出了一個(gè)“虛擬天貓模擬器”,按照歷史數(shù)據(jù)進(jìn)行訓(xùn)練的。首先通過GAN-SD生成虛擬顧客,并通過MAIL生成虛擬交互過程。研究結(jié)果表明,“虛擬天貓”能夠忠實(shí)反映真實(shí)環(huán)境中的特點(diǎn)。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

本文提出通過ANC策略訓(xùn)練性能更高的平臺(tái)策略,讓新的策略具備比傳統(tǒng)監(jiān)督學(xué)習(xí)方式更好的真實(shí)環(huán)境下的性能。“虛擬網(wǎng)店”具備實(shí)際應(yīng)用意義,也富有挑戰(zhàn)性。希望這項(xiàng)工作才能為將加強(qiáng)學(xué)習(xí)應(yīng)用于復(fù)雜數(shù)學(xué)任務(wù)提供一些啟示。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

開源模型:Fra物理好資源網(wǎng)(原物理ok網(wǎng))

開源項(xiàng)目提供了以天貓的真實(shí)數(shù)據(jù)為基礎(chǔ)訓(xùn)練的虛擬天貓模擬器。在天貓上,當(dāng)顧客輸入一些查詢時(shí),推薦系統(tǒng)將按照查詢和顧客配置文件返回一個(gè)商品列表。該系統(tǒng)預(yù)計(jì)將返回一個(gè)良好的列表,讓顧客有很高的可能性點(diǎn)擊那些商品。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

使用模擬器,用戶可以像訪問真實(shí)的天貓環(huán)境一樣訪問“實(shí)時(shí)”環(huán)境。每次生成一次虛擬顧客,虛擬顧客啟動(dòng)查詢,推薦系統(tǒng)須要返回一個(gè)商品列表。虛擬顧客將決定是否單擊列表中的商品,類似于真實(shí)顧客。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

本次開源的虛擬天貓模型,用于推薦系統(tǒng)研究和加強(qiáng)學(xué)習(xí)研究(參見下邊的監(jiān)督學(xué)習(xí)和加強(qiáng)學(xué)習(xí)用例)。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

目前,我們提供V0模型(-v0),該模型是在中等規(guī)模的匿名天貓數(shù)據(jù)集進(jìn)行訓(xùn)練的。更小型的模型正式發(fā)布。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

安裝Fra物理好資源網(wǎng)(原物理ok網(wǎng))

pip?install?-e?.
Fra物理好資源網(wǎng)(原物理ok網(wǎng))

模擬環(huán)境Fra物理好資源網(wǎng)(原物理ok網(wǎng))

虛擬天貓模擬顧客、商品和推薦系統(tǒng)。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

系統(tǒng)和顧客之間的交互過程如下:Fra物理好資源網(wǎng)(原物理ok網(wǎng))

虛擬天貓采用顧客的特點(diǎn)向量,包括顧客描述和顧客查詢。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

系統(tǒng)依據(jù)整個(gè)商品集的查詢表單檢索一組相關(guān)的商品。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

系統(tǒng)使用一個(gè)模型來分配與商品屬性對(duì)應(yīng)的權(quán)重向量。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

系統(tǒng)估算每位商品的權(quán)重向量與商品屬性的乘積,并選擇值最高的前10個(gè)商品。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

選取的10個(gè)商品將發(fā)送給顧客。之后,顧客將選擇單擊個(gè)別項(xiàng)(CTR++),瀏覽下一頁,或離開平臺(tái)。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

在上述過程中,將訓(xùn)練步驟3中的模型。模型輸入顧客特點(diǎn),輸出27維權(quán)重向量。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

監(jiān)督學(xué)習(xí)的用法Fra物理好資源網(wǎng)(原物理ok網(wǎng))

數(shù)據(jù)集在:Fra物理好資源網(wǎng)(原物理ok網(wǎng))

virtualTB/SupervisedLearning/dataset.txt
Fra物理好資源網(wǎng)(原物理ok網(wǎng))

數(shù)據(jù)集的每一行都包含一個(gè)特點(diǎn)、標(biāo)簽和單擊次數(shù)的實(shí)例,由制表符分隔。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

為了從數(shù)據(jù)集訓(xùn)練模型,下邊的代碼使用進(jìn)行了演示Fra物理好資源網(wǎng)(原物理ok網(wǎng))

virtualTB/SupervisedLearning/main.py
Fra物理好資源網(wǎng)(原物理ok網(wǎng))

它包含從數(shù)據(jù)集加載、模型訓(xùn)練和模型測(cè)試的完整過程。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

加強(qiáng)學(xué)習(xí)的用法Fra物理好資源網(wǎng)(原物理ok網(wǎng))

下邊是一個(gè)使用作為加強(qiáng)學(xué)習(xí)環(huán)境的最簡(jiǎn)單示例。每一步都采樣一個(gè)隨機(jī)操作來執(zhí)行推薦。Fra物理好資源網(wǎng)(原物理ok網(wǎng))

import gymimport virtualTB
env = gym.make('VirtualTB-v0')print(env.action_space)print(env.observation_space)print(env.observation_space.low)print(env.observation_space.high)state = env.reset()while True: env.render() action = env.action_space.sample() state, reward, done, info = env.step(action) if done: breakenv.render()
Fra物理好資源網(wǎng)(原物理ok網(wǎng))

下邊是一個(gè)采用DDPG加強(qiáng)學(xué)習(xí)算法和的更完整的事例Fra物理好資源網(wǎng)(原物理ok網(wǎng))

virtualTB/ReinforcementLearning/main.py
Fra物理好資源網(wǎng)(原物理ok網(wǎng))

論文下載:Fra物理好資源網(wǎng)(原物理ok網(wǎng))

開源地址:Fra物理好資源網(wǎng)(原物理ok網(wǎng))

【加入社群】Fra物理好資源網(wǎng)(原物理ok網(wǎng))

發(fā)表評(píng)論

統(tǒng)計(jì)代碼放這里
主站蜘蛛池模板: 龙井市| 响水县| 西青区| 长武县| 华容县| 东乌珠穆沁旗| 离岛区| 大港区| 柏乡县| 肇庆市| 武城县| 彰化市| 乐清市| 石景山区| 莱阳市| 来宾市| 镇坪县| 尤溪县| 京山县| 十堰市| 韩城市| 平潭县| 谷城县| 合水县| 商城县| 巴彦县| 蒙山县| 汉阴县| 民权县| 榆林市| 天全县| 松阳县| 新津县| 白城市| 黔南| 金平| 河源市| 屏南县| 南丹县| 鸡泽县| 政和县|