亚洲成Av人片在线观看不卡|中文字幕在线精品无码一区|国产精品福利午夜h视频|手机看片AV永久免费,91天堂在线视频,最新2021年偷拍精品视频,国产成人一区二区在线视频

您當(dāng)前的位置 :寧夏資訊網(wǎng) > 消費(fèi) >  內(nèi)容正文
投稿

Google發(fā)布“多巴胺”開(kāi)源強(qiáng)化學(xué)習(xí)框架,三大特性全滿足

寧夏資訊網(wǎng) 2020-10-18 15:18:05 來(lái)源: 閱讀:-

增強(qiáng)學(xué)習(xí)是一種十分關(guān)鍵 AI 技術(shù)性,它能應(yīng)用獎(jiǎng)賞(或處罰)來(lái)驅(qū)動(dòng)器智能體(agents)向著特殊總體目標(biāo)前行,例如它訓(xùn)煉的 AI 系統(tǒng)軟件 AlphaGo 戰(zhàn)勝了頂級(jí)中國(guó)圍棋參賽選手,它也是 DeepMind 的深層 Q 互聯(lián)網(wǎng)(DQN)的關(guān)鍵一部分,它能夠在好幾個(gè) workers 中間逐層學(xué)習(xí)培訓(xùn),比如,在 Atari 2600 游戲里面完成“超人2”特性。

Google公布“膽堿”開(kāi)源系統(tǒng)增強(qiáng)學(xué)習(xí)架構(gòu),三大特點(diǎn)全考慮

不便的是,增強(qiáng)學(xué)習(xí)架構(gòu)必須花銷很多時(shí)間來(lái)把握一個(gè)總體目標(biāo),并且架構(gòu)通常不是靈便和不一直平穩(wěn)的。

但不必?fù)?dān)心,Google 前不久公布了一個(gè)取代計(jì)劃方案:根據(jù) TensorFlow 的開(kāi)源系統(tǒng)增強(qiáng)學(xué)習(xí)架構(gòu) Dopamine(膽堿)。

Google 的博聞中提及,這一根據(jù) Tensorflow 的增強(qiáng)學(xué)習(xí)架構(gòu),致力于為 RL 的科學(xué)研究工作人員出示協(xié)調(diào)能力,可靠性和精確性的科學(xué)研究。遭受人的大腦中獎(jiǎng)賞主觀因素個(gè)人行為的主要成分的啟迪,及其體現(xiàn)認(rèn)知科學(xué)與增強(qiáng)學(xué)習(xí)科學(xué)研究中間明顯的歷史時(shí)間聯(lián)絡(luò),該服務(wù)平臺(tái)致力于完成可促進(jìn)激進(jìn)派發(fā)覺(jué)的明辨科學(xué)研究(speculative research)。此版本號(hào)還包含一組表明怎么使用全部架構(gòu)的 colabs。

除開(kāi)增強(qiáng)學(xué)習(xí)架構(gòu)的公布,Google還發(fā)布了一個(gè)網(wǎng)站(https://google.github.io/dopamine/baselines/plots.html),容許開(kāi)發(fā)者迅速數(shù)據(jù)可視化好幾個(gè)智能體的訓(xùn)煉運(yùn)作狀況。她們期待,這一架構(gòu)的協(xié)調(diào)能力和便捷性將使科學(xué)研究工作人員能積極主動(dòng)試著新的念頭,無(wú)論是漸進(jìn)性還是激進(jìn)派式的念頭。


下列為 Google blog詳盡內(nèi)容:

引進(jìn)靈便和可反復(fù)的增強(qiáng)學(xué)習(xí)科學(xué)研究的新架構(gòu)

增強(qiáng)學(xué)習(xí)(RL)科學(xué)研究過(guò)去兩年中獲得了很多重大突破。這種發(fā)展促使智能體能夠以超人們級(jí)別的工作能力打游戲。例如 Atari 游戲里面 DeepMind 的 DQN ,AlphaGo ,AlphaGo Zero 及其 Open AI Five。

實(shí)際來(lái)講,在 DQN 中引進(jìn) replay memories 能夠運(yùn)用之前的智能體工作經(jīng)驗(yàn),規(guī)模性的分布式系統(tǒng)訓(xùn)煉能夠在好幾個(gè) workers 中間分派學(xué)習(xí)過(guò)程,分布式系統(tǒng)方式 容許智能體仿真模擬詳細(xì)的遍布全過(guò)程,而不僅是仿真模擬他們期待值,以學(xué)習(xí)培訓(xùn)更詳細(xì)的景象。這類種類的進(jìn)度很重要,由于出現(xiàn)這種發(fā)展的優(yōu)化算法還適用別的行業(yè),比如自動(dòng)化技術(shù)。

一般 ,這類發(fā)展都來(lái)自于快速迭代設(shè)計(jì)方案(一般 沒(méi)有確立的方位),及其顛復(fù)明確方式 的構(gòu)造。殊不知,大部分目前的 RL 架構(gòu)并沒(méi)有融合協(xié)調(diào)能力和可靠性及其使科學(xué)研究工作人員可以合理地迭代更新 RL 方式 ,并因而探尋很有可能沒(méi)有立即顯著好處的新研究?jī)?nèi)容。除此之外,從目前架構(gòu)重現(xiàn)結(jié)果一般 太用時(shí),這很有可能造成科學(xué)研究的重現(xiàn)性的問(wèn)題。

今日,大家發(fā)布了一個(gè)新的根據(jù) Tensorflow 的架構(gòu),致力于為 RL 的科學(xué)研究工作人員出示協(xié)調(diào)能力、可靠性和精確性。遭受人的大腦中獎(jiǎng)賞主觀因素個(gè)人行為的主要成分的啟迪,及其體現(xiàn)認(rèn)知科學(xué)與增強(qiáng)學(xué)習(xí)科學(xué)研究中間明顯的歷史時(shí)間聯(lián)絡(luò),該服務(wù)平臺(tái)致力于完成可促進(jìn)激進(jìn)派發(fā)覺(jué)的明辨科學(xué)研究(speculative research)。此版本號(hào)還包含一組表明怎么使用全部架構(gòu)的 colabs。


便捷性

清楚和簡(jiǎn)約是該架構(gòu)設(shè)計(jì)方案時(shí)要考慮到的2個(gè)首要條件。大家出示更精減的編碼(大概 15 個(gè)Python 文檔),而且有詳盡紀(jì)錄。它是根據(jù)致力于 Arcade 學(xué)習(xí)環(huán)境(一個(gè)完善的,便于了解的標(biāo)準(zhǔn))和四個(gè)根據(jù) value 的智能體來(lái)完成的:DQN,C51,一個(gè)精心安排的 Rainbow 智能體的簡(jiǎn)單化版本號(hào),及其隱式分位數(shù)互聯(lián)網(wǎng)(Implicit Quantile Network)智能體,這已在上月的 ICML 交流會(huì)上早已發(fā)布。大家期待這類形象性使科學(xué)研究工作人員可以輕輕松松掌握智能體內(nèi)部的運(yùn)行情況,并積極主動(dòng)試著新的念頭。


精確性

大家對(duì)可重復(fù)性在增強(qiáng)學(xué)習(xí)科學(xué)研究中的必要性尤其比較敏感。因此,大家為編碼出示詳細(xì)的檢測(cè)普及率,這種檢測(cè)也可做為別的文本文檔方式。除此之外,大家的試驗(yàn)架構(gòu)遵照 Machado 等得出的有關(guān)應(yīng)用 Arcade 學(xué)習(xí)環(huán)境規(guī)范化工作經(jīng)驗(yàn)評(píng)定的提議。


標(biāo)準(zhǔn)檢測(cè)

針對(duì)新的科學(xué)研究工作人員而言,可以依據(jù)明確方式 迅速對(duì)其念頭開(kāi)展標(biāo)準(zhǔn)檢測(cè)十分關(guān)鍵。因而,大家為 Arcade 學(xué)習(xí)環(huán)境適用的 60 個(gè)手機(jī)游戲出示四個(gè)智能體的詳細(xì)學(xué)習(xí)培訓(xùn)數(shù)據(jù)信息,可作為 Python pickle 文檔(用以應(yīng)用大家架構(gòu)訓(xùn)煉的智能體)和 JSON 數(shù)據(jù)庫(kù)文件(用以與受到別的架構(gòu)訓(xùn)煉的智能體開(kāi)展較為);大家還出示了一個(gè)網(wǎng)站,你能在這其中迅速查詢 60 個(gè)游戲里面全部智能體的訓(xùn)煉運(yùn)作狀況。

下邊展現(xiàn)我們?cè)?Seaquest 上的 4 個(gè)代理商的訓(xùn)煉狀況,它是由 Arcade 學(xué)習(xí)環(huán)境適用的一種 Atari 2600 手機(jī)游戲。

Google公布“膽堿”開(kāi)源系統(tǒng)增強(qiáng)學(xué)習(xí)架構(gòu),三大特點(diǎn)全考慮

在 Seaquest 上的 4 名智能體報(bào)名參加了訓(xùn)煉。x 軸表明迭代更新,在其中每一次迭代更新是 100 萬(wàn)只手機(jī)游戲幀(4.5 鐘頭的即時(shí)手機(jī)游戲);y 軸是每輪賽事得到的均值成績(jī)。黑影地區(qū)顯示信息的是來(lái)源于 5 次單獨(dú)運(yùn)作的置信區(qū)間。

大家還出示早已訓(xùn)煉好的深層互聯(lián)網(wǎng),初始統(tǒng)計(jì)分析系統(tǒng)日志及其用 Tensorboard 制圖的 Tensorflow 惡性事件文檔。這種都能夠在網(wǎng)址的免費(fèi)下載一部分尋找。

期待大家架構(gòu)的協(xié)調(diào)能力和便捷性將使科學(xué)研究工作人員敢于嘗試新的念頭,包含漸進(jìn)性和激進(jìn)派式的念頭。大家早已積極地將它用以大家的科學(xué)研究,并發(fā)覺(jué)它可以靈便且快速迭代很多念頭。大家很高興能夠?yàn)楦蟮男^(qū)做些奉獻(xiàn)。成都市加米谷大數(shù)據(jù)培訓(xùn)組織 ,致力于互聯(lián)網(wǎng)大數(shù)據(jù)人才的培養(yǎng),國(guó)慶中秋中秋國(guó)慶報(bào)考學(xué)習(xí)培訓(xùn)java開(kāi)發(fā)、數(shù)據(jù)統(tǒng)計(jì)分析與發(fā)掘優(yōu)惠,詳細(xì)信息見(jiàn)加米谷互聯(lián)網(wǎng)大數(shù)據(jù)頭條號(hào)。

(正文已結(jié)束)

推薦閱讀:中部網(wǎng)

免責(zé)聲明及提醒:此文內(nèi)容為本網(wǎng)所轉(zhuǎn)載企業(yè)宣傳資訊,該相關(guān)信息僅為宣傳及傳遞更多信息之目的,不代表本網(wǎng)站觀點(diǎn),文章真實(shí)性請(qǐng)瀏覽者慎重核實(shí)!任何投資加盟均有風(fēng)險(xiǎn),提醒廣大民眾投資需謹(jǐn)慎!

網(wǎng)站簡(jiǎn)介 - 聯(lián)系我們 - 營(yíng)銷服務(wù) - XML地圖 - 版權(quán)聲明 - 網(wǎng)站地圖TXT
Copyright.2002-2019 寧夏資訊網(wǎng) 版權(quán)所有 本網(wǎng)拒絕一切非法行為 歡迎監(jiān)督舉報(bào) 如有錯(cuò)誤信息 歡迎糾正