首頁 > 資訊 > 科技 > 正文

快訊:玩躲貓貓游戲 AI學(xué)會攻防術(shù)

2019-09-19 11:50:23來源:科技日報

盡管機器學(xué)習(xí)在諸如圍棋和Dota 2等復(fù)雜游戲中取得了顯著進步,但在這些領(lǐng)域掌握的技能并不一定能推廣到真實場景中實際應(yīng)用。越來越多的研...

盡管機器學(xué)習(xí)在諸如圍棋和Dota 2等復(fù)雜游戲中取得了顯著進步,但在這些領(lǐng)域掌握的技能并不一定能推廣到真實場景中實際應(yīng)用。越來越多的研究人員正在尋求建立一種機器智能,使其行為、學(xué)習(xí)和進化更像人類。

總部位于舊金山的OpenAI公司近日發(fā)表的一篇新論文提出,在兒童的“躲貓貓”游戲中訓(xùn)練模型,并在數(shù)以千萬計的競賽中使它們相互對抗,可導(dǎo)致模型自動發(fā)展出類似人類的行為,從而提高智力并改善后續(xù)行動的性能。

為什么選擇躲貓貓?

該論文的第一作者、OpenAI研究員博文·貝克認為,躲貓貓被選為一個有趣的起點,主要是因為其規(guī)則很簡單。所有游戲中的代理(Agent,也稱智能體,指能自主活動的軟件或硬件實體)都被模擬為球形對象,可執(zhí)行3種類型的操作:導(dǎo)航、抓住并移動物體、鎖定對象,且只能由該代理的隊友解鎖。

研究人員在模擬的、物理接地的環(huán)境中放置了1—3個“躲藏者”和1—3個“尋找者”,房間的邊界是靜態(tài)墻。環(huán)境中還包括不同尺寸的可移動箱子和可移動坡道。

研究人員使用強化學(xué)習(xí)來訓(xùn)練游戲代理,并遵循簡單的躲貓貓規(guī)則:隱藏者成功躲過尋找者的追逐,或是尋找者成功找到躲藏者。

AI如何玩躲貓貓?

在經(jīng)過數(shù)億次的游戲后,AI代理經(jīng)歷了幾個階段的策略發(fā)展過程。

在初始階段,躲藏者(藍色)和尋找者(紅色)通過在空間中移動而不操縱任何物體,制定了非常粗糙的躲避和追逐策略。

在經(jīng)歷2500萬個回合后,游戲變得更加復(fù)雜。躲藏者學(xué)會了移動和鎖定在環(huán)境中的箱子和路障,以在自己周圍建立堡壘,這樣尋找者就永遠看不到它們了。不僅如此,他們還制定了協(xié)調(diào)戰(zhàn)略,例如相互傳遞物體,以加快建造堡壘的進程。

然而,在游戲進行了7500萬回合之后,尋找者發(fā)現(xiàn)了一個反策略。他們學(xué)會了在躲藏者的要塞旁邊移動一個坡道,并用它來爬過墻壁。

作為回應(yīng),躲藏者學(xué)會了將坡道移入他們的房間,因此尋找者無法用它來越過墻壁。

隨著環(huán)境變得越來越復(fù)雜,躲藏者學(xué)會了使用細長箱子建造更強大的“堡壘”。雖然OpenAI認為這將是最終的策略,但在游戲進行到3.8億回合時,尋找者再次成功反擊,找出一種方法來跳到一個盒子上并利用動力在它上面“沖浪”,越過墻壁進入堡壘。

在最后階段,躲藏者學(xué)會在建造堡壘之前鎖定所有箱子,以防止“箱子沖浪”。

研究人員將這些不同策略的演變稱為“來自多智能體自動課程的緊急技能進展”。“自動課程”這一術(shù)語是今年由DeepMind創(chuàng)造的,適用于多個代理逐漸創(chuàng)造新任務(wù)以在特定環(huán)境中相互挑戰(zhàn)。OpenAI的研究人員認為,這個過程在自然選擇方面具有相似之處。

這項研究為啥很重要?

鑒于躲貓貓相對簡單的目標,通過競爭性自我游戲訓(xùn)練的多個代理學(xué)會了使用工具,并采用人類相關(guān)技能來獲勝。OpenAI認為,這為未來的智能代理開發(fā)和部署提供了一個有前景的研究方向。OpenAI正在開源其代碼和環(huán)境,以鼓勵在該領(lǐng)域進一步研究。

OpenAI的最終目標是構(gòu)建能夠在一個通用系統(tǒng)中執(zhí)行多項任務(wù)的人工通用智能(AGI)。雖然可能會有不同的目標,但OpenAI正在大力投資由大規(guī)模計算能力實現(xiàn)的強化學(xué)習(xí)研究。OpenAI最近與微軟簽署了一份價值10億美元的為期10年的計算合同。

躲貓貓游戲研究也激發(fā)了OpenAI,因為隨著環(huán)境復(fù)雜性的增加,游戲中的代理不斷地通過新策略自我適應(yīng)新的挑戰(zhàn)。貝克表示:“如果擴展像這樣的流程,并將其放入更復(fù)雜的環(huán)境中,那么你可能會得到足夠復(fù)雜的代理,以便為我們解決實際任務(wù)。”

挑戰(zhàn)在哪里?

游戲代理有時會表現(xiàn)出令人驚訝的行為。例如,躲藏者試圖完全逃離游戲區(qū)域,直到研究人員對此施加懲罰。

其他挑戰(zhàn)可能歸因于模擬環(huán)境設(shè)計中的物理缺陷。例如,躲藏者了解到,如果他們在拐角處向墻壁推動斜坡,斜坡將由于某種原因穿過墻壁然后消失。這種“作弊”說明了算法的安全性如何在機器學(xué)習(xí)中發(fā)揮關(guān)鍵作用。研究人員說:“在它發(fā)生之前,你永遠不會知道。這類系統(tǒng)總是存在缺陷。我們所做的基本上是觀察,以便我們可以看到這種奇怪的事情發(fā)生,然后試著修復(fù)物理缺陷。”(馮衛(wèi)東)

責(zé)任編輯:孫知兵

免責(zé)聲明:本文僅代表作者個人觀點,與太平洋財富網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。
如有問題,請聯(lián)系我們!

主站蜘蛛池模板: 久久成人国产精品免费软件| 成人动漫综合网| 狠狠色伊人亚洲综合成人| 色老头成人免费视频天天综合| 久久久久AV综合网成人| 成人精品免费视频在线观看 | 久久久久久亚洲精品成人| 成人精品一区二区不卡视频| 国产成人a视频在线观看| 欧美成人aaa大片| 亚洲成人免费看| 国产成人涩涩涩视频在线观看| 成人黄色激情视频| 国产一级成人毛片| 成人午夜视频免费| a级成人毛片完整版| 国产成人亚洲精品无码青青草原| 日本成人免费网站| 亚洲成人在线电影| 国产成人精品久久免费动漫| 成人羞羞视频国产| 成人自拍视频网| 668溜溜吧成人影院| 亚洲色成人WWW永久网站| 国产成人精品永久免费视频| 成人a视频片在线观看免费| 香蕉久久久久久AV成人| 亚洲成人中文字幕| 国产成人久久精品| 国产成人无码精品久久久免费| 国产成人精品免费午夜app| 国产成人麻豆tv在线观看| 国产成人综合日韩精品无码| 国产成人精品视频午夜| 国产精品欧美成人| 成人免费看www网址入口| 最新国产成人ab网站| 成人欧美一区二区三区的电影 | 成人免费福利视频| 国产精品成人扳**a毛片| 国产精品成人久久久久久久|