歡迎光臨
我們一直在努力

更進一步! 谷歌的 AI 自己就能玩多人遊戲了

長按識別二維碼,報名2018十大突破技術全球直播首發,原定大年初一的直播解讀改期為2月21日16:00(大年初六)。

近日,據谷歌 DeepMind 團隊透露, 他們已經找到能夠迅速訓練深度學習網絡的新方法—— 那就是將先進的算法和老派視頻遊戲給整合起來。

DeepMind 是 AlphaGo 的研發團隊,他們相信機器能像人類一樣學習。 他們在ID Software公司的《雷神之鎚》(Quake III)和運行57款雅達利遊戲(Atari games)的街機模式學習環境(arcade learning environment,ALE)上搭建了DMLab-30訓練套裝,研發了 一款科幻級別的訓練系統,稱之為Importance Weighted Actor-Learner Architectures(IMPALA)。

通過 IMPALA,AI 系統快速播放一系列電子遊戲,並從一組“玩家”中提取訓練信息並傳遞給一組“學習者”。

一般說來,深度學習網絡的工作模式類似於在遊戲引擎間穿梭的獨立玩家的玩法。 開發者會告訴電腦,控制器輸入了哪些內容,而電腦則會像拿著手柄的人類一樣玩遊戲。

通過 IMPALA,系統不僅能比其他算法提高 10 倍效率,還能同時玩多個遊戲。 就像多名玩家(30名或以上)共用一個“博格”(borg)大腦,一起摸索《雷神之鎚》的玩法,共享所有經驗。

這是人類在DMLab-30測試環境中的表現:

這是機器使用IMPALA時的表現情況:

人工智能開發人員面臨的最大挑戰之一就是訓練神經網絡所需的時間和處理能力。 傳統編程要人匆匆敲出一連串代碼,最​​終才變成程序。 可是自主化機器(autonomous machines)不同,自主化機器需要規則,通過不斷的嘗試,最終發現處理現實世界的問題的方法。

由於我們並不能放任機器人執行任務時不受約束,模擬也便成為了其發展的首個重點。 因此,深度強化學習(deep reinforcement learning)對上下文自主性(contextual autonomy)的任務至關重要。

比方說,無人駕駛汽車平時加速或減速可以自行判斷,進行選擇,卻不能夠擁有是否要開進某家便利店的選項。 它要知道什麼樣的決策是它可以做的,什麼不可以,以及在模擬環境中又應如何進行決策。

IMPALA 解決的另一個問題是可擴展性。 調整算法和優化(tune things)以縮短訓練時間是一回事,但是要在一天結束時成功訓練人工智能又是另一回事,畢竟它靠的可不是時間記錄。

要想讓目前的神經網絡達到足夠高的成功率,從而對任何可能存在潛在危害或損害人類庫存的自主化機器進行編譯系統上的調整,他們需要處理訓練環境裡的數十億幀(圖片) 。

根據研究者的說法,“只要有足夠基於CPU的角色模型(actors),IMPALA就能達到250000 幀/秒或210 億幀/天。”這讓DeepMind 團隊的AI在執行這類任務時,可以達到 我們所了解的最快速度。

而更令人震驚的可能是IMPALA 白皮書的說法,它表示:AI 的性能要比以往的 AI 系統和人類更勝一籌。

-End-

編輯:梁嘉祺

來源:

https://thenextweb.com/artificial-intelligence/2018/02/08/deepmind-taught-ai-how-to-multitask-using-video-games/

未經允許不得轉載:頭條楓林網 » 更進一步! 谷歌的 AI 自己就能玩多人遊戲了