星際2職業(yè)高手首次被AI擊潰，AlphaStar一戰(zhàn)成名

2019-01-25 來源：網(wǎng)絡(luò)采編編輯：顏悅眉分類：星際爭霸2

5分36秒的戰(zhàn)斗后，LiquidMaNa打出：GG。Sg1中國電競網(wǎng)

DeepMind開發(fā)的全新AI程序AlphaStar，在今天凌晨的《星際爭霸2》人機(jī)大戰(zhàn)直播節(jié)目中，輕松戰(zhàn)勝2018 WCS Circuit排名13、神族最強(qiáng)10人之一的MaNa。Sg1中國電競網(wǎng)

實(shí)際上，AlphaStar以10-1的戰(zhàn)績，全面擊潰了人類職業(yè)高手。Sg1中國電競網(wǎng)

戰(zhàn)敗的不止MaNa，還有另一位高手TLO。Sg1中國電競網(wǎng)

人工智能在《星際爭霸2》上的進(jìn)步速度，遠(yuǎn)遠(yuǎn)超過了此前外界的預(yù)期。畢竟與下圍棋這件事相比，星際2要難得多。Sg1中國電競網(wǎng)

在圍棋世界，動作空間只有361種，而星際2大約是1026。Sg1中國電競網(wǎng)

與圍棋不同，星際玩家面對的是不完美信息博弈。“戰(zhàn)爭迷霧”意味著玩家的規(guī)劃、決策、行動，要一段時(shí)間后才能看到結(jié)果。Sg1中國電競網(wǎng)

這意味著，AI需要學(xué)到長遠(yuǎn)的布局謀篇的策略能力。Sg1中國電競網(wǎng)

即便如此，AlphaStar最終還是學(xué)會了如何打星際2。即便此次黃旭東保持克制、誰也沒奶，但既定的事實(shí)已經(jīng)無法更改。Sg1中國電競網(wǎng)

直播進(jìn)行到一半，就有網(wǎng)友在他的微博下留言：比國足輸伊朗還慘。Sg1中國電競網(wǎng)

盡管10戰(zhàn)連敗，人類職業(yè)高手仍然對人工智能不吝稱贊：不可思議。MaNa說，我從AI身上學(xué)到了很多。以及，今天最后一局MaNa也為人類爭取到了僅有的勝利！Sg1中國電競網(wǎng)

賽后，TLO的說法跟李世乭輸給AlphaGo后很像。他說：相信我，和AlphaStar比賽很難。不像和人在打，有種手足無措的感覺。他還說，每局比賽都是完全不一樣的套路。Sg1中國電競網(wǎng)

為什么AI這么強(qiáng)？別的先不展開講，這里只說一個(gè)點(diǎn)。其實(shí)在比賽之前，AlphaStar的訓(xùn)練量，相當(dāng)于打了200年實(shí)時(shí)對抗的星際2。Sg1中國電競網(wǎng)

總而言之，谷歌DeepMind歷時(shí)兩年，終于讓人工智能更進(jìn)一步，AlphaGo有了新的接班人AlphaStar。Sg1中國電競網(wǎng)

DeepMind CEO哈薩比斯說，AlphaStar的技術(shù)未來可用于預(yù)測天氣、氣候建模等需要very long sequences的應(yīng)用場景。Sg1中國電競網(wǎng)

一次里程碑意義的戰(zhàn)斗，落下帷幕。Sg1中國電競網(wǎng)

一次人類的新征程，正式開場。Sg1中國電競網(wǎng)

AlphaStar：10-1Sg1中國電競網(wǎng)

實(shí)際上，今天的人機(jī)大戰(zhàn)主要內(nèi)容并不是直播，而是回顧人機(jī)大戰(zhàn)的結(jié)果。簡單交待一下相關(guān)信息，比賽在Catalyst地圖上進(jìn)行，這張地圖中文名叫“匯龍島”。Sg1中國電競網(wǎng)

圖上設(shè)置了很多隘口和高地，網(wǎng)友說，這張圖群龍盤踞，大戰(zhàn)一觸即發(fā)，官方稱“能創(chuàng)造出許多有意思的進(jìn)攻路徑和防守陣形”。Sg1中國電競網(wǎng)

游戲版本是去年10月的4.6.2，雙方都使用神族（星靈）。Sg1中國電競網(wǎng)

第一場比賽，發(fā)生在去年12月12日。Sg1中國電競網(wǎng)

AlphaStar對TLO。Sg1中國電競網(wǎng)

第一局人類選手TLO開局兩分鐘后就率先發(fā)難，不過AlphaStar扛下來，并且逐漸扭轉(zhuǎn)了戰(zhàn)局，迅速累積起資源優(yōu)勢。Sg1中國電競網(wǎng)

5分鐘左右，AlphaStar以追獵者為主要作戰(zhàn)單位，開始向TLO發(fā)起試探性的攻擊。并且在隨后的時(shí)間里，持續(xù)對TLO展開騷擾，直至取勝。Sg1中國電競網(wǎng)

DeepMind介紹，比賽中，實(shí)際上AlphaGo的APM比TLO要低。AlphaStar的APM中值是277，而TLO的APM中值是390。而大部分其他bot的APM，都高達(dá)幾千甚至數(shù)萬。Sg1中國電競網(wǎng)

前三局基本都是這樣。TLO說第四局就像換了個(gè)AI一樣，打法完全變了，很接近典型神族打法。Sg1中國電競網(wǎng)

當(dāng)然，他又輸了。這個(gè)感覺沒錯，其實(shí)他每次對陣的AI都不一樣……Sg1中國電競網(wǎng)

最后的結(jié)果是0-5，TLO一局沒贏。不過他說：如果我多練練神族，我能輕易打敗這些AI。畢竟TLO這些年一直主要在練蟲族。Sg1中國電競網(wǎng)

五局比賽打完，DeepMind團(tuán)隊(duì)為了慶祝喝了點(diǎn)酒，產(chǎn)生了一個(gè)大膽的想法：Sg1中國電競網(wǎng)

再訓(xùn)練訓(xùn)練，和玩神族的職業(yè)選手打一場。Sg1中國電競網(wǎng)

于是，快到圣誕節(jié)的時(shí)候，他們請來了Liquid的神族選手MaNa。Sg1中國電競網(wǎng)

第二場比賽，發(fā)生在去年12月19日。Sg1中國電競網(wǎng)

據(jù)說，MaNa五歲就開始打星際了。Sg1中國電競網(wǎng)

在對戰(zhàn)MaNa之前，AlphaStar又訓(xùn)練了一個(gè)星期。雙方展開較量之前，MaNa只知道TLO輸了，不知道是5-0，而且，明顯沒有TLO上次來那么緊張。Sg1中國電競網(wǎng)

面對神族最強(qiáng)10人之一，DeepMind認(rèn)為比賽會很精彩，但對勝利沒什么自信。Sg1中國電競網(wǎng)

雙方第一局對決，AlphaStar在地圖的左上角，MaNa在右下。4分鐘，AlphaStar派出一隊(duì)追獵者，開始進(jìn)攻�；旧纤闶且徊ň屯屏薓aNa。Sg1中國電競網(wǎng)

正如開始所說，5分36秒，MaNa打出GG。Sg1中國電競網(wǎng)

然后第二局也輸了。這時(shí)候MaNa緊張起來，第三局決心翻盤。7分30秒，AlphaStar出動了一支大軍打到MaNa家，MaNa GG。Sg1中國電競網(wǎng)

最精彩的是第四局，MaNa的操作讓現(xiàn)場解說嘆為觀止，他自己賽后也坦言”真是盡力了“。但最后，他的高科技軍團(tuán)在一群追獵者的360度包圍下，全滅。MaNa打出了GG。Sg1中國電競網(wǎng)

而且，AlphaStar完成360度包圍這一高難度操作時(shí)，APM只有250左右。Sg1中國電競網(wǎng)

第四局全程：Sg1中國電競網(wǎng)

需要說明的是，其實(shí)在這局比賽中，AlphaStar的APM幾乎已經(jīng)失控，幾度飆到1000多。量子位抓到了一些這樣的瞬間。Sg1中國電競網(wǎng)

MaNa說，輸了好失望，我能出的單位都出了，最后輸給了一群追獵者？他還說，AlphaStar的微操太厲害了。incredible。跟AI學(xué)東西，這種經(jīng)歷挺好。Sg1中國電競網(wǎng)

人類扳回一城Sg1中國電競網(wǎng)

今天的直播的最后，是現(xiàn)場的表演局（Exhibition game），直播MaNa對戰(zhàn)AlphaStar。Sg1中國電競網(wǎng)

在這場比賽中，MaNa采用了一種更激進(jìn)的打法，一開局就造了更多的農(nóng)民（探機(jī)），這說不定是上個(gè)月剛剛跟AlphaStar學(xué)來的戰(zhàn)術(shù)。Sg1中國電競網(wǎng)

12分鐘后，MaNa一路拆掉AlphaStar的各種建筑，擊敗了無法打出GG的AlphaStar。Sg1中國電競網(wǎng)

總算是幫人類挽回一些顏面。Sg1中國電競網(wǎng)

這場比賽，全程在此：Sg1中國電競網(wǎng)

另外DeepMind也放出了全部11局對決的視頻，有興趣可以前往這個(gè)地址查看：Sg1中國電競網(wǎng)

https://deepmind.com/research/alphastar-resources/Sg1中國電競網(wǎng)

之前的10局比賽，DeepMind還拍成了一個(gè)紀(jì)錄片。Sg1中國電競網(wǎng)

解讀AlphaStarSg1中國電競網(wǎng)

DeepMind和暴雪周三發(fā)出預(yù)告后，熱情的網(wǎng)友們就已經(jīng)把各種可能的技術(shù)方案猜了一遍。Sg1中國電競網(wǎng)

現(xiàn)在答案揭曉：Sg1中國電競網(wǎng)

AlphaStar學(xué)會打星際，全靠深度神經(jīng)網(wǎng)絡(luò)，這個(gè)網(wǎng)絡(luò)從原始游戲界面接收數(shù)據(jù) (輸入) ，然后輸出一系列指令，組成游戲中的某一個(gè)動作。Sg1中國電競網(wǎng)

再說得具體一些，神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對星際里的那些單位，應(yīng)用一個(gè)Transformer，再結(jié)合一個(gè)深度LSTM核心，一個(gè)自動回歸策略 (在頭部) ，以及一個(gè)集中值基線 (Centralised Value Baseline)。Sg1中國電競網(wǎng)

DeepMind團(tuán)隊(duì)相信，這個(gè)進(jìn)化了的模型，可以為許多其他機(jī)器學(xué)習(xí)領(lǐng)域的難題帶來幫助：主要針對那些涉及長期序列建模、輸出空間很大的問題，比如語言建模和視覺表示。Sg1中國電競網(wǎng)

AlphaStar還用了一個(gè)新的多智能體學(xué)習(xí)算法。Sg1中國電競網(wǎng)

這個(gè)神經(jīng)網(wǎng)絡(luò)，經(jīng)過了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的訓(xùn)練。Sg1中國電競網(wǎng)

最開始，訓(xùn)練用的是監(jiān)督學(xué)習(xí)，素材來自暴雪發(fā)布的匿名人類玩家的游戲?qū)崨r。Sg1中國電競網(wǎng)

這些資料可以讓AlphaStar通過模仿星際天梯選手的操作，來學(xué)習(xí)游戲的宏觀和微觀策略。Sg1中國電競網(wǎng)

最初的智能體，游戲內(nèi)置的精英級 (Elite) AI就能擊敗，相當(dāng)于人類的黃金段位 (95%) 。Sg1中國電競網(wǎng)

而這個(gè)早期的智能體，就是強(qiáng)化學(xué)習(xí)的種子。Sg1中國電競網(wǎng)

在它的基礎(chǔ)之上，一個(gè)連續(xù)聯(lián)賽 (Continuous League) 被創(chuàng)建出來，相當(dāng)于為智能體準(zhǔn)備了一個(gè)競技場，里面的智能體互為競爭對手，就好像人類在天梯上互相較量一樣：Sg1中國電競網(wǎng)

從現(xiàn)有的智能體上造出新的分支，就會有越來越多的選手不斷加入比賽。新的智能體再從與對手的競爭中學(xué)習(xí)。Sg1中國電競網(wǎng)

這種新的訓(xùn)練形式，是把從前基于種群 (Population-Based) 的強(qiáng)化學(xué)習(xí)思路又深化了一些，制造出一種可以對巨大的策略空間進(jìn)行持續(xù)探索的過程。Sg1中國電競網(wǎng)

這個(gè)方法，在保證智能體在策略強(qiáng)大的對手面前表現(xiàn)優(yōu)秀的同時(shí)，也不忘怎樣應(yīng)對不那么強(qiáng)大的早期對手。Sg1中國電競網(wǎng)

隨著智能體聯(lián)賽不斷進(jìn)行，新智能體的出生，就會出現(xiàn)新的反擊策略 (Counter Strategies) ，來應(yīng)對早期的游戲策略。Sg1中國電競網(wǎng)

一部分新智能體執(zhí)行的策略，只是早期策略稍稍改進(jìn)后的版本；而另一部分智能體，可以探索出全新的策略，完全不同的建造順序，完全不同的單位組合，完全不同的微觀微操方法。Sg1中國電競網(wǎng)

早期的聯(lián)賽里，一些俗氣的策略很受歡迎，比如用光子炮和暗黑圣堂武士快速rush。Sg1中國電競網(wǎng)

這些風(fēng)險(xiǎn)很高的策略，在訓(xùn)練過程中就被逐漸拋棄了。同時(shí)，智能體會學(xué)到一些新策略；比如通過增加工人來增加經(jīng)濟(jì)，或者犧牲兩個(gè)先知來來破壞對方的經(jīng)濟(jì)。Sg1中國電競網(wǎng)

這個(gè)過程就像人類選手，從星際爭霸誕生的那年起，不斷學(xué)到新的策略，摒棄舊的策略，直到如今。Sg1中國電競網(wǎng)

除此之外，要鼓勵聯(lián)賽中智能體的多樣性，所以每個(gè)智能體都有不同的學(xué)習(xí)目標(biāo)：比如一個(gè)智能體的目標(biāo)應(yīng)該設(shè)定成打擊哪些對手，比如該用哪些內(nèi)部動機(jī)來影響一個(gè)智能體的偏好。Sg1中國電競網(wǎng)

而且，智能體的學(xué)習(xí)目標(biāo)會適應(yīng)環(huán)境不斷改變。Sg1中國電競網(wǎng)

神經(jīng)網(wǎng)絡(luò)給每一個(gè)智能體的權(quán)重，也是隨著強(qiáng)化學(xué)習(xí)過程不斷變化的。而不斷變化的權(quán)重，就是學(xué)習(xí)目標(biāo)演化的依據(jù)。Sg1中國電競網(wǎng)

權(quán)重更新的規(guī)則，是一個(gè)新的off-policy演員評論家強(qiáng)化學(xué)習(xí)算法，里面包含了經(jīng)驗(yàn)重播 (Experience Replay) ，自我模仿學(xué)習(xí) (Self-Imitation Learning) 以及策略蒸餾 (Policy Distillation) 等等機(jī)制。Sg1中國電競網(wǎng)

為了訓(xùn)練AlphaStar，DeepMind用谷歌三代TPU搭建了一個(gè)高度可擴(kuò)展的分布式訓(xùn)練環(huán)境，支持許多個(gè)智能體一起從幾千個(gè)星際2的并行實(shí)例中學(xué)習(xí)。每個(gè)智能體用了16個(gè)TPU。Sg1中國電競網(wǎng)

智能體聯(lián)賽進(jìn)行了14天，這相當(dāng)于讓每一個(gè)智能體都經(jīng)歷了連打200年游戲的訓(xùn)練時(shí)間。Sg1中國電競網(wǎng)

最終的AlphaStar智能體，是聯(lián)賽中所有智能體的策略最有效的融合，并且只要一臺普通的臺式機(jī)，一塊普通的GPU就能跑。Sg1中國電競網(wǎng)

AlphaStar打游戲的時(shí)候，在看什么、想什么？Sg1中國電競網(wǎng)

上圖，就是DeepMind展示的AI打游戲過程。Sg1中國電競網(wǎng)

原始的觀察里數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)之中，產(chǎn)生一些內(nèi)部激活，這些激活會轉(zhuǎn)化成初步的決策：該做哪些操作、點(diǎn)擊什么位置、在哪建造建筑等等。另外，神經(jīng)網(wǎng)絡(luò)還會預(yù)測各種操作會導(dǎo)致的結(jié)果。Sg1中國電競網(wǎng)

AlphaStar看到的游戲界面，和我們打游戲時(shí)看到的小地圖差不多：一個(gè)小型完整地圖，能看到自己在地圖上的所有單位、以及敵方所有可見單位。Sg1中國電競網(wǎng)

這和人類相比有一點(diǎn)點(diǎn)優(yōu)勢。人類在打游戲的時(shí)候，要明確地合理分配注意力，來決定到底要看哪一片區(qū)域。Sg1中國電競網(wǎng)

不過，DeepMind對AlphaStar游戲數(shù)據(jù)的分析顯示，它觀察地圖時(shí)也有類似于人類的注意力切換，會平均每分鐘切換30詞左右關(guān)注的區(qū)域。Sg1中國電競網(wǎng)

這，是12月打的10場游戲的情況。Sg1中國電競網(wǎng)

今天直播中和MaNa對戰(zhàn)的AI，就略有不同。Sg1中國電競網(wǎng)

連勝之后，DeepMind團(tuán)隊(duì)總會有大膽的想法冒出來——他們迭代了第二版AlphaStar，這一版和人類觀察地圖的方式是一樣的，也要不停選擇將視野切換到哪，只能看到屏幕上視野范圍內(nèi)的信息，而且只能在這個(gè)范圍內(nèi)操作。Sg1中國電競網(wǎng)

視野切換版AlphaStar經(jīng)過7天訓(xùn)練，達(dá)到了和第一版差不多的水平。Sg1中國電競網(wǎng)

不過，這個(gè)版本的智能體原型還是在今天的直播中輸給了MaNa，成為了10-1里的1。Sg1中國電競網(wǎng)

DeepMind對他們的AI仍然充滿信心，他們在博客中說，這個(gè)智能體只訓(xùn)練了7天，希望能在不久的將來，能測試一個(gè)完全訓(xùn)練好了的視野版智能體。Sg1中國電競網(wǎng)

現(xiàn)在，AlphaStar還只能玩神族。DeepMind說，他們?yōu)榱嗽趦?nèi)部測試中減少訓(xùn)練時(shí)間和變量，決定先只玩一個(gè)種族。Sg1中國電競網(wǎng)

不過，這不代表它就學(xué)不會其他種族。同樣的訓(xùn)練流程，換個(gè)種族還是一樣用。Sg1中國電競網(wǎng)

星際界的樊麾和帶路黨Sg1中國電競網(wǎng)

這次人機(jī)大戰(zhàn)背后，有很多人的努力，我們這次重點(diǎn)介紹三個(gè)人。Sg1中國電競網(wǎng)

首先是AlphaStar的兩個(gè)人類對手。Sg1中國電競網(wǎng)

TLO是一位德國職業(yè)星際2選手，原名Dario Wünsch，1990年7月13日出生�，F(xiàn)在效力于職業(yè)游戲戰(zhàn)隊(duì)Liquid。Sg1中國電競網(wǎng)

之前TLO有個(gè)稱號：隨機(jī)天王。星際2的公測階段，他使用哪個(gè)種族都得心應(yīng)手，不過后來，TLO開始逐漸專攻于蟲族。Sg1中國電競網(wǎng)

根據(jù)官方公布的數(shù)據(jù)，TLO在2018 WCS Circuit排名：44。Sg1中國電競網(wǎng)

國內(nèi)關(guān)于TLO的資料，不少都是幾年前的對戰(zhàn)，現(xiàn)在TLO應(yīng)該已經(jīng)在自己職業(yè)生涯的末期，可以算是一位久經(jīng)沙場的老將。Sg1中國電競網(wǎng)

MaNa是一位出生于波蘭的職業(yè)星際2選手，原名Grzegorz Komincz，1993年12月14日出生，目前也效力于Liquid。Sg1中國電競網(wǎng)

與TLO相比，MaNa是一個(gè)正值當(dāng)打之年的選手。Sg1中國電競網(wǎng)

而且，他更擅長的是神族。盡管他打出GG的速度更快……Sg1中國電競網(wǎng)

MaNa去年獲得WCS Austin的第二名。根據(jù)官方公布的數(shù)據(jù)，他在2018 WCS Circuit排名：13。Sg1中國電競網(wǎng)

MaNa和TLO和AlphaStar的對戰(zhàn)，發(fā)生在去年12月。地點(diǎn)在倫敦，就是DeepMind的總部。這不禁讓人想起當(dāng)年AlphaGo的故事。Sg1中國電競網(wǎng)

AlphaGo名不見經(jīng)傳時(shí)，也是悄悄把樊麾請到了倫敦，然后把樊麾殺得有點(diǎn)懷疑“棋”生。然后開始向全世界公布突破性的進(jìn)展。Sg1中國電競網(wǎng)

TLO和MaNa，應(yīng)該就是星際2界的樊麾了吧。Sg1中國電競網(wǎng)

第三個(gè)是AlphaStar的教父：Oriol Vinyals。Sg1中國電競網(wǎng)

他是DeepMind星際2項(xiàng)目的核心負(fù)責(zé)人。我們在此前的報(bào)道里介紹過他。1990年代，十幾歲的Oriol Vinyals成了西班牙《星際爭霸》全國冠軍。Sg1中國電競網(wǎng)

他之所以玩這款科幻策略游戲，是因?yàn)楸绕渌虼驓⒌挠螒蚋枰獎幽X子。維紐斯說：“沒上大學(xué)之前，這款游戲就讓我在生活中懷有更強(qiáng)的戰(zhàn)略思維。”Sg1中國電競網(wǎng)

Vinyals的戰(zhàn)略思維的確獲得了回報(bào)：在巴塞羅那學(xué)習(xí)了電信工程和數(shù)學(xué)之后，維紐斯去過微軟研究院實(shí)習(xí)，獲得了加州大學(xué)伯克利的計(jì)算機(jī)博士學(xué)位，接著加入谷歌大腦團(tuán)隊(duì)，開始從事人工智能開發(fā)工作，然后又轉(zhuǎn)入谷歌旗下DeepMind團(tuán)隊(duì)。Sg1中國電競網(wǎng)

他又跟“星際爭霸”打起了交道。Sg1中國電競網(wǎng)

但這一次不是他親自玩，而是教給機(jī)器人怎么玩。在人工智能成為全球最優(yōu)秀的圍棋選手后，星際成為了下一個(gè)攻克目標(biāo)。Sg1中國電競網(wǎng)

AI打星際的意義Sg1中國電競網(wǎng)

早在2003年人類就開始嘗試用AI解決即時(shí)戰(zhàn)略（RTS）游戲問題。那時(shí)候AI還連圍棋問題還沒有解決，而RTS比圍棋還要復(fù)雜。Sg1中國電競網(wǎng)