QQ在線(xiàn)客服

微軟麻將 AI 論文發(fā)布,首次公開(kāi)技術(shù)細(xì)節(jié)

2020-04-03 11:55 來(lái)源: 站長(zhǎng)資源平臺(tái) 編輯: 佚名 瀏覽(378)人   

編者按:本文來(lái)自微信公眾號(hào)“HyperAI超神經(jīng)”(ID:HyperAI),作者:神經(jīng)小兮,36氪經(jīng)授權(quán)發(fā)布。

場(chǎng)景描述:還記得去年 8 月微軟發(fā)布的「雀神AI」Suphx 嗎?今天,該研究團(tuán)隊(duì)在 arXiv 上發(fā)布了更新版的論文,進(jìn)一步介紹了 Suphx 背后的技術(shù)。

關(guān)鍵詞:麻將 AI,Suphx,卷積神經(jīng)網(wǎng)絡(luò)

2019 年 8 月 29 日,微軟發(fā)布了一個(gè)名為 Suphx(超級(jí)鳳凰)的「麻將 AI」,在專(zhuān)業(yè)的麻將競(jìng)技平臺(tái)上,Suphx 的實(shí)力勝過(guò)了頂級(jí)人類(lèi)選手的平均水平。

當(dāng)時(shí)一經(jīng)發(fā)布,Suphx便引起了廣泛的關(guān)注,不僅是人工智能領(lǐng)域,不少麻將愛(ài)好者也都趕來(lái)圍觀(guān)討論。(可點(diǎn)擊此文回顧《一家胡三家的人工智能來(lái)了》)

微軟麻將 AI 論文發(fā)布,首次公開(kāi)技術(shù)細(xì)節(jié)

麻將的信息集數(shù)目和信息集平均大小

超過(guò)了橋牌、德?lián)浜蛧?/p>

人們?cè)u(píng)價(jià)該系統(tǒng)比戰(zhàn)勝了職業(yè)圍棋手的AlphaGo 更復(fù)雜,被譽(yù)為「最強(qiáng)日麻人工智能」。

今天,該系統(tǒng)的研發(fā)團(tuán)隊(duì)在 arXiv 上發(fā)表了論文《Suphx: Mastering Mahjong with Deep Reinforcement Learning》(《Suphx:掌握麻將與深度強(qiáng)化學(xué)習(xí)》),更深一步地講解了 Suphx 背后的技術(shù)。

微軟麻將 AI 論文發(fā)布,首次公開(kāi)技術(shù)細(xì)節(jié)

《Suphx:掌握麻將與深度強(qiáng)化學(xué)習(xí)》

論文地址:https://arxiv.org/pdf/2003.13590.pdf

Suphx 愈戰(zhàn)愈勇:已超越 99.99% 玩家

此前我們已經(jīng)介紹過(guò),Suphx 系統(tǒng)利用深度強(qiáng)化學(xué)習(xí),從 5000 場(chǎng)比賽中學(xué)習(xí)、吸取經(jīng)驗(yàn)之后,在日本專(zhuān)業(yè)的麻將競(jìng)技平臺(tái)「天鳳」上擊敗了眾多麻將玩家,取得平臺(tái)「特上房」的最高段位十段。

微軟麻將 AI 論文發(fā)布,首次公開(kāi)技術(shù)細(xì)節(jié)

Suphx在天鳳平臺(tái)的段位,遠(yuǎn)高于其它麻將 AI

這樣一個(gè)強(qiáng)悍的麻將 AI,究竟是如何打造的?來(lái)自微軟亞洲研究院、京都大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)、清華大學(xué)以及南開(kāi)大學(xué)的研究團(tuán)隊(duì),在最新版的論文中,進(jìn)行了深入的介紹。

從論文中,我們也得知,Suphx 在進(jìn)一步的學(xué)習(xí)下,水平也更進(jìn)一步。在擁有超過(guò) 35 萬(wàn)位玩家的「天鳳」平臺(tái)上,被官方評(píng)為水平超越 99.99% 以上玩家,這是計(jì)算機(jī)程序首次超過(guò)麻將中大多數(shù)頂級(jí)人類(lèi)玩家。

五大模型與強(qiáng)化學(xué)習(xí),造就雀神 AI

Suphx 包含一系列卷積神經(jīng)網(wǎng)絡(luò),它學(xué)習(xí)了五種模型來(lái)處理不同的場(chǎng)景,包括 discard(丟棄模型)、Riichi 模型、chow 模型、Pong 模型和 Kong 模型。

微軟麻將 AI 論文發(fā)布,首次公開(kāi)技術(shù)細(xì)節(jié)

discard 模型(上)與其它四個(gè)模型的架構(gòu)(下)

在此基礎(chǔ)上,Suphx 采用另一種基于規(guī)則的模型,來(lái)決定是否宣布贏(yíng)家并進(jìn)行下一輪,檢查是否贏(yíng)牌可以從其他玩家丟棄的牌中來(lái)判斷,或者從排墻上抽出來(lái)的牌來(lái)判斷。

據(jù)介紹,Suphx 的訓(xùn)練過(guò)程一共分為三步。

首先,它的 5 個(gè)模型都使用從「天鳳」平臺(tái)收集的頂級(jí)人類(lèi)玩家的日志進(jìn)行訓(xùn)練。

然后,使用包含一套基于CPU 的麻將模擬器和基于 GPU 的軌跡生成推理引擎,通過(guò)自我博弈強(qiáng)化學(xué)習(xí)對(duì)系統(tǒng)進(jìn)行微調(diào)。

最后,在在線(xiàn)游戲期間,使用運(yùn)行時(shí)策略調(diào)整被用來(lái)觀(guān)察當(dāng)前輪的結(jié)果,從而使系統(tǒng)執(zhí)行得更好。

微軟麻將 AI 論文發(fā)布,首次公開(kāi)技術(shù)細(xì)節(jié)

Suphx 中的分布式強(qiáng)化學(xué)習(xí)系統(tǒng)

由于麻將牌局中,對(duì)手的信息都是未知的,因此,Suphx 嘗試了先知教練技術(shù)來(lái)提升強(qiáng)化學(xué)習(xí)的效果。在自我博弈的訓(xùn)練階段,利用隱藏信息引導(dǎo)模型訓(xùn)練方向 ,從而增強(qiáng) AI 模型對(duì)可見(jiàn)信息的理解,并找到有效的決策依據(jù)。

評(píng)估 :5760 場(chǎng)角逐,創(chuàng)造十段紀(jì)錄

在實(shí)驗(yàn)之前,團(tuán)隊(duì)在 44 個(gè) GPU (包括4個(gè) Nvidia Titan XPs 用于參數(shù)服務(wù)器,40 個(gè) K80s 用于自我博弈玩家)上,使用 150 萬(wàn)次牌局,對(duì)每個(gè)模型進(jìn)行了為期兩天的訓(xùn)練。

該團(tuán)隊(duì)對(duì) 20 個(gè) Nvidia Tesla K80 GPU 上的 Suphx 進(jìn)行了評(píng)估。為了減小穩(wěn)定排名的方差,他們從 100 多萬(wàn)場(chǎng)的麻將牌局?jǐn)?shù)據(jù)集中,隨機(jī)抽取了 80 萬(wàn)牌局的數(shù)據(jù),并從中進(jìn)行了 1000 次取樣。

評(píng)估結(jié)果為,在「天鳳」平臺(tái)與人類(lèi)玩家進(jìn)行了超過(guò) 5760 場(chǎng)比賽后,Suphx 創(chuàng)造了十段的紀(jì)錄——大約只有 180 個(gè)玩家曾經(jīng)達(dá)到過(guò)這個(gè)水平。而 Suphx 穩(wěn)定的排名是 8.74 段(人類(lèi)玩家最高水平是 7.4 段)。

微軟麻將 AI 論文發(fā)布,首次公開(kāi)技術(shù)細(xì)節(jié)

強(qiáng)化學(xué)習(xí) agent最終穩(wěn)定排名統(tǒng)計(jì)

在不斷優(yōu)化中,RL-2 最終取得更好的表現(xiàn)

有趣的是,研究人員寫(xiě)道,Suphx 的防守「非常強(qiáng)」,放胡的概率很低,只有 10.06%,而且它開(kāi)發(fā)了自己的游戲風(fēng)格,可以保證牌的安全,并以半平手取勝。

微軟麻將 AI 論文發(fā)布,首次公開(kāi)技術(shù)細(xì)節(jié)

AI 玩家(南方)會(huì)選擇保守打法

放棄籃筐內(nèi)的六筒,因?yàn)榕谱郎弦延性撆?/p>

此外,論文的合著者寫(xiě)道,大多數(shù)現(xiàn)實(shí)世界的問(wèn)題,如金融市場(chǎng)預(yù)測(cè)和物流優(yōu)化與麻將有相同的特點(diǎn)。比如復(fù)雜的操作/獎(jiǎng)勵(lì)規(guī)則、非完美信息問(wèn)題等等。

作者相信,在 Suphx 中設(shè)計(jì)的麻將技術(shù),包括全局獎(jiǎng)勵(lì)預(yù)測(cè)、先知引導(dǎo)以及政策調(diào)整等,都有巨大的潛力,將來(lái)可廣泛應(yīng)用于現(xiàn)實(shí)世界,幫助解決真實(shí)而復(fù)雜的實(shí)際問(wèn)題。

微軟麻將 AI 論文發(fā)布,首次公開(kāi)技術(shù)細(xì)節(jié)

看到這里,你也躍躍欲試了嗎?天鳳麻將對(duì)戰(zhàn)平臺(tái):https://tenhou.net/,一起來(lái)一局呀!

【版權(quán)與免責(zé)聲明】如發(fā)現(xiàn)內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息發(fā)郵件至 kefu@2898.com ,我們將及時(shí)溝通與處理。 本站內(nèi)容除了2898站長(zhǎng)資源平臺(tái)( stoptheftofyouridentity.com )原創(chuàng)外,其它均為網(wǎng)友轉(zhuǎn)載內(nèi)容,涉及言論、版權(quán)與本站無(wú)關(guān)。