新AlphaGo有多厲害?100:0把李世乭版秒成渣
發(fā)布時間:2025-12-09 07:22:04 作者:玩站小弟
我要評論
導讀:新的AlphaGo Zero使用了一種全新的強化學習方式,從0基礎的神經(jīng)網(wǎng)絡開始,與搜索算法結合,不斷進化調整、迭代升級。AlphaGo Zero的不同之處在于:除了黑白棋子,沒有其他人類教給A
。
導讀:新的有多AlphaGo Zero使用了一種全新的強化學習方式,從0基礎的厲害神經(jīng)網(wǎng)絡開始,與搜索算法結合,把李版秒不斷進化調整、世乭迭代升級。成渣AlphaGo Zero的有多不同之處在于:除了黑白棋子,沒有其他人類教給AlphaGo Zero怎么下棋。厲害而之前的把李版秒AlphaGo包含少量人工設計的特征。
“它最終超越了我們所有預期”。世乭
DeepMind團隊又放驚天消息。成渣
簡單地說,有多AlphaGo又有了重大進步。厲害DeepMind把這個新版本的把李版秒圍棋AI稱為AlphaGo Zero。之所以這樣命名,世乭是成渣因為這個AI完全從零開始,自我學習下圍棋,完全脫離人類知識。
以前其他版本的AlphaGo,都經(jīng)過人類知識的訓練,它們被告知人類高手如何下棋。而最新發(fā)布的AlphaGo Zero使用了更多原理和算法,從0開始,使用隨機招式,40天后成為圍棋界的絕世高手。真真正正的自學成才。
新的AlphaGo Zero使用了一種全新的強化學習方式,從0基礎的神經(jīng)網(wǎng)絡開始,與搜索算法結合,不斷進化調整、迭代升級。AlphaGo Zero的不同之處在于:
除了黑白棋子,沒有其他人類教給AlphaGo Zero怎么下棋。而之前的AlphaGo包含少量人工設計的特征。
AlphaGo Zero只用了一個神經(jīng)網(wǎng)絡,而不是兩個。以前AlphaGo是由“策略網(wǎng)絡”和“價值網(wǎng)絡”來共同確定如何落子。
AlphaGo Zero依賴神經(jīng)網(wǎng)絡來評估落子位置,而不使用rollouts——這是其他圍棋程序使用的快速、隨機游戲,用來預測哪一方會獲勝。
創(chuàng)新工場AI工程院副院長王詠剛用“大道至簡”四個字評價新版的AlphaGo Zero。
上述種種,讓AlphaGo Zero異常強大。
“人們一般認為機器學習就是關于大數(shù)據(jù)和海量計算,但是DeepMind通過AlphaGo Zero的案例發(fā)現(xiàn),算法比計算或者數(shù)據(jù)可用性更重要”,AlphaGo團隊負責人席爾瓦(Dave Silver)介紹說,AlphaGo Zero的計算,比之前的AlphaGo減少了一個數(shù)量級。
如上圖所示,AlphaGo Zero也只用了4個TPU。
AlphaGo Zero到底多厲害,且看官方公布的成績單:
3小時后,AlphaGo Zero成功入門圍棋。
僅僅36小時后,AlphaGo Zero就摸索出所有基本而且重要的圍棋知識,以100:0的戰(zhàn)績,碾壓了當年擊敗李世乭的AlphaGo v18版本。
21天后,AlphaGo Zero達到了Master的水平。這也就是年初在網(wǎng)上60連勝橫掃圍棋界的版本。Master后來擊敗了柯潔。
40天后,AlphaGo Zero對戰(zhàn)Master的勝率達到90%。也就是說,AlphaGo Zero成為寂寞無敵的最強圍棋AI。
DeepMind主要作者之一的黃士杰博士總結:AlphaGo Zero完全從零開始,初始階段甚至會填真眼自殺。AlphaGo Zero自學而成的圍棋知識,例如打劫、征子、棋形、布局先下在角等等,都與人類的圍棋觀念一致。
“間接呼應了人類幾千年依賴圍棋研究的價值”,黃士杰寫道。
技術細節(jié)
DeepMind的最新研究成果,已經(jīng)全文發(fā)布在《自然》雜志上。這也是第二篇在《自然》雜志上發(fā)表的AlphaGo論文。
論文摘要
人工智能的長期目標是創(chuàng)造一個會學習的算法,能在特定領域中從一塊白板開始,超越人類。最近,AlphaGo成為第一個在圍棋游戲中打敗世界冠軍的程序。AlphaGo中的樹搜索使用深度神經(jīng)網(wǎng)絡來評估位置、選擇落子。這些神經(jīng)網(wǎng)絡用人類專家的棋譜來進行監(jiān)督學習的訓練,并通過自我對弈來進行強化學習。本文介紹了一種僅基于強化學習的方法,除了游戲規(guī)則之外,沒有人類的數(shù)據(jù)、指導或者領域知識。AlphaGo成了它自己的老師:一個被訓練來預測AlphaGo自己落子選擇以及對弈結果的神經(jīng)網(wǎng)絡。這個神經(jīng)網(wǎng)絡提高了樹搜索的強度,提高了落子質量、增強了自我對弈迭代的能力。從一塊白板開始,我們的新程序AlphaGo Zero的表現(xiàn)超越了人類,并以100-10擊敗了以前曾打敗世界冠軍的AlphaGo版本。
AlphaGo Zero的強化學習
上面提到AlphaGo使用了一個神經(jīng)網(wǎng)絡,這是怎么做到的?
DeepMind使用了一個新的神經(jīng)網(wǎng)絡fθ,θ是參數(shù)。這個神經(jīng)網(wǎng)絡將原始棋盤表征s(落子位置和過程)作為輸入,輸出落子概率(p, v)= fθ(s)。這里的落子概率向量p表示下一步的概率,而v是一個標量估值,衡量當前落子位置s獲勝的概率。
這個神經(jīng)網(wǎng)絡把之前AlphaGo所使用的策略網(wǎng)絡和價值網(wǎng)絡,整合成一個單獨的架構。其中包含很多基于卷積神經(jīng)網(wǎng)絡的殘差模塊。
AlphaGo Zero的神經(jīng)網(wǎng)絡,使用新的強化學習算法,自我對弈進行訓練。在每個落子位置s,神經(jīng)網(wǎng)絡fθ指導進行MCTS(蒙特卡洛樹)搜索。MCTS搜索給出每一步的落子概率π。通常這種方式會選出更有效的落子方式。
因此,MCTS可以被看作是一個強大的策略提升operator。這個系統(tǒng)通過搜索進行自我對弈,使用增強的MCTS策略決定如何落子,然后把獲勝z作為價值樣本。
這個強化學習算法的主要理念,實在策略迭代過程中,反復使用這些這些搜索operator:神經(jīng)網(wǎng)絡的參數(shù)不斷更新,讓落子概率和價值(P,v)=fθ(s)越來越接近改善后的搜索概率和自我對弈贏家(π, z)。這些新參數(shù)也被用于下一次的自我對弈迭代,讓搜索變得更強大。整個過程如下圖所示。
上圖解釋了AlphaGo Zero中的自我對弈強化學習。圖a展示了程序的自我對弈過程。程序在從s1到st的棋局中進行自我對弈,在任意位置st,程序會用最新的神經(jīng)網(wǎng)絡fθ來執(zhí)行MCTS αθ,根據(jù)MCTS計算出的搜索概率at?πt選擇落子位置,根據(jù)游戲規(guī)則來決定最終位置sT,并計算出勝者z。
圖b展示了AlphaGo Zero中的神經(jīng)網(wǎng)絡訓練過程,神經(jīng)網(wǎng)絡以棋盤位置st為輸入,將它和參數(shù)θ通過多層CNN傳遞,輸出向量Pt和張量值vt,Pt表示幾步之后可能的局面,vt表示st位置上當前玩家的勝率。為了將Pt和搜索概率πt的相似度最大化,并最小化vt和游戲實際勝者z之間的誤差,神經(jīng)網(wǎng)絡的參數(shù)θ會不斷更新,更新后的參數(shù)會用到如圖a所示的下一次自我對弈迭代中。
AlpaGo Zero中的MCTS結構如上圖所示,從圖a顯示的選擇步驟可以看出,每次模擬都會通過選擇最大行為價值Q的邊緣,加上置信區(qū)間上限U來遍歷樹,U取決于存儲先驗概率P和訪問次數(shù)N。
圖b顯示,葉節(jié)點擴展和相關位置s的評估都是通過神經(jīng)網(wǎng)絡(P(s, ·),V(s)) = fθ(s)實現(xiàn)的,P的向量值存儲在s的出口邊緣。
圖c顯示了更新行為價值Q以追蹤該行為下面子樹中所有評估V的平均值。
圖d顯示,搜索完成后,搜索概率π返回,與N1/τ成比例,其中N是從根狀態(tài)每次移動的訪問次數(shù),τ是控制溫度的參數(shù)。
從零開始的訓練
DeepMind在論文中表示,應用了強化學習的pipeline來訓練AlphaGo Zero,訓練從完全隨機的行為開始,并在沒有認為干預的情況下持續(xù)3天。
訓練過程中,生成了490萬盤自我博弈對局,每個MCTS使用1600次模擬,相當于每下一步思考0.4秒。下圖顯示了在自我對弈強化學習期間,AlphaGo Zero的表現(xiàn)。整個訓練過程中,沒有出現(xiàn)震蕩或者災難性遺忘的困擾。
令人驚訝的是,AlphaGo Zero在訓練36小時后,表現(xiàn)就優(yōu)于擊敗李世乭的版本AlphaGo Lee。當年那個版本經(jīng)過了數(shù)月的訓練。AlphaGo Zero使用了4個TPU,而擊敗李世乭的AlphaGo使用了48個TPU。
下圖就是AlphaGo Zero和AlphaGo Lee的神經(jīng)網(wǎng)絡架構比較。
“它最終超越了我們所有預期”。世乭
DeepMind團隊又放驚天消息。成渣
簡單地說,有多AlphaGo又有了重大進步。厲害DeepMind把這個新版本的把李版秒圍棋AI稱為AlphaGo Zero。之所以這樣命名,世乭是成渣因為這個AI完全從零開始,自我學習下圍棋,完全脫離人類知識。
以前其他版本的AlphaGo,都經(jīng)過人類知識的訓練,它們被告知人類高手如何下棋。而最新發(fā)布的AlphaGo Zero使用了更多原理和算法,從0開始,使用隨機招式,40天后成為圍棋界的絕世高手。真真正正的自學成才。
新的AlphaGo Zero使用了一種全新的強化學習方式,從0基礎的神經(jīng)網(wǎng)絡開始,與搜索算法結合,不斷進化調整、迭代升級。AlphaGo Zero的不同之處在于:
除了黑白棋子,沒有其他人類教給AlphaGo Zero怎么下棋。而之前的AlphaGo包含少量人工設計的特征。
AlphaGo Zero只用了一個神經(jīng)網(wǎng)絡,而不是兩個。以前AlphaGo是由“策略網(wǎng)絡”和“價值網(wǎng)絡”來共同確定如何落子。
AlphaGo Zero依賴神經(jīng)網(wǎng)絡來評估落子位置,而不使用rollouts——這是其他圍棋程序使用的快速、隨機游戲,用來預測哪一方會獲勝。
創(chuàng)新工場AI工程院副院長王詠剛用“大道至簡”四個字評價新版的AlphaGo Zero。
上述種種,讓AlphaGo Zero異常強大。
“人們一般認為機器學習就是關于大數(shù)據(jù)和海量計算,但是DeepMind通過AlphaGo Zero的案例發(fā)現(xiàn),算法比計算或者數(shù)據(jù)可用性更重要”,AlphaGo團隊負責人席爾瓦(Dave Silver)介紹說,AlphaGo Zero的計算,比之前的AlphaGo減少了一個數(shù)量級。
如上圖所示,AlphaGo Zero也只用了4個TPU。
AlphaGo Zero到底多厲害,且看官方公布的成績單:
3小時后,AlphaGo Zero成功入門圍棋。
僅僅36小時后,AlphaGo Zero就摸索出所有基本而且重要的圍棋知識,以100:0的戰(zhàn)績,碾壓了當年擊敗李世乭的AlphaGo v18版本。
21天后,AlphaGo Zero達到了Master的水平。這也就是年初在網(wǎng)上60連勝橫掃圍棋界的版本。Master后來擊敗了柯潔。
40天后,AlphaGo Zero對戰(zhàn)Master的勝率達到90%。也就是說,AlphaGo Zero成為寂寞無敵的最強圍棋AI。
DeepMind主要作者之一的黃士杰博士總結:AlphaGo Zero完全從零開始,初始階段甚至會填真眼自殺。AlphaGo Zero自學而成的圍棋知識,例如打劫、征子、棋形、布局先下在角等等,都與人類的圍棋觀念一致。
“間接呼應了人類幾千年依賴圍棋研究的價值”,黃士杰寫道。
技術細節(jié)
DeepMind的最新研究成果,已經(jīng)全文發(fā)布在《自然》雜志上。這也是第二篇在《自然》雜志上發(fā)表的AlphaGo論文。
論文摘要
人工智能的長期目標是創(chuàng)造一個會學習的算法,能在特定領域中從一塊白板開始,超越人類。最近,AlphaGo成為第一個在圍棋游戲中打敗世界冠軍的程序。AlphaGo中的樹搜索使用深度神經(jīng)網(wǎng)絡來評估位置、選擇落子。這些神經(jīng)網(wǎng)絡用人類專家的棋譜來進行監(jiān)督學習的訓練,并通過自我對弈來進行強化學習。本文介紹了一種僅基于強化學習的方法,除了游戲規(guī)則之外,沒有人類的數(shù)據(jù)、指導或者領域知識。AlphaGo成了它自己的老師:一個被訓練來預測AlphaGo自己落子選擇以及對弈結果的神經(jīng)網(wǎng)絡。這個神經(jīng)網(wǎng)絡提高了樹搜索的強度,提高了落子質量、增強了自我對弈迭代的能力。從一塊白板開始,我們的新程序AlphaGo Zero的表現(xiàn)超越了人類,并以100-10擊敗了以前曾打敗世界冠軍的AlphaGo版本。
AlphaGo Zero的強化學習
上面提到AlphaGo使用了一個神經(jīng)網(wǎng)絡,這是怎么做到的?
DeepMind使用了一個新的神經(jīng)網(wǎng)絡fθ,θ是參數(shù)。這個神經(jīng)網(wǎng)絡將原始棋盤表征s(落子位置和過程)作為輸入,輸出落子概率(p, v)= fθ(s)。這里的落子概率向量p表示下一步的概率,而v是一個標量估值,衡量當前落子位置s獲勝的概率。
這個神經(jīng)網(wǎng)絡把之前AlphaGo所使用的策略網(wǎng)絡和價值網(wǎng)絡,整合成一個單獨的架構。其中包含很多基于卷積神經(jīng)網(wǎng)絡的殘差模塊。
AlphaGo Zero的神經(jīng)網(wǎng)絡,使用新的強化學習算法,自我對弈進行訓練。在每個落子位置s,神經(jīng)網(wǎng)絡fθ指導進行MCTS(蒙特卡洛樹)搜索。MCTS搜索給出每一步的落子概率π。通常這種方式會選出更有效的落子方式。
因此,MCTS可以被看作是一個強大的策略提升operator。這個系統(tǒng)通過搜索進行自我對弈,使用增強的MCTS策略決定如何落子,然后把獲勝z作為價值樣本。
這個強化學習算法的主要理念,實在策略迭代過程中,反復使用這些這些搜索operator:神經(jīng)網(wǎng)絡的參數(shù)不斷更新,讓落子概率和價值(P,v)=fθ(s)越來越接近改善后的搜索概率和自我對弈贏家(π, z)。這些新參數(shù)也被用于下一次的自我對弈迭代,讓搜索變得更強大。整個過程如下圖所示。
上圖解釋了AlphaGo Zero中的自我對弈強化學習。圖a展示了程序的自我對弈過程。程序在從s1到st的棋局中進行自我對弈,在任意位置st,程序會用最新的神經(jīng)網(wǎng)絡fθ來執(zhí)行MCTS αθ,根據(jù)MCTS計算出的搜索概率at?πt選擇落子位置,根據(jù)游戲規(guī)則來決定最終位置sT,并計算出勝者z。
圖b展示了AlphaGo Zero中的神經(jīng)網(wǎng)絡訓練過程,神經(jīng)網(wǎng)絡以棋盤位置st為輸入,將它和參數(shù)θ通過多層CNN傳遞,輸出向量Pt和張量值vt,Pt表示幾步之后可能的局面,vt表示st位置上當前玩家的勝率。為了將Pt和搜索概率πt的相似度最大化,并最小化vt和游戲實際勝者z之間的誤差,神經(jīng)網(wǎng)絡的參數(shù)θ會不斷更新,更新后的參數(shù)會用到如圖a所示的下一次自我對弈迭代中。
AlpaGo Zero中的MCTS結構如上圖所示,從圖a顯示的選擇步驟可以看出,每次模擬都會通過選擇最大行為價值Q的邊緣,加上置信區(qū)間上限U來遍歷樹,U取決于存儲先驗概率P和訪問次數(shù)N。
圖b顯示,葉節(jié)點擴展和相關位置s的評估都是通過神經(jīng)網(wǎng)絡(P(s, ·),V(s)) = fθ(s)實現(xiàn)的,P的向量值存儲在s的出口邊緣。
圖c顯示了更新行為價值Q以追蹤該行為下面子樹中所有評估V的平均值。
圖d顯示,搜索完成后,搜索概率π返回,與N1/τ成比例,其中N是從根狀態(tài)每次移動的訪問次數(shù),τ是控制溫度的參數(shù)。
從零開始的訓練
DeepMind在論文中表示,應用了強化學習的pipeline來訓練AlphaGo Zero,訓練從完全隨機的行為開始,并在沒有認為干預的情況下持續(xù)3天。
訓練過程中,生成了490萬盤自我博弈對局,每個MCTS使用1600次模擬,相當于每下一步思考0.4秒。下圖顯示了在自我對弈強化學習期間,AlphaGo Zero的表現(xiàn)。整個訓練過程中,沒有出現(xiàn)震蕩或者災難性遺忘的困擾。
令人驚訝的是,AlphaGo Zero在訓練36小時后,表現(xiàn)就優(yōu)于擊敗李世乭的版本AlphaGo Lee。當年那個版本經(jīng)過了數(shù)月的訓練。AlphaGo Zero使用了4個TPU,而擊敗李世乭的AlphaGo使用了48個TPU。
下圖就是AlphaGo Zero和AlphaGo Lee的神經(jīng)網(wǎng)絡架構比較。
相關文章

《跑跑卡丁車》[尋寶]系統(tǒng)全新上線 [混戰(zhàn)模式]限時開啟
《跑跑卡丁車》[尋寶]系統(tǒng)全新上線 [混戰(zhàn)模式]限時開啟2024-07-25 10:52:27編輯:Reset 夏日[尋寶2025-12-09
帕斯亞科技:《沙石鎮(zhèn)光陽》將隨Steam欲看單數(shù)量推出更多新服從
帕斯亞科技頒布收表:為慶賀Steam欲看單數(shù)量破記載,國產摹擬游戲《沙石鎮(zhèn)光陽》將推出新服從“扮拆”,除此以中,借將跟著欲看單數(shù)量的上漲推出更多新內容,包露:“自定義家具”“多人小游戲”“Baby逝世2025-12-09
《本初保衛(wèi)戰(zhàn)》新助足!石器盒子強勢去襲!
貓玩互娛2018年傾情挨制石器期間的亂世足游佳做,匠心挨制日系RPG足游《本初保衛(wèi)戰(zhàn)》。做為跨安卓、蘋果單端的回開足游大年夜做,《本初保衛(wèi)戰(zhàn)》持絕水爆開服2個月!神級復本石器期間端游,研收團隊為了石灰2025-12-09
《推理教院》新VIP禍利上線,齊新VIP值獲得體例公布。《推理教院》足游將于本日迎去版本更新,帶去“VIP”相干的更新與禍利!沒有但有新禮包、新禍利去襲,借對VIP部分法則停止調劑,上里便隨小編一起去2025-12-09
《嚴陣以待》DLC"Home Invasion"實機預告公布 7月23日發(fā)售
《嚴陣以待》DLC"Home Invasion"實機預告公布 7月23日發(fā)售2024-07-19 11:08:39編輯:Reset2025-12-09
《荒漠大年夜鏢客OL》新年活動:免費剪收、飲料 專物教家及保躲家減成
暢享《荒漠大年夜鏢客OL》的新年促銷戰(zhàn)嘉獎去辭舊迎新各州酒館均供應免費飲料,借有保躲家戰(zhàn)專物教家出售減成及更多內容新一年的到去帶去了新的開端戰(zhàn)新的欲看。為了悲慶新年,統(tǒng)統(tǒng)《荒漠大年夜鏢客OL》玩家本周2025-12-09
