找黃金白銀行情資訊,就找白銀投資網

阿爾法狗再進化 自學三天就100:0打敗舊版阿爾法狗-第2頁

團隊稱,AlphaGoZero的水平已經超過之前所有版本的AlphaGo。在對陣曾贏下韓國棋手李世石那版AlphaGo時,AlphaGoZero取得了100:0的壓倒性戰績。DeepMind團隊將關于AlphaGoZero的相關研究以論文的形式,刊發在了10月18日的《自然》雜志上。

阿爾法狗再進化:自學3天就100:0碾壓李世石版舊狗AlphaGo Zero強化學習下的自我對弈。

經過幾天的訓練,AlphaGo Zero完成了近5百萬盤的自我博弈后,已經可以超越人類,并擊敗了此前所有版本的AlphaGo。DeepMind團隊在官方博客上稱,Zero用更新后的神經網絡和搜索算法重組,隨著訓練地加深,系統的表現一點一點地在進步。自我博弈的成績也越來越好,同時,神經網絡也變得更準確。

“這些技術細節強于此前版本的原因是,我們不再受到人類知識的限制,它可以向圍棋領域里最高的選手——AlphaGo自身學習?!?AlphaGo團隊負責人大衛·席爾瓦(Dave Sliver)說。

據大衛·席爾瓦介紹,AlphaGo Zero使用新的強化學習方法,讓自己變成了老師。系統一開始甚至并不知道什么是圍棋,只是從單一神經網絡開始,通過神經網絡強大的搜索算法,進行了自我對弈。

隨著自我博弈的增加,神經網絡逐漸調整,提升預測下一步的能力,最終贏得比賽。更為厲害的是,隨著訓練的深入,DeepMind團隊發現,AlphaGo Zero還獨立發現了游戲規則,并走出了新策略,為圍棋這項古老游戲帶來了新的見解。

自學3天,就打敗了舊版AlphaGo

除了上述的區別之外,AlphaGo Zero還在3個方面與此前版本有明顯差別。

阿爾法狗再進化:自學3天就100:0碾壓李世石版舊狗AlphaGo-Zero的訓練時間軸

首先,AlphaGo Zero僅用棋盤上的黑白子作為輸入,而前代則包括了小部分人工設計的特征輸入。

其次,AlphaGo Zero僅用了單一的神經網絡。在此前的版本中,AlphaGo用到了“策略網絡”來選擇下一步棋的走法,以及使用“價值網絡”來預測每一步棋后的贏家。而在新的版本中,這兩個神經網絡合二為一,從而讓它能得到更高效的訓練和評估。

編輯:yangshuntao
更多
更多

價格行情

230.67↑單位:元/克

$

230.67↑單位:美元/盎司

230.67↑單位:元/千克

$

230.67↑單位:美元/盎司

黃金白銀兌換器

1美元/盎司=0.205人民幣/克
轉換

白銀行情·黃金行情

刷新

名稱 最新價格 漲跌幅%
現貨白銀 17.85 --
黃金T+D 17.85 --
白銀T+D 17.85 --
現貨黃金 17.85 --
白銀999 17.85 --
黃金9999 17.85 --

相關推薦更多

  • 最新報價
  • 最新資訊
  • 本周熱榜
免責聲明本站發布此文目的在于促進信息交流,不存在盈利性目的,此文觀點與本站立場無關,不承擔任何責任。部分內容文章及圖片來自互聯網或自媒體,我們尊重作者版權,版權歸屬于原作者,不保證該信息(包括但不限于文字、圖片、圖表及數據)的準確性、真實性、完整性、有效性、及時性、原創性等。未經證實的信息僅供參考,不做任何投資和交易根據,據此操作風險自擔。