業務咨詢:400-899-0990
技術服務:400-899-0899
咨詢熱線公司前台:0756-2119588
售前咨詢:0756-2119558
公司地址珠海市香洲區建業一路5号第五層
類别:社會新聞發布人:聯迪發布時間:2017-05-25
根據席爾瓦介紹,谷歌在訓練AlphaGo時,是通過人類專家進行監督式學習,再通過策略網絡實現強化學習輸入價值網絡。AlphaGo樹搜索通過策略網絡減少搜索的寬度,以價值網絡減少搜索的深度。
與李世石對戰的AlphaGo Lee在谷歌雲上有50個TPUs在運作,搜索50個棋步為10000個位置/秒,而昨天打敗柯潔的AlphaGo Master是在單個TPU上進行遊戲,AlphaGo成為自己的老師,它從自己的搜索裡學習,有着更強大的策略和價值網絡。
簡單來說吧,按照Deepmind的預測,與柯潔對戰的AlphaGo Master要比去年同李世石對戰的AlphaGo Lee強三個子。
在昨天的對戰中,柯潔最終是以1/4子的劣勢輸給谷歌了AlphaGo Master。
對此,柯潔也在微博上感慨“我到底是在和一個怎樣可怕的對手下棋...”。
柯潔微博全文如下:
早就聽說新版alphago的強大....
但...讓...讓三個?我的天
這個差距有多大呢?簡單的解釋一下就是一人一手輪流下的圍棋,對手連續讓你下三步...又像武林高手對決讓你先捅三刀一樣...
我到底是在和一個怎樣可怕的對手下棋...