人民網
人民網>>IT

AlphaGo又有了令人“恐怖”的新版本

2017年10月20日17:45 | 來源:揚子晚報
小字號
原標題:AlphaGo又有了令人“恐怖”的新版本

  AlphaGo又有了令人“恐怖”的新版本

  今年5月,AlphaGo在人機大戰第二季3:0完虐世界第一人柯潔,當時其就被稱為“圍棋上帝”。不過“圍棋上帝”也有被虐的時候,昨天谷歌旗下人工智能研究部門DeepMind發布了新版AlphaGo,它可以完全靠自己學習圍棋,更為恐怖的是經過40天訓練后,它就可以擊敗AlphaGo Master(擊敗柯潔的系統),比分為89比11。 揚子晚報記者 湯敏

  自學3天就完勝“前輩”

  今年5月烏鎮人機大戰第二季時,DeepMind CEO哈薩比斯表示,將在今年晚些時候公布戰勝了柯潔的那版AlphaGo的技術細節。19日,這個承諾如約兌現,DeepMind將他們最新的內容發表於Nature的一篇論文中,詳細介紹了迄今最強大的一版AlphaGo——AlphaGo Zero。文中透露最新版本的AlphaGo Zero,使用純強化學習,將價值網絡和策略網絡整合為一個神經網絡,3天訓練后就以100比0擊敗了上一版本的AlphaGo,也就是那個4-1戰勝李世石的版本。經過40天訓練后,它就可以擊敗AlphaGo Master(擊敗柯潔的系統)。

  這個阿爾法狗從零開始,所以,它的名字叫作零(Zero),完全靠自己對弈來摸索,而不需要任何人類圍棋的經驗。人類圍棋雖然延續了千年,但在“阿爾法狗零”看來水平還是太差。下面是零自我學習的過程,實在太恐怖:自我學習3小時,零在亂下﹔10小時,發現簡單定式﹔16小時,發現小雪崩定式﹔19小時,發現死活、厚勢與實地的邏輯﹔24小時,發現小目一間高挂定式﹔36小時,發現星位一間夾點角定式﹔55小時,發現非人類定式﹔40天,與擊敗柯潔版本對戰100番棋,89比11勝出。

  人類學習的時間線是什麼樣的呢?今天的世界冠軍級棋手,5歲學棋,15歲出關,20歲前拿冠軍,否則終身無望。也就是說人類學棋十幾年,不如阿爾法狗零學3天。

  棋手的傷感,人類的進步

  人機大戰第二季對決中,世界第一人柯潔拼盡全力但最終仍以0-3負於AlphaGo,在第三局中,柯潔面對無懈可擊的AlphaGo不禁落淚,賽后他感嘆:“AlphaGo實在太完美了”!昨天,看到最新版AlphaGo Zero后,柯潔在微博中不禁再次感慨:“一個純淨、純粹自我學習的AlphaGo是最強的……對於AlphaGo的自我進步來講……人類太多余了”。

  被AlphaGo Zero的消息所震撼的遠不止柯潔一個人,世界冠軍古力在微博中說道:“20年不抵3天啊!我們的傷感,人類的進步!”另一位世界冠軍唐韋星發微博表示:“看了之后不知道說什麼了,它確實不需要我們的知識,訓練40天就能擊敗之前版本,似乎就是我們拖后腿了(意思是之前版本還借鑒了人類圍棋的經驗)”。古力隨后在唐韋星的微博下表示贊同:“我們都是拖后腿的”。

  革新性人工智能用處多

  與前幾個版本AlphaGo不同,此版本的AlphaGo Zero完全不受人類思維束縛,因此算作革新性人工智能。DeepMind CEO哈薩比斯表示,“人工智能有可能推動人類的智力向前發展,給全人類帶來積極影響”。那麼對人類的未來到底有什麼具體幫助呢?

  據了解,DeepMind與英國國家醫療服務體系(NHS)展開合作,除了將人工智能用於早期發現疑難雜症外,還將用於調整電力供需等方面。將來,還期待人工智能在依靠人類力量難以解決的新材料開發、探究蛋白質生成機制等方面做出貢獻。此外,新技術將來還可能在產業方面做出貢獻。例如,從大量數據中發現人類難以意識到的提升效率的方式等。

  據悉,以各種用電數據為基礎,人工智能將有助於節省電力。由於像AlphaGo Zero一樣的人工智能可以“無師自通”,在宇宙和海洋等觀測數據不足的領域也有可能做出貢獻。

(責編:易瀟、楊虞波羅)

分享讓更多人看到

返回頂部