天津大学OSA&SPIE学生分会
电话:  022-27400892
地址:  天津市南开区卫津路92号天津大学
联系人: 胡小龙教授
网站: www.tjuosa-spie.com
电子邮件: tju_osa@163.com

您的位置:首页  >  新闻中心  >  活动通知  >  AlphaGo Zero横空出世

AlphaGo Zero横空出世

 

    今天我们要讲的是一对兄弟之间博弈,竞争的故事。这对兄弟是谁呢?

 
    还记得去年击败围棋九段李世石的人工智能AlphaGo吗,AlphaGo代表人工智能在围棋领域首次战胜了人类的世界冠军。AlphaGo的获胜让全世界范围内都惊叹于人工智能的惊艳表现,以及对人工智能领域的无限看好。AlphaGo对围棋的理解是建立于在计算机通过海量的历史棋谱学习参悟人类棋艺的基础之上,进而自我训练,实现超越。也就是说,它依靠的是自己强大的计算学习能力,学习的是人类已有的知识。因此如果要究其根源,作为兄长的AlphaGo并不算是彻彻底底的依靠自我能力成长的人工智能。

    今天的主角是身为弟弟的AlphaGo Zero,虽说骨肉相连,形貌神似,但却不是师出同门。AlphaGo Zero完全

从零开始,没有任何历史棋谱的指引,没有人类的现场指导,更没有参考人类任何的先验知识,完全靠自己一

个人强化学习和参悟,棋艺增长远超AlphaGo,并以大比分100:0的成绩完胜AlphaGo。

  

 

    看到这里我们当然会想,AlphaGo Zero是依靠什么能力来击败的AlphaGo呢?

   

我们先来看看AlphaGo Zero的棋局

 

 

    对于不懂围棋的小伙伴来说看棋局如同天书一般,所以我们听听专业棋手的解释:“它的开局与收官和专业棋手的下法并无区别,人类几千年的智慧结晶,看起来并非全错。但是中盘看起来则非常诡异。”这个诡异之处可以理解为人类经验由于样本空间大小的限制,往往都收敛于局部最优而人工智能则能突破这个局部最优,从全局考虑并且一直向收敛的方向前进。

 
我们再来看AlphaGo Zero的学习过程

      

      

      

 

 

那么AlphaGo Zero是如何无师自通的呢

 

    首先,AlphaGo Zero采用类似DQN的一个DNN网络实现决策过程,并利用这个DNN得到两种输出policy和

value,然后利用一个蒙特卡罗搜索树完成当前步骤选择。

   其次,AlphaGo Zero没有再利用人类历史棋局,训练过程从完全随机开始。

   第三,AlphaGo Zero在DNN网络结构上吸收了最新进展,采用了ResNet网络中的Residual结构作为基础模块。

新技术AlphaGo Zero的棋力增长速度惊人

  
 

   因此AlphaGo Zero以100:0的成绩击败AlphaGo就是理所应当的事情了。

   在惊讶于AlphaGo Zero超强的围棋能力的同时,我们必须要考虑的事情就是人工智能的应用以及机器经验和人类经验之间的关系。

 

 

   AlphaGo Zero通过摆脱对人类经验和辅助的依赖,它的学习算法似乎可以广泛应用到其他人类缺乏了解或是缺乏大量标注数据的领域。

   但是,人工智能和人甚至动物相比,所知所能依然极端有限,要将人工智能在许许多多领域内展开和应用要走很长很长的路。

   与此同时,在未来发展中,我们究竟应该如何看待人类经验的作用?AlphaGo Zero这次对于围棋的无师自通打破了人类经验的正常传承,似乎在告诉我们,人类现有的经验也是可以被探测和学习的。

  

   在未来发展中,有很多时候机器经验和人类经验会同时存在,人工智能或许也会实现自我化,因此如何处理好两者之间的关系尤为重要。

 

    

 

    人工智能终将和我们的生活紧密相连,你,准备好了吗?

在线客服
请Q我吧:1430840903
请Q我吧:123456
Contact us by MSN:abc@abc.com 临时MSN1
Contact us by MSN:abc@abc.com 临时MSN2
abc
abc
在线客服