天津大学OPTICA&SPIE学生分会
电话: 022-27400892
地址: 天津市南开区卫津路92号天津大学
联系人: 胡小龙教授
网站: www.tjuosa-spie.com
电子邮件: tju_osa@163.com
今天我们要讲的是一对兄弟之间博弈,竞争的故事。这对兄弟是谁呢?
今天的主角是身为弟弟的AlphaGo Zero,虽说骨肉相连,形貌神似,但却不是师出同门。AlphaGo Zero完全
从零开始,没有任何历史棋谱的指引,没有人类的现场指导,更没有参考人类任何的先验知识,完全靠自己一
个人强化学习和参悟,棋艺增长远超AlphaGo,并以大比分100:0的成绩完胜AlphaGo。
看到这里我们当然会想,AlphaGo Zero是依靠什么能力来击败的AlphaGo呢?
我们先来看看AlphaGo Zero的棋局
对于不懂围棋的小伙伴来说看棋局如同天书一般,所以我们听听专业棋手的解释:“它的开局与收官和专业棋手的下法并无区别,人类几千年的智慧结晶,看起来并非全错。但是中盘看起来则非常诡异。”这个诡异之处可以理解为人类经验由于样本空间大小的限制,往往都收敛于局部最优而人工智能则能突破这个局部最优,从全局考虑并且一直向收敛的方向前进。
那么AlphaGo Zero是如何无师自通的呢
首先,AlphaGo Zero采用类似DQN的一个DNN网络实现决策过程,并利用这个DNN得到两种输出policy和
value,然后利用一个蒙特卡罗搜索树完成当前步骤选择。
其次,AlphaGo Zero没有再利用人类历史棋局,训练过程从完全随机开始。
第三,AlphaGo Zero在DNN网络结构上吸收了最新进展,采用了ResNet网络中的Residual结构作为基础模块。
新技术AlphaGo Zero的棋力增长速度惊人
因此AlphaGo Zero以100:0的成绩击败AlphaGo就是理所应当的事情了。
在惊讶于AlphaGo Zero超强的围棋能力的同时,我们必须要考虑的事情就是人工智能的应用以及机器经验和人类经验之间的关系。
AlphaGo Zero通过摆脱对人类经验和辅助的依赖,它的学习算法似乎可以广泛应用到其他人类缺乏了解或是缺乏大量标注数据的领域。
但是,人工智能和人甚至动物相比,所知所能依然极端有限,要将人工智能在许许多多领域内展开和应用要走很长很长的路。
与此同时,在未来发展中,我们究竟应该如何看待人类经验的作用?AlphaGo Zero这次对于围棋的无师自通打破了人类经验的正常传承,似乎在告诉我们,人类现有的经验也是可以被探测和学习的。
在未来发展中,有很多时候机器经验和人类经验会同时存在,人工智能或许也会实现自我化,因此如何处理好两者之间的关系尤为重要。
人工智能终将和我们的生活紧密相连,你,准备好了吗?