强化学习,简而言之就是控制在某个环境下自主行动的个体,通过环境和规则的互动,不断改变它的行为模式。
比如,吃豆人游戏,自主行动的個体就是控制的吃豆人,环境就是迷宫,奖励就是吃到的豆子,行为就是上下左右的操作。
强化学习的输入是,角色在某一位置的状态,该状态下允许的操作,和每个操作带来的价值(正面或者负面)。
那么根据操作带来的价值,机器就会输出相应的选择。
通过不断的进行游戏,我们可以获得大量的交互数据。
因而逐渐可以确定在每一个状态下,进行什么动作能获得最好的分数,而强化学习也就是利用神经网络来拟合这个过程。
例如,打砖块游戏有一个秘诀是把球打到那些砖块后面去,这样球就可以自己反复在上面反弹得分。加分的速度远远超过一次一次来回去撞击小球。
强化学习程序在玩了几百盘后,就学到了这个秘诀。
进而程序会在每一个状态下选择那个更容易把球打到墙后面去的操作。
“搜索树搜完整盘的效率太低了,我们需要一种可以比较早期就判断出局势优劣的办法,这样不用模拟出全局,就已经可以发现局面很差。”
孟繁岐如此提议道。
开局才下几十手,但每次走子演算都需要模拟到终盘胜负的时候,这个效率实在太低了一点。
如果有一个评估网络,可以根据比较早期的局面直接更新各个位置的分数,速度上会加快非常多。
“那现在就会有两种选择策略了。”见黄士杰和戴密斯等人都支持这个想法,孟繁岐继续说道。
“一种,我们用这十几万盘棋谱,和上千万的落子,训练出很好的策略网络和走子演算网络。然后,我们让这个策略网络自己与自己对弈,产生更多的棋局,通过观看海量的职业棋谱,持续地提升评估网络的能力。”
DeepMind等人能搜罗到的高质量棋谱毕竟还是有限的,高手一辈子留下的棋谱也就那么多。
菜鸡的棋谱可不能收集进来,毕竟策略网络是模仿落子,学得又那么像那么好。
要是学了菜鸡的招式,一不小心就是自损十年功力。
高手棋谱有限,策略网络模仿的上限基本上就确定了。
不过它们有了职业水平之后,却可以高速产生海量的职业水准棋谱。
几天生产的量就比过去五千年所有的棋谱加起来还多了。
评估网络看完那么多的棋谱,大局观相当之强大。
只需要看前几十手,就能基本判断最后的胜负了。
评估网络此时判断的,就是落子在特定地方,最后取胜的概率是多少。
这与策略网络不同,策略网络只是单纯学习了高手的棋谱,反应出这个局面下,人类高手更有可能下什么。
“这样我们先使用策略网络模仿人类棋手布局,随后使用蒙特卡洛搜索与整体局面评估综合的方式,来更新搜索树的分数。”黄士杰很快理解了孟繁岐的意图,如此规划道。
“或者说,我们真的需要人类的棋谱来训练阿尔法围棋智能吗?”这是孟繁岐所说的另一种可能。
事实上,人工智能并不需要学习或者模仿任何人的布局,流派,又或者是什么技巧。
它们完全可以从头开始,自己非常幼稚地去摸索,去自我对弈。
或许最开始的几百盘,它们的棋臭得令人想笑。
本站域名已经更换为m.adouyinxs.com 。请牢记。