财新传媒
位置:博客 > 万战勇 > 阿法狗基本工作原理及意义初探

阿法狗基本工作原理及意义初探

 
很多年后,在炭基文明历史数据库里,阿法狗在西元2016年3月击败人类超一流棋手李世石的故事一定会是一段被频繁引用的资料。在这场战斗中,石头无力破局,天网一鸣惊人,史称“石破天惊”。自此,AI(人工智能)的发展把人类历史撞了一下腰,翻过拐点绝尘而去。AI 应用以飞快的速度渗透到人类生活的每个方面。一切都不一样了。
 
这篇论文将试图用劳动人民热爱的低俗手法,介绍这一划时代里程碑的基本工作原理和它的历史意义。
 
阿法狗不就是一个比以前水平高一些的下棋程序吗?还能当饭吃啊?值得这样得瑟吗?你个程序员不装X会死啊?很多群众愤怒地指出。
 
阿法狗还真不是一个高级下棋程序那么简单。和十几年前在国际象棋上战胜卡斯帕罗夫的程序“深蓝”比,阿法狗有相似的地方,但更有质的区别。
 
先来看相似之处。要下棋,必须得会判断棋局的优劣:随便给一个棋局,你能说出来是黑棋还是白棋占优吗?优势有多大?有了这个技能,棋手才能在不同的走法中选择对自己最好的一个。深蓝和阿法狗,都是用一种叫“棋局估值函数”(position evaluation function)的算法来估计一个局面的好坏。
 
但是它们的实现方法完全不同。
 
深蓝的作者,用了很大的力气,手工去调节这个估值函数。他们把很多象棋专家的经验整理出规律,再手把手地教给深蓝。这些经验,是特定针对国际象棋的,换一种棋(比如五子棋或围棋)就完全抓瞎了,又得重起炉灶。这种填鸭式的做法,不具有通用性。而且,围棋的复杂性,比国际象棋不知道高到哪里去了(大家知道,围棋可能的变化,超过宇宙中所有原子个数的好多好多倍)。要想凭这种方法在围棋盘上和人类高手谈笑风生,实在是图样图森破了。
 
阿法狗走的是通用学习的道路。它的估值函数,不是专家攻关捣哧出来的。它的作者只是搭了一个基本的框架(一个多层的神经网络),除了围棋最基本的规则外,没有任何先验知识。你可以把它想象成一个新生儿的大脑,一张白纸。然后,直接用人类高手对局的3000万个局面训练它,自动调节它的神经网络参数,让它的行为和人类高手接近。这样,阿法狗就具有了基本的棋感,看到一个局面大致就能知道好还是不好。
 
你抓住关键了吗?这种做法,只要有海量的训练数据,不需要人工的干预,相当于机器自动从数据中总结提取专家经验。如果换一种棋,也可以这么搞。这比人工取精^H经,不知道高到哪里去了(这真是一句名言啊,我忍不住又引用了一遍)。
 
然而这还是不够。如果只学习人类已有的棋局,水平不会超过人类。更严重的是容易发生“过度拟合”(over fitting)的问题,就是程序把见过的棋局都背下来了,比赛中碰到一模一样的情况还可以应对得不错,如果碰到变化结果就难说了。这类似于死读书的学生,不会融会贯通。所以,阿法狗还要从海量的自我对局中学习。谷歌的说法是每天下一百万局。
 
想一想,每天我们人类洗脸睡觉刷微信的时候,在谷歌的云端,几万只阿法狗正捉对厮杀,训练得热火朝天,汪声震天。这画面,可以参照电影《黑客帝国》(The Matrix)里面,Agent Smith 分身无数个自己大战 Neo 的场景。
 
确实很暴力。这种玩法,要有海量的计算资源做后盾,在过去是不可想象的,今天都实现了。
 
阿法狗的核心技术还包括策略网络的训练和蒙特卡洛树搜索。限(wo)于(ye)篇(bu)幅(dong),这里就不多说了。
 
围棋只是深度学习技术的一块试金石。 因为这种技术适用广泛,接下来,我们可以把它应用到各种领域,掀起一场翻天覆地的革命。从做豆腐,开出租,叫外卖,开发新药,投资股市,到找对象生孩子,AI 将无所不在。
 
工业革命,机器放(wan)大(bai)了人类的体力。信息革命,机器拓(nian)展(ya)了人类的智力。我想,下一个机器超越人类的领域,应该是魅力了。想想谦哥参加机器人花魁比赛(是当评委哈),一边抱两个机器妹子乐得合不拢嘴的样子,我真是好激动(当然,他们到底是谁为谁服务还真不好说)。要找回人类的尊严,想来想去只有和机器比道德了。不过,依人类的历史纪录看还是别提这一壶了吧。
 
不管你愿不愿意,人工智能的时代已经到来了。如果还用抱残守缺的心态一味地拒绝,叫着“法海(Fu** AI)!法海(Fu** AI)!”,那只能和不懂AI的法海一样,被时代无情的抛弃了。
 
老万(谷歌唠嗑大会资深话痨,谷歌“死了都要AI”协会荣誉会员)评职称专用
 
《孜然》杂志创刊号



推荐 252