阿尔法元自学成才，以100比0完爆阿尔法狗，你怎么看？

admin 2024年02月25日 12:59 296 0

今天微信朋友群里被阿尔法元刷屏了，实在是一个令人震惊的消息。这两年谷歌就没消停过，2016年整出个阿尔法狗1.0版4比1击败李世石九段，让棋界为之震惊；2016年底和2017年初，又整出个Maste,对人类高手60连胜，后来得知这是阿尔法狗2.0版；2017年5月第二次“人机大战”，阿尔法狗2.0版3比0完胜柯洁九段。至此，“人机大战”已经没有任何意义，人类高手在阿尔法狗面前难求一胜。

但始料未及的是，谷歌又推出阿尔法元，而且，与阿尔法狗1.0版和2.0版不同的是，阿尔法元完全不靠人类棋手的棋谱学棋、成长，只需懂得围棋规则后即在短短时间里成长为超级高手，与Maste对战拥有压倒性的胜率，简言之，阿尔法元已经接近“围棋之神”了。

这只能说明：人工智能已经发展到了我们难以想象的地步，霍金担心的人工智能有一天会摧毁人类并非危言耸听，它已经可以不借助人类积累数千年的棋谱在短时间里成为第一高手。一如刘小光九段所言：人类思考千年不如它短短的一瞬。而且，它还是单机版，方便随身携带，人类如果利用它，那人类高手们根本没有争胜的必要。

其次，围棋的深度和难度通过阿尔法狗、阿尔法元证明，我们人类数千年掌握的不过是沧海一粟，应验了日本名誉棋圣藤泽秀行所说的：棋道一百，我只知七。如果阿尔法元能让阿尔法狗1.0版三个子的话，人类认识围棋连百分之七都不到。就像柯洁九段说的那样：自从有了阿尔法狗后，没有什么棋不能下。问题是，知道什么棋都可以下仅仅是第一步，距离“围棋之神”还远着呢，但阿尔法元却接近“围棋之神”了。

非常令人震惊的进展！2016年3月4:1战胜李世石之后，Deepmind就放出风声，要让AlphaGo从零知识开始学习下围棋，当时让人很有兴趣。这种完全靠自学习，不学习人类棋谱的AI，在学成以后会如何下围棋？会不会从天元开始下？能达到什么样的实力？肯定非常有趣。

所谓零知识自学习，就是一开始就随机扔子，就如上图这样黑白等于是瞎下。从这种随机策略开始，慢慢改进，而不是学习人类的棋谱先来个策略网络一开始就下得象模象样。

但是后来这个零知识自学习的事一直没下文。到2017年5月乌镇3:0战胜柯洁时，中间有研讨会，David Silver出来讲了不少，也完全没有提这个。我还写文章，说零知识自学习可能失败了，陷入局部陷阱棋力并不太高。特别是2017年8月AlphaGo打星际的论文出来，从0知识开始学习，但是能力非常差，连暴雪最弱的AI都打不过，也不会造兵，更是让人觉得零知识自学习可能不行，人类的先验知识应该还是挺重要的。

但是2017年10月18日Deepmind第二篇AlphaGo论文《Mastering the Game of Go without Human Knowledge》出来了！论文给出了出乎我的预料的结果：

1. 从0知识开始学习，是可以训练成功的！这个成功的程度是”目前所有Alphago版本中最厉害“。100:0战胜AlphaGo-Lee版本，90%胜率胜Master版本（也就是战胜柯洁的那个）。但是还没有”天下无敌“，还是有一定概率输给Master，等级分领先幅度还不算大。下图右是等级分数值。

2. 从0知识开始，训练速度非常快！3天就能战胜AlphaGo-Lee，21天能战胜Master。下图左是AlphaGo-Zero等级分随时间提升的曲线。训练没有在早期陷入局部陷阱。

3. 让人类还算欣慰的是，虽然AlphaGo Zero不需要人类棋谱，但是训练出来下得还是象人的。论文给出AlphaGo Zero的83局棋谱，没训练一会就下得有模有样了。也不是从中腹天元开始下，而是象人类一样先占边角。这说明人类的这些行棋方向还不算离谱。实际这也早有征兆，几个围棋AI都这样，如果一开始不下角部，下在中腹或者边上，给出的胜率就会下降。

4. 虽然Alphago Zero下得象人，但是很多招为什么这么下，连高手都应该是看不懂了。它到了什么境界，人类还需要领会。

从哲学意义上来说，这说明围棋这种人类看上去很复杂的游戏，在AI看来却是简单的。因为围棋的规则与目标是明确的，甚至是最简单的，围棋几乎是规则最简单的游戏，只需要两个行棋规则：气尽提子，禁止全同。胜负规则，也是行棋规则自然出来的，终局数子。

围棋的规则，让AI可以不需要人类，就判定棋局的结果，这样就完全不需要人类干预进行自学习了。学名叫“无监督”。也就是说围棋是个完全客观的游戏。而人类在这种客观游戏中，确实在几百上千年中加入了不少主观的东西，各种“定式”、“趣向”、“价值判断”，这都是非自然的，肯定有不少错误。人类的经验，对AI的自学习来说，到很高的水平上，应该反而是障碍了。

AlphaGo Zero说明，对于完全客观的东西，人类的主观经验很可能是有错的，要勇敢地怀疑与挑战。当然也有不少问题，是依赖人的主观判断的，那对AI又是不同的，需要“监督”，如识别文字。

关于这个问题，每日经济新闻记者涂劲军认为：

AlphaGo Zero完胜曾经战胜人类的AlphaGo，这是一个里程碑的事件，对于Ai技术来说，是上到一个新台阶，足以在现实中证明，不依赖于人类的既有经验，让机器自主学习掌握了人类上千年的围棋技能。

这种新程序代表着人类在建造真正智能化机器方面向前迈进了一步，因为即使在没有大量训练数据的情况下，机器也需要找出解决困难问题的方法。 DeepMind联合创始人兼首席执行官戴密斯·哈萨比斯（Demis Hassabis）说：“最引人注目的一点是，我们不再需要任何人工数据，”。他认为，建造Alphago Zero的技术已经足够强大，可以应用在现实世界，例如药物发现与材料科学等一些有必要继续探索各种可能性的行业。Alphago Zero的相关研究成果发表在今天的《自然》杂志上。

阿尔法元自学成才，以100比0完爆阿尔法狗，你怎么看？-第1张图片-赞晨新材料

人类一直以来有一个担心，就是人工智能能够自我进化，从而超越人类，甚至对人类带来威胁。如果过去认为这种担心是多余的，那么现在完全有理由相信人工智能的强大足以超过人类。当然担心之外，我们还是应该庆贺一下，如果能够很好地管控好人工智能，人类完全还是可以把无比强大的人工智能当作工具，为人类服务。

从市场空间来说，高强度的人工智能，可以帮助人类解决很多前所未有的问题，正如哈萨比斯说的，在医药、新材料领域，完全不用借助过去的人类经验来推进，人工智能的研发，应该比人类研发速度更加快捷，从而在急用的这些领域上取得重大成就。

不管怎么样，人工智能依托人类知识的学习已经是完全可以实现的。当然他们必须还有一个过度阶段，因为现阶段的人工智能的创造与进步依然需要人类知识来推进，当不可否认的是，终究有一天，人工智能不再有人工二字，纯粹的程序智能，能够自我进化与完善，甚至于人脑融合。