丰宁大滩-京北第一草原
2024-11-30 08:53:05
人工智能打英雄联盟LOL能拿冠军吗?
竹间智能Emotibot观点栏目,与您探讨最热门的AI话题。
AlphaGo与柯洁的人机大战2.0即将开启,人工智能与人类的博弈再次成为焦点。
其实在AlphaGo战胜李世石后,很多中国人都在琢磨,AI什么时候能打麻将?而电竞玩家们在思考的是,AI要花多久时间才能夺得星际争霸和LOL的世界冠军?
事实上,AI在下围棋和玩电子竞技上是不能简单类比的。以往用算法去创造一个超越人类玩家的AI,几乎是不可能的。但随着强化学习的出现,它赋予了电脑自己去学会怎么达到一个目标的能力。正是因为强化学习的发展,使得AI在电竞行业的跨领域发展有了新的突破。
当然,强化学习的“正经”用法不是打游戏。竹间智能在构建AI对话系统、训练情绪识别模型时,都用到了强化学习,且其起到了非常重要的作用。因此,我们邀请了竹间智能机器学习科学家兼LOL资深玩家王璈,来结合强化学习和LOL这类策略类游戏,和大家聊聊。
(注:本题一个已知限制——视野公平)
图片来源于网络
关于“AI是否能在LOL上打赢人类获得冠军”这个问题上,鉴于其本身的定义还是比较宽泛的,所以草率地说可以或者不可以,大概和脱离剂量谈毒性没多大差别。
恰巧学过一年AI,又是个爱玩游戏的人,当年也因学习Deepmind,之后又受到Atari游戏的影响做了强化学习方向的毕业论文,所以感觉应该可以谈谈我对题主这个问题的一些想法(放心,没有公式也没有教科书式的定义。)
我想在回答这个问题之前,第一步是理清LOL在本质上是个什么样的游戏。LOL的游戏设计师看起来应该是想模拟一个局部的战争,那既然是模拟战争,肯定就要分战略层面和战术层面。
首先在战术上,我觉得可能不需要使用一些机器学习的方法就可以做的还不错了。比如很久之前Dota中的AI就可以做到无缝连控,躲指向性技能,正反补不漏兵。能做到这些,在线上面对一般玩家甚至是职业玩家都可以不落下风。这就是代码比人厉害的地方,犯错的永远是人,代码永远不会错。
但是为什么就算是一般玩家也能击败看起来这么厉害的Dota中的AI呢?因为Dota中的AI缺少战略层面的东西。
一般在玩LOL的时候,我在战略上大概会做这几种决策:发育,攻击,侦查,协助,还有撤退。这几个大家都知道我就不一一细说了。早期游戏AI几乎都缺战略层面的东西。一般是用一些类似作弊的机制来平衡战略上的缺失。比如开全图,电脑买装备不要钱。但是这种平衡很容易就被聪明的玩家打破。
该问题有一个已知限制——视野公平。Alphago能成功是因为围棋是一个信息完全博弈,所以会有人说Moba带战争迷雾就变成了不完全信息博弈,如果电脑看不到我在做什么,它就没有任何可以针对我的办法了。这肯定是不对的。既然提到不完全信息博弈,贝叶斯纳什均衡告诉我们,应该还是会有最优解的。为了便于理解,你可以想想你自己遇到中单miss时会怎么办,要么我做了视野,心安理得地继续发育,要么我没有视野回塔下躲一波。这些决策以现在的知识和计算能力一般都是可以被量化为概率的。实在不行不是还有蒙特卡洛嘛。如果算不出来我多试几回也就知道概率了。
换句话说,AI能够和你一样猜出一个收益最高的决策。AI可以被设计得比你我有心计得多。举个栗子:Libratus在不限注德州扑克上击败了4名顶级玩家。
还有一些人会质疑,你上面说的德州扑克和围棋,那都是回合制游戏,并且可以做出的决策的可能性不多,比如围棋虽然有19*19个落点,但是至少不是连续的。你要做LOL的AI,每一步的决策是连续的,根本没办法做输入嘛。其实这个问题当年做毕设的时候也是让我困惑了挺长时间的。当年的毕设是这样的:有一个倒立摆,为了便于展示,被简化为只能在x轴方向移动。要用强化学习的方法让他自己学会怎么让倒立摆不掉下来。(如果不理解可以去百度或者油管搜inverted pendulum,有很多厉害的人做过优化。比如剑桥有个人做过一个类似的系统,只要试4次就能让机器学会,而我的需要140次左右。还有人做过三阶的倒立摆各种姿态的平衡,都非常有意思)这个系统本身也是连续的,但是通过固定小车拉力,控制施力时间的方法也是可以将连续输入变成离散的。这个原理和下面几种设计的思想是一样的:
所有游戏在设计的时候都可以被转换成回合制的,包括FPS游戏。
早期非变频空调,电冰箱或者现在的微波炉,都是全功率工作,通过设置工作时间来调节平均功率。
所以这样分析下来,只要能让AI知道自己在某一个时间点上应该做什么,做一个能打赢人类的LOL AI还是可行的。
这里可以稍微对强化学习做一个介绍:
正如某机器学习大牛所言,强化学习在机器学习领域里是一个大蛋糕上最美味的那一颗浆果,有趣美味到无以言表。在吴恩达的手上,强化学习可以优雅地做到让一个直升机倒过来悬浮在空中,而且编写这段代码的人不需要有很深的物理和工程相关的知识。在Raffaello D'Andrea的一系列关于四轴飞行器的Ted视频中,他的四轴飞行器也是厉害到能够在人的控制之下随心所欲地旋转跳跃闭着眼,且背上放着的一杯酒还一滴不洒。如果这些都由普通的代码逻辑去if else,那绝对是一场噩梦。或者由一些类似PID控制的算法去实现,那也需要一些数学,物理和工程方面的知识。另外也需要很多人力去优化它。但是如果有了强化学习,你可以理解成让电脑自己去学会怎么达成这个目标,优雅且美味。这就是大自然厉害的地方(强化学习是从动物学习、参数扰动自适应控制等理论发展而来)。
(此处强化学习的细节从略,以后若有需要再写。)
最后说个题外话,从AI这个名词诞生开始,大众对正在研究的AI的理解大概一直都是有偏颇的,这也是AI两次寒冬的原因,这和转基因技术的情况非常相似。既然学了点AI,然后因为热爱AI加入了竹间智能,和伙伴们一起开发情感人工智能。所以感觉自己就有帮助它健康发展的义务。同样,这也是转基因技术的从业者们正在做的事情。对于机器学习我自己有一个片面的武断的一句话理解,大概是:只要有人能做到,机器学习也能做到;如果所有人都做不到的,机器学习也做不到。
竹间智能Emotibot以类脑对话系统和情感计算为核心,希望以人工智能技术助力更多行业、机构及个人拥抱AI时代,分享AI发展的红利。
如需转载,请联系竹间智能Emotibot,并注明出处。
2024-11-30 08:53:05
2024-11-30 08:50:52
2024-11-30 08:48:39
2024-11-30 08:46:26
2024-11-30 08:44:13
2024-11-30 08:42:00
2024-11-30 08:39:48
2024-11-30 08:37:35
2024-11-30 08:35:22
2024-11-30 08:33:09
2024-11-30 08:30:56
2024-11-30 08:28:43
2024-11-30 08:26:30
2024-11-30 08:24:17
2024-11-30 08:22:04
2024-11-30 08:19:51
2024-11-30 08:17:38
2024-11-30 08:15:26
2024-11-30 08:13:13
2024-11-30 08:11:00