谷歌AI足球比赛现场,临门一脚,球进了!

清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>比赛_清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>联赛_清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>俱乐部

观众朋友们大家好,你们现在看到的是谷歌AI足球比赛的场景。 赛场上身穿黄色球衣的清华大学AI选手。

这个清华AI不一般。 经过刻苦训练,他们不仅拥有个人能力出众的明星球员,还拥有世界上最强、最紧密的团队合作。

在许多国际比赛中所向披靡并获得冠军。

“哦,现在七号接到了队友的助攻,最后一脚,球又进了!”

清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>俱乐部_清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>联赛_清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>比赛

言归正传,上面其实是清华大学在足球比赛中打造的一个强大的多智能体强化学习AI。

在多项国际比赛中获得冠军意味着在单智能体控制和多智能体控制上都取得SOTA表现,并成为第一个同时控制十名球员完成整个足球比赛的人。

这支强大的AI团队是如何训练出来的?

多智能体足球人工智能从单智能体策略演变而来

在此之前,我们先简单了解一下用于训练的强化学习环境,也就是这款足球游戏:(GRF)。

它由谷歌于 2019 年发布,提供基于物理的 3D 足球模拟,支持所有主要游戏规则,并由智能代理控制一名或多名足球运动员与对方的内置 AI 进行比赛。

比赛前半段和后半段共 3000 步,智能体需要不断决定移动、传球、射门、运球、抢断、冲刺等 19 个动作才能完成目标。

在这样的足球比赛环境下进行强化学习有两个难点:

首先,由于多智能体环境,即共有10名球员(不包括守门员)可供操作,算法需要在如此巨大的动作空间中搜索合适的动作组合;

其次,大家都知道足球比赛的进球很少,所以算法很难从环境中频繁获得奖励清华大学足球联赛,训练难度大大增加。

清华大学这次的目标是控制多个玩家完成游戏。

他们首先观察了2020年举办的GRF世界锦标赛中最终夺冠队伍的数万条自我对弈数据,并利用离线强化学习方法进行学习。

本次比赛只需要控制一名球员在场上进行比赛。

清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>比赛_清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>俱乐部_清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>联赛

如何从单智能体数据集中学习多智能体策略?

直接学习单代理操作并复制给每个球员显然是不可取的,因为那样每个人都会抢着球向球门冲去,根本就不会有团队合作。

没有关于后场不活跃球员行动的数据,那么我们该怎么办呢?

他们在动作集中添加了第20个动作:build-in,并给所有不活跃的玩家赋予了这个标签(如果在游戏过程中选择build-in作为玩家的动作,那么玩家将按照内置规则采取行动)。

然后使用多智能体行为克隆(MABC)算法来训练模型。

对于离线强化学习来说,核心思想是在数据中寻找更高质量的动作,并加强对这些动作的学习。

因此,在计算目标函数时需要给每个标签赋予不同的权重,以防止玩家倾向于只使用某个动作作为动作。

这里权重分配有两个考虑因素:

首先是从数据集中选择目标数量较多的游戏,只使用这些高质量的数据进行训练。 由于奖励相对密集,该模型可以加速收敛并提高性能。

第二种是训练网络对所有动作进行评分,并使用结果计算优势函数,然后对优势函数值较大的动作给予较高的权重,反之则给予较低的权重。

这里,为了避免梯度爆炸和消失,对优势函数进行了适当的剪裁。

最终的分布式训练架构由一个和多个组成。

它负责学习和更新政策,并负责收集数据。 他们通过 gRPC 交换和共享数据和网络参数。

清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>比赛_清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>俱乐部_清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>联赛

您可以使用多进程的方式同时与多个游戏环境进行交互,或者通过I/O同步读取离线数据。

这种并行执行的方式大大提高了数据收集的速度清华大学足球联赛,从而提高了训练速度(5个小时就可以达到其他分布式训练算法两天就能达到的性能)。

此外,通过模块化设计清华大学足球联赛,该框架还可以在不修改任何代码的情况下,一键切换单节点调试模式和多节点分布式训练模式,大大降低了算法实现和训练的难度。

94.4% 胜率,场均净胜 3 分

在多智能体(GRF)博弈中不同算法的比较结果中,最终算法(+AW)取得了最好的性能,胜率最高(94.4%),目标差异最大。

(机器学习竞技游戏排名系统)得分也是第一。

清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>联赛_清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>比赛_清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>俱乐部

与内置AI的对战,胜率高达94.4%,平均每场净胜3分。

清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>俱乐部_清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>联赛_清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>比赛

与GRF学术场景中的算法进行横向对比后发现,在所有场景下都取得了最好的性能和最低的样本复杂度,差距很明显。

清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>俱乐部_清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>联赛_清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>比赛

与基线 MAPPO 相比,还发现仅需要 100 万步即可在 5 个场景中的 4 个场景中获得最高分。

清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>俱乐部_清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>比赛_清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>联赛

最后附上完整的战斗视频供大家欣赏:

关于作者

第一作者为清华大学博士生黄世宇。 他的研究重点是计算机视觉、强化学习和深度学习的交叉领域。 曾就职于华为诺亚方舟实验室、腾讯人工智能、卡内基梅隆大学、商汤科技。

清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>比赛_清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>联赛_清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>俱乐部

共同作者也是清华大学的陈文泽。

此外,作者还包括国防科技大学的张老师,腾讯AI实验室的李老师、朱老师和叶老师,以及清华大学的陈婷老师。

通讯作者为清华大学朱军教授。

清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>比赛_清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>联赛_清华大学<a href=https://www.nmysy.com.cn/tag/zuqiu.html target=_blank class=infotextkey>足球</a>俱乐部

论文地址:

项目地址:

参考链接:

本文来自微信公众号“量子位”(ID:),作者:风色,36氪经授权发布。

本文标签: 清华大学足球联赛
相关新闻
大家都在观看