ASCII码 ASCII码

中国AI足球队勇夺世界冠军:腾讯绝悟出品

发布于:2020-12-31 09:38:23  栏目:技术文档

  一记漂亮的长传,直接助攻射门:

  带球连过两人:

  这样高超的线上足球技巧,并非上手两三年的“老玩家”做出的,而是仅仅练习了一个月的腾讯 AI“绝悟”。

  现在,战胜大部分荣耀玩家后,AI“绝悟”又化名 WeKick,去试手了一把谷歌举办的线上世界足球赛。

  没想到,轻轻松松就拿了个冠军回来:

  嗯?打完王者,还能踢 FIFA?

  没错,利用迁移学习,就能让“足球版绝悟”WeKick,快速掌握踢足球的技巧。

  但要想踢出多种策略、稳定掌握这些策略,还得采用不同的方法。

  各种风格小模型,共同训练主模型

  从“绝悟”完全体迁移过来的 WeKick,针对这场足球比赛,进行了策略性的调整。

  与常规足球游戏的“控制整只球队”不同,这场足球比赛中,每个队伍需要控制其中 1 个智能体,与游戏中的 10 个内置智能体组成球队(11vs11 赛制)。

  也就是说,每个智能体“球员”,都需要学习如何在队友之间传球,并克服对手的防守以进球。

  然而采用强化学习,从 0 开始训练一个会踢球的 AI,相当困难。

  在王者荣耀等 MOBA 游戏中,智能体可以学习的信号非常多,包括实时经济、血量、经验等。

  但足球游戏的激励非常稀疏,几乎只有“进球”这一项奖励机制。

  稀疏激励,正是强化学习的难题之一。

  为了突破这一难关,“绝悟”WeKick 版本采用了 3 点创新,来对模型进行训练。

  首先,是自博弈 (Self-Play)强化学习。

  WeKick 部署了一种异步分布式强化学习框架,虽然会牺牲训练时的部分实时性能,但能够提升其灵活性,支持在训练过程中按需调整计算资源。

  此外,WeKick 还结合生成对抗模拟学习(GAIL)与人工设计奖励,采用了生成对抗训练机制。

  这种机制能够模拟专家行为的状态和动作分布,使得 WeKick 能够从其他球队中学习经验。

  之后,将 GAIL 训练的模型作为固定对手,再一次进行自博弈训练,就能提升策略的稳健性。

  这种方法虽然不错,却存在一个缺陷。

  训练后,模型容易收敛成单一风格,容易发生因“没见过某种打法”而表现失常、导致成绩不佳的情况。

  因此,WeKick 的团队想出了一种方法:采用多风格强化学习的训练方案,让智能体“球员”们先专精一个领域,再进行配合。

  也就是说,先训练一群具备一定竞技能力的基础模型,每个模型分别掌握运球过人、传球配合、射门得分……

  然后,基于基础模型,训练出多种风格的各个模型,过程中会定期加入主模型作为选手,避免模型坚持原来的风格。

  最后,将这些模型集合起来,训练一个主模型,期间除了主模型以历史模型为对手,还会拿所有风格化基础模型当对手,确保主模型能应对各种风格的踢球方式。

  通过这 3 种方式训练出来的模型 WeKick,既具有丰富的足球经验,也能准确地对抗各种不同风格的比赛技巧。

  谷歌+英超,线上足球赛

  这个线上足球赛 Google Football,有点像是一款 AI 操作的足球游戏,由谷歌和英超曼城俱乐部在 Kaggle 上联合举办。

  比赛采用谷歌强化学习环境,基于开源足球游戏 Gameplay Football 开发,共有来自世界顶级院校、研究机构的 1100 多支队伍参与挑战。

  与足球赛的比赛规则一致,线上足球赛同样需要遵守越位、黄牌、红牌等规则。

  而在谷歌提供的足球环境中,智能体“球员”则可以做出短传、长传、运球、射门等动作。

  在经过几轮厮杀后,WeKick 最终以 1785.8 的总分,在这场竞技中以显著优势胜出。

  不过,这也并非“绝悟”第一次参加谷歌举办的足球赛。

  在 5v5 的多智能体天梯赛 Google Research Football League 中,“绝悟”同样取得了第一名的成绩。

  事实上,在游戏 AI 上一路向前的“绝悟”,已经历了 3 次进化。

  从最初攻克 Atari 游戏开始,到后来的围棋 AI“绝艺”,再到包括王者荣耀在内的 MOBA 游戏 AI“绝悟”、如今的足球游戏 AI“WeKick”,这一深度强化学习智能体正变得更复杂。

  腾讯 AI Lab 表示,它们的目标是向通用人工智能(AGI)不断迈进。

  整体训练框架:https://arxiv.org/abs/1912.09729

  Kaggle 足球赛排行榜:https://www.kaggle.com/c/google-football/leaderboard

  - THE END -

  #足球#AI

原文链接:量子位责任编辑:万南

相关推荐
阅读 +