12 月 30 日,腾讯宣布其人工智能球队摘得首届谷歌足球 Kaggle 竞赛冠军。该冠军球队来自腾讯 AI Lab 研发的绝悟 WeKick 版本,凭借 1785.8 的总分在与全球顶级技术团队的竞技中以显著优势胜出。
今年 11 月底,腾讯 AI Lab 与王者荣耀联合研发的策略协作型 AI 绝悟升级为完全体,首次让 AI 精通了所有英雄的所有技能。此次绝悟 WeKick 版本的整体设计正是基于绝悟完全体迁移得到,并针对足球任务进行了一些针对性的调整,展现了绝悟 AI 背后深度强化学习方法的通用能力。
Kaggle 竞赛 Google Football 排行榜前十名
Kaggle 创立于 2010 年,是全球最大的数据科学社区和数据科学竞赛平台。此次足球 AI 比赛由 Google Research 与英超曼城俱乐部在 Kaggle 平台上联合举办。
一直以来,足球运动团队策略以其复杂性、多样性和高难度,成为长期困扰世界顶尖 AI 研究团队的难题,更加稀疏的游戏激励也使得其成为比 MOBA 游戏更难攻克的目标。今年 Kaggle 首次针对足球 AI 领域发布赛题,为深度强化学习多智能体技术竞技和基准评测提供了一个全新舞台。
比赛使用 Google Research Footbal 强化学习环境,基于开源足球游戏 Gameplay Football 开发,采取 11vs11 的赛制,参赛团队需要控制其中 1 个智能体与 10 个内置智能体组成球队,兼具挑战性和趣味性。一经推出,便吸引了来自世界顶级院校和研究机构的 1100 多支科研强队参与挑战。
“11 个强化学习智能体的合作与对抗”
Google Football (on Kaggle)以流行的足球游戏为模型,就像是一款由 AI 操作的 FIFA 游戏,智能体控制足球队中的一个或所有足球运动员,学习如何在他们之间传球,并设法克服对手的防守以进球。其竞赛规则与普通足球比赛类似,比如目标都是将球踢入对方球门以及越位、黄牌和红牌规则。
不同于常见足球视频游戏的统一调控式 NPC 球队,在本次 Kaggle 竞赛中,每个球员都各由一个单独的智能体控制,而参赛的 AI 模型则根据比赛情况控制其中一个智能体,与其他 10 个内置智能体配合。这要求每个球员不仅需要观察对手的行为,还需要留意己方队员的情况,背后需要非常复杂的团队协作和竞争策略作为支撑。
WeKick(黄色球衣) vs SaltyFish(本次竞赛第二名)近期的一局比赛实录(射门)
举个例子,当对方球员控球时,己方智能体不仅要根据球场上双方球员的分布位置预测控球球员的下一步动作,还需要与己方其他球员协同如何合规地夺取足球的控制权。且由于球场动态瞬息万变,因此高速的实时决策能力也是必需的。
此外,从零开始完全采用强化学习方法来训练完整的足球 AI 实际上也相当困难。与 MOBA 游戏中不断有经济、血量、经验等实时学习信号不同,足球的游戏激励非常稀疏,基本只能依靠进球,而稀疏激励一直是目前强化学习一大难题。
绝悟 AI 如何走上冠军之路
得益于深度强化学习在游戏领域突飞猛进的发展,从 Atari 游戏到围棋再到多种不同的视频游戏,AI 智能体在不断的迭代演化中变得越来越强大,而足球运动团队策略的难关也得以被攻克。
绝悟 WeKick 版本首先采用了强化学习和自博弈(Self-Play)来从零开始训练模型,并部署了一种异步的分布式强化学习框架。虽然该异步架构牺牲了训练阶段的部分实时性能,但灵活性却得到显著提升,而且还支持在训练过程中按需调整计算资源,使其能适应 11 智能体足球游戏训练环境。
由于 MOBA 游戏和足球游戏任务目标的差异,绝悟 WeKick 版本采用了生成对抗模拟学习(GAIL)与人工设计的奖励结合,在特征与奖励设计上进行了扩展和创新。该方案利用了生成对抗训练机制来拟合专家行为的状态和动作分布,使得绝悟 WeKick 版本可以从其它球队学习。然后,再将 GAIL 训练的模型作为固定对手进行进一步自博弈训练,进一步提升策略的稳健性。
GAIL 的优势(WeKick 的奖励设计综合了 Reward Shaping 和 GAIL 两种方案)
但这种通过自博弈强化学习得到的模型有一个天然的缺点:很容易收敛到单一风格。在实际比赛的时候单一风格的模型很容易发生由于没见过某种打法而表现失常,最终导致成绩不佳的情况。因此,为了提升策略的多样性和稳健性,绝悟还采用了针对多智能体学习任务的 League(若干策略池)多风格强化学习训练方案。
这种 League 多风格强化学习训练方案的主要流程可简单总结为先专精后综合。
首先训练一个具备一定程度竞技能力的基础模型,比如运球过人、传球配合、射门得分;接着基于基础模型训练出多个风格化模型,每个模型专注一种风格打法,在风格化模型训练的过程中会定期加入主模型作为对手,避免过度坚持风格,丢失基本能力;最后基于多个基础模型训练一个主模型,主模型除了以自己的历史模型为对手以外,还会定期加入所有风格化对手的最新模型作为对手,确保主模型能够适应风格完全不同的对手。
内部能力评分系统显示,加入对手池训练以后的主模型,可以在基础模型的基础上提高 200 分,比最强的风格化打法高 80 分。
最终,基于绝悟完全体的架构迁移,定制化的框架改进,加上关键性的生成对抗模拟学习(GAIL)方案和 League (若干策略池)多风格强化学习训练方案,使得绝悟实现了优于其它竞争 AI 球队的优势,最终成就了冠军之路。
WeKick(黄色球衣) vs SaltyFish(本次竞赛第二名)近期的一局比赛实录(传球)
此次绝悟 WeKick 版本夺冠,意味着在绝悟继完全体升级后,其背后的深度强化学习方案又训练出了适应复杂足球竞技场景的 AI 模型,展现了腾讯 AI Lab 在前沿 AI 技术上的研发实力,也验证了腾讯绝悟 AI 底层架构与方法的通用性。
据了解,绝悟团队的研究方向正在从足球比赛中的单个智能体控制向 11 个智能体同时控制、协同作战深入,当完整的足球独立智能体个数达到 11 个,强化学习的难度将随着智能体个数的增长呈现指数级的爆炸增长,同时足球智能体之间差距不大,如何自动形成角色分工以及在不同角色间的激励分配也一直多智能体强化的难题。在此前 5v5 形式(多智能体)的谷歌天梯比赛 Google Research Football League 中,腾讯绝悟团队也摘得冠军,展现了绝悟 AI 的巨大潜力。
从围棋 AI 绝艺到 MOBA 游戏 AI 绝悟再到如今的 AI 足球队 WeKick,腾讯 AI Lab 的深度强化学习智能体正在步步进化,逐渐向更复杂更多样化的问题迁移,腾讯也正在向通用人工智能的终极目标坚定迈进。长远来看,绝悟背后的研发经验和算法积累,未来还将在 AI 与农业、医疗及智慧城市等广阔领域的结合上展现巨大潜力,创造出更大的实用价值。
相关推荐
© 2020 asciim码
人生就是一场修行