阿尔法星际

AlphaStar是一种卷积神经网络。研发团队用职业玩家的录像训练网络，然后借助对战模式，研究人员训练AlphaStar，教它如何打败人类。

2019年1月25日，DeepMind与暴雪在网上直播，公布了在《星际争霸2》游戏中取得的进展，名为“AlphaStar”（阿尔法星际）的人工智能在与两位人类职业选手“TLO”和“MANA”的比赛中，均以5比0取胜。

基本信息

中文名
阿尔法星际
外文名
AlphaStar
开发商
DeepMind
主要成绩
战胜人类游戏职业选手

模型设计

AlphaStar 是一个把游戏看作长序列建模学习任务的强化学习智能体，它的模型设计也就以长序列建模为能力为核心。模型从游戏接口接收的数据是单位列表和这些单位的属性，经过神经网络计算后输出在游戏中执行的指令。这个神经网络的基础是 Transformer 网络，并且结合了一个深度 LSTM 网络核心、一个带有指针网络的自动回归策略头，以及一个中心化的评分基准。这样的网络架构是 DeepMind 对复杂序列建模任务的最新思考结果，他们也相信这样的先进模型可以在其他需要长序列建模、有很大行动空间的机器学习任务（比如机器翻译、语言建模和视觉表示）中同样发挥出优秀的表现。

AlphaStar的行为是由深度神经网络生成的，该神经网络接收来自原始游戏界面的输入数据（单位及其属性列表），并输出构成游戏内动作的一系列指令。更具体地说，神经网络结构施加一个变压器躯干的单位，附合深LSTM核心，一个自回归政策头与指针网络和集中值的基线。我们相信这种先进的模型将有助于机器学习研究中的许多其他挑战，包括长期序列建模和大输出空间，如翻译，语言建模和视觉表示。

AlphaStar还使用了一种新颖的多智能体学习算法。神经网络最初是由暴雪发布的匿名人类游戏的监督学习训练的。这使AlphaStar能够通过模仿学习星际争霸阶梯上玩家使用的基本微观和宏观策略。这个初始经纪人在95％的比赛中击败了内置的“精英”级AI - 一个人类玩家的黄金级别。

训练策略

AlphaStar 的初始训练策略与早期的 AlphaGo 相同，DeepMind 的研究人员首先用人类比赛的比赛 replay 对模型进行监督学习训练，以模仿学习的思路让模型快速学习到高水平玩家们在星际争霸天梯中使用的基础策略和微操。这时候的 AlphaStar 就能够以 95% 的胜率打败星际争霸 2 内置的「精英」级别的 AI 了。

下面当然就是强化学习的自我对弈、继续提升水准的阶段了，而这也是和 AlphaGo 的训练策略有所不同的地方。AlphaGo 自我对弈阶段的棋局是由所有之前的迭代过程中出现的表现最好的一个版本生成的，也就是说每一时刻都存在一个「最好的版本」，也不断寻找比它还好要的版本并进行替换。但对于星际争霸，DeepMind 的研究人员们认为不同的优秀策略之间可能是相互克制的，没有哪一个策略是可以完胜其它所有策略的。所以这次他们的做法是分别更新、记录许多个不同版本的网络（合称为 AlphaStar league）。

AlphaStar 在人类数据上初始训练后，继续进行多轮AlphaStar league 中的自我对战，而每轮都会在之前的数个比较强的版本基础上进行分叉；分叉前的版本会被固定参数保留下来，一直参与后续的多轮自我对战；不同的版本也可能会被人工安排不同的对战策略和学习目标。这样的做法就在不断提升网络水平、提高对战难度的同时也保留了足够的多样性。根据每轮自我对战的结果，每个的网络参数都会进行更新；这种做法来自于群体强化学习的思想，保证了持续稳定的表现提升，而且很新的版本也不会「忘记」如何击败很早的版本。

群体自我对弈的过程中可以产生许多不同的策略。有一些策略仅仅是对早期策略的细微完善，也有一些策略会含有全新的建造顺序、单位组合、微操模式；能够稳定击败早期策略的策略也开始出现。比如在 AlphaStar league 自我对战的早期，快速 rush 的策略有较高的胜率；但随着训练过程持续，其它的策略开始展现出更高的胜率，比如用更多的工人快速扩大基地，获取更多的资源后建立经济优势；或者用几个兵去对方的基地骚扰，获得发展速度的优势。这种策略的更替演化也和人类选手们数年中的摸索之路非常类似。如下图，随着总训练时间越来越长，智能体平均使用的单位数目也越来越多。

训练策略

算力需求

为了支持大批不同版本 AlphaStar 智能体的对战与更新，DeepMind 构建了一个大规模可拓展的分布式训练环境，其中使用了最新的谷歌 TPUv3，这个训练环境可以支持成群的 AlphaStar 智能体实例同时运行；星际 2 游戏主体也有数千个实例同步运行。AlphaStar league 的自我对战训练过程用了 14 天，每个 AlphaStar 智能体使用了 16 个 TPU，最终相当于每个智能体都有长达 200 年的游戏时间。训练结束后的模型在单块消费级 GPU 上就可以运行。

游戏表现

由于 AlphaStar 首先从人类玩家数据进行模仿学习，以及神经网络有一定的计算延时，它的操作频率其实比人类选手还要低一些。MaNa 的 APM 达到了平均 390，而 AlphaStar 却只有平均 280 左右而已。AlphaStar 的计算延时平均为 350 毫秒（从观察到做出行动）。（相比之下，以往基于固定策略和手工规则的星际 AI 会保持上千的 APM）1

游戏表现

比赛历程

2019年1月25日，DeepMind与暴雪在网上直播，公布了在《星际争霸2》游戏中取得的进展，名为“AlphaStar”（阿尔法星际）的人工智能在与两位人类职业选手“TLO”和“MANA”的比赛中，均以5比0取胜。2

但在之后的现场比赛中，MaNa因为发现了AI操作上的缺陷，才成功为人类扳回一局。这同样也创造了历史——AlphaStar首次成为职业选手的手下败将。3

阿尔法星际

基本信息

模型设计

训练策略

算力需求

游戏表现

比赛历程

参考资料