チーム戦FPSで人間チームを上回るパフォーマンスを出す人工知能エージェント軍団

囲碁やピンポンゲームは既に解かれたので、今のAI研究のターゲットはより長期的な計画を必要とするゲームや、プレイヤーから対戦相手の状況などゲーム状況の一部が隠されているゲーム、あるいは仲間との協調を必要とするゲームなどより高度なものへと移ってきています。今回DeepMindから出た論文は最後のパターンで、Quake III Arena (Q3A)のCapture The Flag(CTF)の簡易版で人間を上回るパフォーマンスを出しました。CTFとは要するにプレイヤー達が二陣に別れて相手陣地にある旗を取り合うゲームです。First Person Shooting(FPS)では非常に古典的なゲームモードの一つで、公式HPの動画を見るとわかりやすいかもしれません。

Human-level performance in first-person multiplayer games with population-based deep reinforcement learning
Human-level performance in first-person multiplayer games with population-based deep reinforcement learning | DeepMind
[1807.01281] Human-level performance in first-person multiplayer games with population-based deep reinforcement learning

研究内容的にはDeepMindの成果大集合といった印象で、フィギュアのボリュームも半端なく、近いうちにNatureかScienceに出そうな気がします。手法としてのポイントは大きく3つで、以下に思いっきり要約します。

  1. 異なるエージェント(設定では30)を並列で学習させていく群強化学習の新しい手法を提案。パラメータの最適化は、各エージェントごとに以下の補助タスク報酬最大化を行い、群全体としては勝率最大を目的に行う。特に後者は2017年に同グループが提案したPopulation Based Training(PBT)を使って一定の勝率を下回るエージェントはどんどん弾いて強いエージェントが残るようにする。
  2. ゲームの勝ち負けだけを報酬に使うと報酬がスパースすぎるので、途中のスコアを短期的な補助タスクとして解かせる。
  3. 時間軸が異なる二つのRNNを用意してやって、長い時間軸のRNNを短い時間軸のRNNの正則化に用いる。これらRNNには2016年のNatureで出したDifferentiable Neural Computer(DNC)を使用している。

これで人間チームにほぼ100%勝てるスーパー人工知能軍団が出現したわけですが、そもそもコンピュータの方が人間より反応速度(500ms v.s.250ms)もエイムの正確性(80% v.s. 48%)もそれぞれ約2倍性能が高いので、果たしてこの勝負に意味があるのかという懸念は当然でてきます。なのでそれぞれを人間レベルに落としてやったところ、それでも人間より強い結果に。加えて、人工知能軍団は解像度を相当落としてプレイしているので、長距離射撃の成功率は人間の17%に対して0.5%とほぼ「適当に打った弾が当たった」レベルです。つまり、人工知能軍団は単にチートで勝ったわけではなく、より高度な戦略レベルで勝ったのだろうと主張しています。

僕はQ3Aは専門ではなかったのであまり詳しくないですが、それでも数百時間ぐらいはプレイしたと思います。それにも関わらず、HPに上がっていた実際のプレイ動画を見てもQ3Aがあまりイメージできなかったので、"相当に"簡略化したゲーム環境だと考えていいと思います。他にも気になるところはあり、一番は反応速度とエイミングの正確性のコントロール実験。両方を同時にコントロールした場合は報告していないですし、サプリの一番最後に結果を配置するなど、なんだか怪しい。あと、人間は音情報にも結構頼っているので、そこも入力として使ったらどうなるのか(もちろんエージェントの方も強くなると思いますが)。あと、今回の研究では仲間との明示的なコミュニケーションは考慮していないので、その影響も気になります。