百を超える選択肢に直面した際の人間の戦略

Neural Processesの記事でも書きましたが、人が未知の環境に置かれた際、どうやって環境を効率的かつ正確に把握しているかは認知科学だけではなく人工知能の問題としても重要な問題です。この論文では、100以上の選択肢からどうやって人間が正解(最も価値が高い選択肢)に試行錯誤しながらたどり着くかを検証した論文です。
www.nature.com

実験では、鉱脈や温泉を掘り当てるゲームのようなものを、数十人を対象にオンラインで実施しています。実験の最初に11x11の閉じられたマス目が与えられ、各ターンそれらのマス目のどれか一つを選び、そのマス目のスコアをチェックしていきます。各ステージごとに数ターンから20ターン程度が与えられ、なるべくステージ内での合計スコアを高めるか、121マスの中で最も高いスコアのマス目を見つけることが目的です。合計121マスもあるため、20ターン程度の選択ではとても全部のスコアを調べることはできません。そのため、他に情報が無いとかなり難しい問題なのですが、「隣り合う選択肢の価値は似ている」という重要な前提があり、そのことも事前に参加者には知らせています。なので、その情報をうまく使えばランダムに探索するよりはずっと簡単な問題となります。

論文では、人間がそのような空間的な事前情報を活用しているかどうかを探っています。結果としては予想通り「使っている」という結論で、そのような前提を組み込んだ複数のモデルを検討した結果、Gaussian Process (GP)によるモデルが最もよく人間の行動を予測したとの結果。

以上が最も大きな結果で、「関数推定の際に人間が空間相関の情報を使っている」という結論はわりとすんなり受け入れられるというか、むしろこれまでやられていなかったんだという気分に。「人間の関数推定方法やそのバイアスを探る」という問題設定自体は自分も興味があるのですが…。

研究ではGPのカーネルを固定していますが、人間がどんなカーネルを使っているか、環境によってそこをどう適応させているか、といった点は興味があります。この辺はHarvardのGershman、PrincetonのDawらの最近の研究テーマでもあり、著者らもこのグループのはず。GPの予測力が比較対象の単純なモデルと比べても大して良くないですし、実際はもうすこし複雑、あるいはバイアスがかかったカーネルを使っているのだと思います。あとは、グラフ構造のようなより複雑な場合にどうしているか。人間が使っているグラフカーネルの構造なんかは、今回のような単純な問題に比べるとあまり想像がつかないので、探ってみると面白いかも。

追記:
今回の論文に続いて出た以下のレビューを読んでちょっと読み込みが足らなかったしていたことに気づきました。研究では、GPにより推定された不確実性を考慮し、賢く探索を行うUpper Confidence Bound(UCB)をモデルに採用することで、人間の行動を説明する能力が意味があると主張しています。つまり、空間相関だけでなく、不確実性に対する積極性を明らかにしたことも貢献の一つでした。ただそれでもなお、人間がUCBを使っていることがこれまで示されていなかったのが意外でしたが…。
The algorithmic architecture of exploration in the human brain - ScienceDirect