人工知能モデルの出力を解釈しやすくするために人間が直接介入

モデルの出力が人間にとって解釈可能(Interpretable)かどうかは、実応用を考えると非常に重要です。

一方で、解釈可能性を定量化するには実際に人に聞かないといかず、それはコストがかかります。大企業ならいざ知らず、そうではない団体や個人にとっては大規模なA/Bテスト等をするのは辛い。

そんなわけで、これまでは実験者が考えた解釈可能性と相関しそうな指標(入力に対する重みのスパースネス等)を便宜上最適化することで対応していましたが、その前提が本当に正しいかどうかは怪しいですし、応用分野によっても重要な指標はきっと違います。

以下の論文では、その解釈可能性について、Amazon Mechanical Turk(AMT)を使ってモデル毎に定量化し、なるべく解釈可能性が高いモデルを効率よく見つけるような手法を提案しています。
[1805.11571] Human-in-the-Loop Interpretability Prior

基本的には、なるべく人に聞く実験コストを抑えつつ、妥当なモデルを見つける方針です。なので、完全にゼロから出発するのはコストがかかりすぎるため避けて、事前にある程度判別率が高い類似のモデルを複数用意して、それらを比較するやり方を取っています。その上で、ある入力に対する各モデルの出力を人間に予測させるタスクをAMT上で行いました。各モデルの解釈可能性の指標は、そのタスクにおける反応時間によって定義されます。正答率じゃないんだ、という気はしますが、どうやら先行研究がある模様。

ここまで問題を作ったら後は、いかにして多数のモデル候補から一番有望なモデルを選ぶか、という問題になります。単純には全候補を人間に評価させてその中で一番良いやつを選ぶ、というやり方ですが、それだと候補数を絞らないといけません。そこで、この論文ではベイズ最適化を使っており、イテレーションを回しながらハイパーパラメータ空間上で有望そうなモデルを探索するアプローチを採用しています。

個人的には手法の細かい部分はどうでもいいんですが、こういう実験から「人間が考える人工知能の解釈可能性とは…」みたいな問いを立てて探っていくのは面白いかも。あと、前に書いた以下の二つの記事と関連が深そうですね。
人間が、人工知能のために働く時代 - tkg日記
人工知能の出力理由を人間にもわかりやすくする技術 - tkg日記