深層学習の汎化性能は各ニューロンの入力選択性にも依存する

少し前の記事(神経科学者はマイクロプロセッサを理解できるか? - tkg日記)は、古典的な神経科学の手法が(ノイズのない綺麗な大量のデータを解析に使える)マイクロプロセッサの目的すら明らかにできない、という批判的な内容でした。今回の研究はその逆で、古典的な神経科学の手法や知見がディープニューラルネットワーク(DNN)の性能解析に役立つのではないかという内容です。またしてもDeepmindのグループ。

On the importance of single directions for generalization – Google AI

内容としては、よくある画像のクラス判別用DNNの各層の各ユニットについて、様々な入力に対する反応の強さを計算してやったところ、特定の種類の入力に対して強く反応するニューロン(Single-direction selective neuron)が、訓練に用いていない未知の画像データのクラス判別性能(汎化性能; Generalization ability)に強く影響していたとのことです。

面白いのは、大目的であるはずの画像の各クラスに対して強く反応するユニット(Class-selective neuron)は、汎化性能にそれほど影響がないということ。これは一見直感に反する実験結果ですが、神経科学の知見でも、各クラスに対するニューロンの選択性よりも、入力に対する選択性の方が重要という知見があるらしく、それと一致しているのが面白い点のよう。実用的にも、訓練中にネットワークの入力選択性をチェックしておくと、それが過学習の指標に使えるということで、いわゆるvalidation dataが不要になり、結果として効率的な学習が可能となります。

Matthew Botvnik率いるDeepmind神経科学チームの研究ですが、彼らの論文ではよくNeuroscience-inspired methodなる単語を見かける気がします。やっぱりだいぶポジショニングを意識してるんでしょう。