複雑な行動系列の学習は誤差逆伝播的に行われない

来週締め切りの国際会議に提出する論文の準備が忙しすぎて完全にBlogを放置していました。

目論見としてはこちらに来てからの仕事のうち2つ(それぞれ人間と動物の実験データ解析)を出す予定でした。が、動物の方の結果がまだ微妙、かつそもそも規定上二重投稿が不可能なことが判明し人間の方だけ準備することに。とりあえず金曜日には共著者に投げたので、この土日は積んでいた他の仕事に取りかかれそうです(休めるわけではない…)。

そんな気晴らしに読んだ論文がこれです。
Optogenetic Editing Reveals the Hierarchical Organization of Learned Action Sequences.

脳の中心には線条体という部位があり、様々な学習や行動の実行重要な役割を果たしていることが知られています。線条体は複数の回路を通じて脳表面の皮質と複雑に情報をやり取りをしており、それら回路には"直接路"だとか"間接路"だとか色々な名前がついています。この論文は、複雑な行動系列を動物が学習する際にそれらの回路がどのような役割を果たしているかを検証したもの。具体的には、マウスに"左-左-右-右"という(マウス的には十分に複雑な)行動セットにより報酬が貰える課題をさせ、その学習に各回路がどう関わっているかを調べています。

神経生理的な発見の部分は以下の記事でわかりやすく説明されているのでゆずります(ちなみにこの方はいつも質の高い論文紹介をタイムリーに書いていて尊敬します)。
7月6日 行動の順序決める脳回路(6月28日号Cell掲載論文) | AASJホームページ
個人的には一通り説明しきったあとの以下の結びの言葉に激しく同意しました。

これでも頭が混乱するだけだと言われそうだが、線条体の二つの回路の奥の深さはよくわかると思う。

上の記事で触れていない部分でこの論文で強調されている点としては、行動系列の学習が報酬獲得から単純に後ろ向きに(back-propagation)学習されているわけではないということです。Back-propagation的、つまり報酬に対して近い行動系列から順に重要性を高めていく学習をした場合は"左-左-右-右"という行動セットの最後の"右"から順に学習していき、スタートの"左"は最後に学習されるはずです。しかし、学習結果を見るとスタートの"左"とゴールの"右"が途中の行動よりも先に、セットとして学習されていました。ここから、学習が階層的に行われているのではという流れに展開していき、各回路がスタート・ゴール、または左右のスイッチ等をコントロールしていくメカニズムを実験的に検証しています。(細かいですが、このケースはBack-propagationの信用割り当て(Eligibility trace)の時に最初と最後の重みが大きいと考えることもできます。なので厳密に言うなら、特定の重みで信用を割り当てながらBack-propagationしているケースが否定された、ということでしょう)

よく結果を見ると、"左x2→右x2"という系列を学習したというよりは"左複数回→右複数回"という系列を学習したといった方が正しい印象で、そこはこの論文の弱いところだと思います。レビュアーから指摘されたのか、そこをコントロールした実験もSupplementaryに載せており、一応一貫した結果は出ているようですが。