脳活動エンコーディングとTikhonov回帰とリッジ回帰

最近読んだ論文の中で一番面白かったです。

www.biorxiv.org


著者による解説

脳活動エンコーディングとは

脳情報の解析には色々な手法がありますが、代表的なものに「エンコーディング」や「デコーディング」というものがあります。

僕はこれまで主にデコーディングの研究をやってきましたが、これは「脳情報を元に刺激を予測する(脳→刺激)」もの。"刺激"というとわかりにくいですが、要は脳が何を見てるか・考えてるか当てるというものです。

この逆にエンコーディングは、「刺激を元に脳情報を予測する(刺激→脳)」というもので、つまりデコーディングの逆です。応用を考えるとデコーディングの方がわかりやすいですが、例えば特定の心体験を外部から刺激して作り出したい(SF的な話)時は、こちらのエンコーディングが必要になります。

エンコーディングとデコーディングは表裏一体で、実際に数学的には等価なことをやっています。ただ、実際に研究で使う上では言えることに違いが出てくるケースもあります。そのため、神経科学分野ではこちらのエンコーディングを主な研究の道具としている研究者も多くいます。

どういった時にどちらが優れているかは思想上の問題もあり、それだけで一つのトピックになるほど…。

これまでのエンコーディング手法はTikhonov回帰の特殊系

この論文はエンコーディング業界、あるいは認知神経科学業界全体でもトップクラスに有名なJack Gallantラボの論文です。

エンコーディング研究でよくやられる手法として、刺激を何かしらの関数で特徴量へと変換した後、その特徴量を用いてリッジ回帰(L2正則化線形回帰)を使って脳活動を予測する手法があります。この論文では例として、言語情報(刺激)をWord2Vec的な関数によって変換したケースを考えています。実際にHuth et al., Nature 2016やMitchell et al., Science 2008 など様々な研究でこのアプローチが採用されており、非常に一般的なエンコーディングのやり方です。

この論文では、そのような「刺激の特徴量変換後のリッジ回帰」が、「刺激をそのまま特徴量として用いて、特徴量間の関係性の情報を事前分布として用いた場合のTikhonov回帰」と一致することを示しています。

これは、球状共分散(同一分散かつ特徴量間が無相関)・ゼロ平均のガウス分布を特徴量の事前分布に仮定しているリッジ回帰に対し、Tikhonov回帰は共分散の事前分布を任意のものに設定できることからきています。言い換えると、Tikhonov回帰はリッジ回帰の一般化であり、リッジ回帰と同様な事前分布を用いた時に両者は一致します。このTikhonov回帰の事前分布、つまり「特徴量間がどれぐらい似てそうかという事前知識」に例えばWord2vecなどを使ってやることで、結果的にこれまでのエンコーディングの解析と同じことができます。

計算量に関しても、よく知られている変換を加えてやることで最終的に通常のリッジ回帰と同じ形に持ち込むことができるので、リッジ回帰と等価になります。

Tikhonov回帰を用いることによる様々なメリット

こう考えてやることによるメリットは複数あります。

一つに、複雑な特徴量変換を経ずにモデルを立てることができるため、解釈がしやすい。

他にも、例に出した言語以外にも様々な種類の事前知識を柔軟に入れられます。たとえば、エンコーディングをする時によく複数時点(例えば予測する脳活動の3時点前から)の刺激を一緒にモデルに入れてやるのですが、それら異なる時系列の刺激間の相関に関する知識(例えば、近い時点はよく似た活動をする)も柔軟に取り入れることができます。この時系列間の相関を組み込むことは、時間方向への畳み込み処理を行うことに対応します。

加えて、複数の特徴量群(例えば音声付きの映画を見ていたら、音声特徴量と画像特徴量)を一緒にモデルに入れてやって、それぞれに異なる事前分布を設定することで、観測された脳活動に対する異なる特徴量群それぞれの寄与をより適切に推定することができることも示しています。

複雑な手法ではないので自分で実装することも容易ですし、githubでコードも公開しているためすぐに使えます。


以上ですが、冒頭でも書きましたが、ここ最近読んだ論文で一番面白かったです。Tikhonov回帰自体はリッジ回帰の一般化なので、リッジ回帰を知っていれば非常にわかりやすい概念で、論文のアイデアもよくわかりました。わかりやすくて、自分もすぐ使えて、これまでの研究の見方を少し変えてくれる、良い研究だと思いました。