脳の理解と理論と仮説

以前に自分も記事を書いた論文について解説している記事が界隈で話題になっていました。プロの編集者と研究者の共同の記事で、とてもわかりやすく元論文について説明してくれています。自分でも改めて元論文を読んでみたのですが、自分が以前に読んだ時に勘違いして読んでいた部分もあって、そこに気づけてよかったです(それに合わせて自分の記事も修正しました)。

rmaruy.hatenablog.com

元論文の中で、Kordingらはいくつかの処方箋を提案しています。その中には、「脳の性質や構造についての理論・理解を踏まえて解析や実験系を組み立てる」という提案もあり、これは上の記事で言っていることに近い印象があります。例えば一つ前の記事で書いたような「自由エネルギー原理」はそうした大きな理論の一つですね。Kording本人がそうした枠組みを提案する後続論文も出ていて、流行りのDeeplearningに乗っかって話を展開しています。

www.frontiersin.org

また、先日紹介した脳xAIのPodcastの直近ゲストであるKrakauerも、Kordingらの論文を引用しつつ以下のような提案をしています。
www.sciencedirect.com
神経科医としての彼の立場はタイトルではっきりと表明されていますが、要するに神経活動ではなくもっと行動を観察し、そこから理論を作り、その上で神経活動をみていこうというもの。Marrについてもたくさん触れています。本人による極めてざっくばらんな解説がPodcastで聞けるので興味があればそちらを聞くのがいいと思います。

ちなみにKordingの論文とKrakauerの論文は、以下のDeepMindのDemis Hassabisらによる論文でも並列で紹介されています。神経科学のアプローチを機械学習に取り入れる際には、仮説に基づいて注意深く設計された実験系で行うべき、という文脈です。
www.sciencedirect.com

(ところでMarrの話はこの辺の論文でも普通に出てきていますし、オックスフォードで雑談している時にも、今自分たちがどの辺の研究をしているのかという整理をするときにMarrの名前は出てきます。)

ここまで書いて、「そもそも仮説無しに実験・解析するなんてありえるのか」という、より本質的な問いに関する以下のGershmanによるスレッドを思い出しました。バイアス無しにデータから"発見"することはありえないだろうという話ですが、それは確かにその通りといった感じ。

「自由エネルギー原理は脳について何を教えてくれるのか?」

脳の統一理論?

認知神経科学界隈でよく知られている理論の一つに、英国UCLのKarl Fristonが提唱している「自由エネルギー原理」というものがあります。ネットで検索すると日本語でも英語でも膨大な説明資料が出てくるわけですが、たとえば以下のようなスライドは導入の助けになると思います。
www.slideshare.net

僕自身は、自由エネルギー原理というタームはたまに見かけるものの(恐れ多くも)たいして真剣に勉強したことも考えたこともありませんでした。

大雑把に「人は日常的(かつ無意識的)に、これまでの経験を踏まえて、今後なにが起きるかを予測して暮らしている。そして、日々の暮らしの中でその予測精度をどんどん上げるように生活している」的なことを言っているんだなぐらいの理解です。こういう内容をオシャレに言い換えると、Predictive Codingとか生成モデルとか順・逆モデルとかいう言葉が出てくるんだと理解してました(間違ってたら指摘してください)。

あと、自由エネルギー原理について語られる時はだいたい「脳は積極的に知らないことを解消したがる」みたいな議論もセットで出てきて(実際に上のスライドもそんな感じ)、それをActive inferenceとか言ってるんだなぐらいの認識もありました。なんだか人間の好奇心とかと関連してそうですし、不確実性解消にボーナスを与えるUCBやThompson samplingっぽさもあるので、こちらも「まあそういうことは有り得そう」ぐらいな認識でした。

自由エネルギー原理は脳について何を教えてくれるのか?

ただ、「自由エネルギー原理」という概念自体が、以上踏まえた性質を全て含むものなのか、そうではなく関連が強そうだからセットで語られているのか、その辺はわりといつもモヤモヤしていました。なんとなく、近いか、含む・含まれる関係にありそうだなというぐらいの理解。

そんなわけで、先週ハーバードの准教授であるGershmanが出した以下のarxiv論文は大変勉強になりました。タイトルは「What does the free energy principle tell us about the brain?」と挑発的です。
arxiv.org
(ちなみにGershmanはComputational Neuroscience界隈だと恐らく今世界トップクラスで勢いがある若手研究者だと思っています。不可解なレベルの生産性の高さで、Twitterも歯に衣着せぬ感じで面白い。)

とても短い論文なので興味のある人は読んでもらえればと思いますが、ここで言っていることを簡単に書くと、「自由エネルギー原理自体はかなり一般的なもの。よくセットで語られるPredictive codingやActive inferenceは一定の仮定が成立した時に初めて生じてくるもので会って、必ずしも自由エネルギー原理からくる必然的な現象ではない」というものでした。出たばかりのプレプリントなので、これが真実かどうかはおいておいて、個人的にはモヤモヤしていた概念の整理にとても役立ちました。最近、学生時代に周囲が取り組んでいた自己主体感(sense of agency)というテーマに興味がわいてきたのですが、その関連でも面白かったです。

オックスフォードの計算論的神経科学系Podcast事情と自分の好み

オックスフォードの計算論的神経科学コミュニティで話題になるpodcast

僕はこれまで神経科学や機械学習のPodcastはあまり聴いてこなかったのですが、そもそも日本語コンテンツが少ないというのもあります。

ただ、英語だと面白いコンテンツがいくつかあるようで、周囲からおすすめされたPodcastを紹介してみます。基本的に周りはみんな(Cognitive) Computational Neuroscience分野なので偏りがあります。

braininspired.co
最近知ったPodcastで、脳とAIがテーマ。計算論的神経科学をしていれば名前を聞いたことのあるような人がゲストに出てきます。とりあえずTim BehrensとMatthew Botvinickの回を聞いてみました。両方ともよく知ってるトピックだったので正直若干退屈でしたが、Terence SejnowskiやDavid Sussilloの回とかは面白いかもと期待してます。

unsupervisedthinkingpodcast.blogspot.com
braininspiredよりも脳寄りですが、AIの話もよく出ます。こっちに来てから少し聴いてみましたが、親しみのあるトピックが多かったです。わりとすぐに飽きて聞かなくなってしまいました…。

www.thetalkingmachines.com
機械学習がテーマ。渡英前に英語学習のために聞いていましたが、わりとすぐに飽きて聞かなくなってしまいました。一エピソードの時間が短いのと、(それもあってか)内容がかなり一般向けだった印象。

特に上二つは周囲でも話題になるので、聴いている人が多い気がします。

自分が聴いているPodcastは相変わらず

僕が聞いているPodcastは以前にまとめたことがあります(URL)。
見ての通り情報系・Web系に関心が偏っていて、神経科学に触れている人でこの辺を聴いている人に出会ったことはついぞありません。ただ、ほとんどが修士の頃から継続して聴いているものなので、この分野への興味はずっと続いているようです。ちなみに上のリストに追加すると以下のPodcastが最近は面白いです。
Misreading Chat – CS の論文読んで話をしよう

趣味で読む本やPodcastは興味があって半分理解できないぐらいがいい

英語のPodcastで興味が続かなさそうな雰囲気が出ているのは、英語でPodcastを聴くというのがストレスフルなため、集中力を余分に使ってしまうからかもしれません。
他にも、日本語での機械学習やガジェット、心理学のPodcast聴いたことがありますが、それらはすぐに飽きてしまいました。感覚的には、趣味で読む本やPodcastは「興味がある分野で言ってることの半分は理解できない」ぐらいが一番楽しい気がします。興味が無いとそもそも触れようと思えないですし、理解のレベルはこれ以上でもこれ以下でもダメな気がします。これは講演や授業でも一緒かも。

操作変数法と強化学習と経済学理論

久しぶりに経済関連の本でも読むかと思って手に取った本。

「イノベーターのジレンマ」の経済学的解明

「イノベーターのジレンマ」の経済学的解明

著者の研究感についての内容が多く少し期待とは違っていたのですが、それはそれで面白かったです。ただ、本で紹介されている「データ間の因果関係」を推定するための手法については興味深く読めました。

因果関係は知りたいけど難しい

データ間の因果関係を明らかにすることは非常に重要です。例えば「夏の気温とアイスの売り上げ」には非常に強い関係性がありますが、じゃあ税金を使ってアイスの売り上げを十倍にすれば地球温暖化が止まるかと言えばそんなことはありません。因果関係はその逆なので、この場合は地球温暖化を止めて夏の気温を下げると、アイスの売り上げが下がります。

経済学では、自然科学でよく行われている対称実験を行うのが難しい場合が多くあります。しかし、様々な政策や企業戦略とその結果の間の因果関係を特定することは重要な問題です。なので、なんとかして因果関係を推定する手法に対する興味が伝統的に強くありました。

因果関係の強さを推定する手法

そんなニーズを満たすために開発されたのが著者が紹介している「操作変数法」ですが、これを簡単に説明してみます。細かいので興味が無い場合はスキップしてください。

まず、因果関係を推定したい変数Xと変数Yがある時に、Y=BX+Eという回帰モデルを立てたとします。ここでBはXの係数、Eは誤差です。この場合、係数Bの大きさを、「変数Xから変数Yへの因果関係の大きさ」と考えたくなりそうですが、それは「変数Xと変数Yの両方に影響する変数が存在しない」という仮定が成り立つ場合のみです。もしその仮定が成り立たない場合、係数Bは「XのYに対する因果関係の強さ」とは言えなくなります。そして、現実のデータでは大抵の場合にこの仮定は成り立ちません。

操作変数法では、「変数X"のみ"に強く相関して、変数Yには相関していない、第三の変数Z」を持ち出すことによってこの問題を解決します。理論的な背景は脇に置くとして、具体的な手続きは次の通りです。

  • まず、変数Zから変数Xを回帰するモデルを立てて、変数Xの変数Zを用いた予測値を算出します。これを新たな変数X'とします。
  • X'を用いて変数Yを回帰すると、その係数が変数Xから変数Yへの因果関係の強さになることが知られています。

両方の回帰を最小二乗法を用いて行う場合、最小二乗法を二回重ねがけしていることになるため「二段階最小二乗法」と呼ばれています。

おぉ素晴らしい、これで問題は全て解決や…となればいいのですが、もちろん魔法の手法ではないので実際に使うには問題があります。

一番の問題は、上記の条件を満たすような変数Zがそもそも普通は見つからないということです。ちょっと考えてもなかなか具体例が思いつきませんよね。例えば、冒頭で紹介した本では「ハードディスクドライブの価格」を変数X、「ハードディスクドライブの売り上げ」を変数Yとしています。そして、肝心の「変数Xのみに強く相関して変数Yには相関していない、第三の変数Z」を「ハードディスクドライブ部品のコスト」としていました。「ハードディスクドライブ部品のコスト低下」は「ハードディスクの売り上げ」と関係しない、という主張です。ハードディスクドライブ業界が好調になったら能力のある人材がやってきて技術革新に貢献したり、新たな投資が集まって技術革新が加速したり、、、みたいな関係は想定されていないのが気になりますが、これが実際の使用例です。

操作変数法と強化学習

そんなわけで、因果関係推定は人類にはまだ早い…という気持ちを新たにした部分もあるのですが、同時に以下の記事を思い出しました。

Machine Learning Trick of the Day (8): Instrumental Thinking ← The Spectator

確かに、操作変数法の仮定を満たす変数Zをみつけるのは"自由な世界では"難しい問題です。しかし、"コントロールした環境であれば"そういった変数を見つけることが可能である場合もあります。

そのような理想的な場合とは、強化学習の実験環境です。この記事では、ある「現時点と次時点との状態の変化量」と「期待報酬」との因果関係の強さを推定したい時に操作変数法が使えることを説明しています。

ここで、「自分たちでコントロールできてる環境であれば、そもそも推定なんてしなくても全部把握できるのでは」と言いたくなりますが、複雑な環境で強化学習のシミュレーション実験を行うと、ある結果が何から生じたのかわからないこともまま生じます。そんな場合に因果関係を適切に推定できると、例えばエージェントの価値関数の解釈をより適切に行うことが可能となります。

経済学ふたたび

個人的には、こういう形で経済学で発展した理論と強化学習が繋がってくるのが面白く感じました。

今後、実体経済における意思決定主体がAI化していったり、あるいは強化学習が発達して環境がバーチャル化していったりすると、経済学の理論で置いている仮定がかなりの程度成り立つ世界が、現実世界にやってくることになります。

検索広告におけるオークション市場なんかは既にそうなっていると思いますが、それよりもっと日常的な意思決定を個々人がアルゴリズムに託すような時代になった時に、経済学の理論がようやく輝く時が来そうな気がします。

終末期医療とScienceと落合・古市対談

bunshun.jp

上の記事を発端に終末期医療にかかるコストが話題になっていましたが、これを読んで自分は、ちょうど昨年の中旬に以下のような論文がScienceに出版されていたのを思い出しました。

science.sciencemag.org

この論文では冒頭で、まさに落合氏や古市氏が記事で言っているようなこととほぼ同じ内容の記事をNew YorkerとNew York Timesから引用しています。そして、それらの記事に反論しています。

Science論文の主張

具体的には、死亡直前の医療費が高額で問題であるとの言説の根拠がそもそも怪しいということをまず言っています。詳しい説明は省略しますが、要するに死亡した患者のデータだけを見ても文字通りの"生存バイアス"があってコストが高く見積もられてしまうことが問題であるというのを根拠としています。

次に、そもそも「死亡直前である」ということを適切に予測することが、GBMなどの機械学習技術を用いても難しいことを示しています。ここから、そもそも現在の技術では死亡直前かどうかを予測するのが難しいため、上の議論における前提に疑問を投げています。なお、今回用いたデータ以外の情報、たとえばカルテなどを用いても、死亡時期の具体的な予測はそもそも難しいことがもともと知られていました。データもアルゴリズムもずっと進化すれば完璧に予測できるようになる可能性もありますが、それはまたその時の話で現在の意思決定とは関係ありません。個人的には、そもそも医療側や患者側の健康意識も変化していく中で、過去のデータを用いて予測を行う難しさはあるだろうなという気がします。

更に、死亡直前の人はだいたい何かしらの病気にかかっていて、それには当然多額の費用がかかりますが、病気の時に医療費がかかるのは死亡直前ではない人も同じです。そして、死亡直前の医療費の半分程度はそういった通常の医療費によって説明できることを示しています。

議論すること自体は大事

僕個人としてはこの論文をもってこの議論を終わらせるべきとは全く思わず、むしろその逆です。例えば「幼児と成人で身長が違うこと」を発見した論文を出しても、当たり前の事実を肯定するだけなので、どんな雑誌にも出版されません。その逆にScienceに出版されるということは、これまでの考えとは異なる刺激的な内容であることを意味します。つまり、一般的にはなんとなく「死亡直前の医療費が無駄である」といった感覚があるものの、実態はこうである、という主張をしたことが今回の論文の意義です。僕は、アカデミアでこのような議論が沸いているトピックについて、研究者が意見を交換し、広く一般の関心を集めることは今後の研究を進めるためにも重要なことだと思います。なので、問題になっている対談が公開されたこと自体には自分は意義があると思います。

たとえ一般向けの対話であったとしても、最先端の研究でどんな議論が生じているかということを噛み砕いて引用しながら主張することができていたら、もう少し炎上は避けられていたのではないかなと思いました。

情報の抽象化とOFC

現実世界の情報の次元は基本的に無限大で、細かく見ればいくらでも細かく見れます。そんな状態で処理するのは人間どころか機械でも無理なので、人間も機械も、何かしらの情報の取捨削減を日常的に行っています。

そうした情報の取捨削減方法には色々あり、もっとも単純には受け取る情報の範囲を限定することで実現できます。例えば音声だったら周波数を限定したり、画像だったら解像度を下げたり。

ただし、そうした単純な情報削減よりもより一段上のレベルでの情報の取捨削減方法も存在します。いわゆる情報の抽象化がそれにあたり、この抽象化スキルは人間知性の本質的なものの一つであると考えられています。たとえば典型的なIQテストでは、図形同士の抽象的な関係性を素早く適切に発見するスキルが問われています。もっと日常的には、たとえば初めて知り合った相手の全体の印象が極めて一部の特徴、例えば男女であったり文理であったり、ある知識を保持しているかだったり、そうした単純化が(その多くは無意識的に)脳で行われ結果決定されています。

機械学習でも、ある課題に重要な情報の抽象的な表現を得るための技術は一大トピックで、古くは主成分分析や独立成分分析に始まり、最近だとWord2vecなどといった手法が様々な情報の本質的な部分をうまく取り出そうとする技術として活躍しています。

人間の脳は課題にうまく適応するような抽象化をしている

以下の論文は、「人間はそうした情報の抽象化を脳の一番前の方、眼窩前頭皮質(OFC)と呼ばれる部位で行われている」ということを最近盛んに提唱しているグループからのものです。

www.biorxiv.org

実はOFCはこれまで、情報の抽象化というよりも情報の"価値"を表現する部位だと言われてきました。今回の論文は、そうした情報の抽象化と価値表現は排反するものではなくむしろ共存するものであるとの説を主張しています。この論文では、OFCの脳活動を計測中のマウスに対して一定の複雑さを持ったある種の迷路を解かせた時、OFCにおいてその迷路の構造と迷路における各位置の情報の両方が表現されていることを発見しました。

特に重要な発見は、迷路の構造に関する脳表現が、各位置における報酬量との相互作用によって決まっていたということです。ちょっとこれだとわかりにくいですが、要するに目的に合わせた柔軟な次元削減がOFCで行われていることが示唆されています。

機械学習の言葉でこの論文の発見を言い換えると、OFCではSupervised PCAをやっている、あるいはEnd-to-Endでの特徴量獲得をしている、ということになるのかなと思いました。最初に出した人間での男女や文理といった分け方も、人間を判断するのにそうした分け方が有効であると教師ありで学習した結果獲得された抽象的な表現系であるとも考えられます。今はそれが"中傷的な"表現系になり、疑問符が投げられているのは、社会の目的自体が時代とともに変容してきているからでしょう。

2018年の振り返り

年末にその一年がどれだけ長かったと感じるか(あるいは一年の密度)が、僕の場合結構ばらつきがあります。具体的には、同じ分野や場所、環境に2年から3年ぐらいいるとワクワクする度合いが減っていく傾向にある気がします。実際、大学院に入学して卒業するまでの5年間だと、特に4・5年目の密度がそれまでに比べ目に見えて薄かった気がしています。

それが嬉しいことに、今年はまた盛り返しました。この年末年始はイギリスで迎えます。日本には年明けのピークを過ぎた頃に帰って、東京と関西で1週間ずつ過ごします。前回帰国時はほぼ学会で埋まってましたが、今回はそういった予定も無いので気が楽です。一方で、食の楽しみは胃の不調のため無理そうです。地味にショックがでかい。

続きを読む