操作変数法と強化学習と経済学理論

久しぶりに経済関連の本でも読むかと思って手に取った本。

「イノベーターのジレンマ」の経済学的解明

「イノベーターのジレンマ」の経済学的解明

著者の研究感についての内容が多く少し期待とは違っていたのですが、それはそれで面白かったです。ただ、本で紹介されている「データ間の因果関係」を推定するための手法については興味深く読めました。

因果関係は知りたいけど難しい

データ間の因果関係を明らかにすることは非常に重要です。例えば「夏の気温とアイスの売り上げ」には非常に強い関係性がありますが、じゃあ税金を使ってアイスの売り上げを十倍にすれば地球温暖化が止まるかと言えばそんなことはありません。因果関係はその逆なので、この場合は地球温暖化を止めて夏の気温を下げると、アイスの売り上げが下がります。

経済学では、自然科学でよく行われている対称実験を行うのが難しい場合が多くあります。しかし、様々な政策や企業戦略とその結果の間の因果関係を特定することは重要な問題です。なので、なんとかして因果関係を推定する手法に対する興味が伝統的に強くありました。

因果関係の強さを推定する手法

そんなニーズを満たすために開発されたのが著者が紹介している「操作変数法」ですが、これを簡単に説明してみます。細かいので興味が無い場合はスキップしてください。

まず、因果関係を推定したい変数Xと変数Yがある時に、Y=BX+Eという回帰モデルを立てたとします。ここでBはXの係数、Eは誤差です。この場合、係数Bの大きさを、「変数Xから変数Yへの因果関係の大きさ」と考えたくなりそうですが、それは「変数Xと変数Yの両方に影響する変数が存在しない」という仮定が成り立つ場合のみです。もしその仮定が成り立たない場合、係数Bは「XのYに対する因果関係の強さ」とは言えなくなります。そして、現実のデータでは大抵の場合にこの仮定は成り立ちません。

操作変数法では、「変数X"のみ"に強く相関して、変数Yには相関していない、第三の変数Z」を持ち出すことによってこの問題を解決します。理論的な背景は脇に置くとして、具体的な手続きは次の通りです。

  • まず、変数Zから変数Xを回帰するモデルを立てて、変数Xの変数Zを用いた予測値を算出します。これを新たな変数X'とします。
  • X'を用いて変数Yを回帰すると、その係数が変数Xから変数Yへの因果関係の強さになることが知られています。

両方の回帰を最小二乗法を用いて行う場合、最小二乗法を二回重ねがけしていることになるため「二段階最小二乗法」と呼ばれています。

おぉ素晴らしい、これで問題は全て解決や…となればいいのですが、もちろん魔法の手法ではないので実際に使うには問題があります。

一番の問題は、上記の条件を満たすような変数Zがそもそも普通は見つからないということです。ちょっと考えてもなかなか具体例が思いつきませんよね。例えば、冒頭で紹介した本では「ハードディスクドライブの価格」を変数X、「ハードディスクドライブの売り上げ」を変数Yとしています。そして、肝心の「変数Xのみに強く相関して変数Yには相関していない、第三の変数Z」を「ハードディスクドライブ部品のコスト」としていました。「ハードディスクドライブ部品のコスト低下」は「ハードディスクの売り上げ」と関係しない、という主張です。ハードディスクドライブ業界が好調になったら能力のある人材がやってきて技術革新に貢献したり、新たな投資が集まって技術革新が加速したり、、、みたいな関係は想定されていないのが気になりますが、これが実際の使用例です。

操作変数法と強化学習

そんなわけで、因果関係推定は人類にはまだ早い…という気持ちを新たにした部分もあるのですが、同時に以下の記事を思い出しました。

Machine Learning Trick of the Day (8): Instrumental Thinking ← The Spectator

確かに、操作変数法の仮定を満たす変数Zをみつけるのは"自由な世界では"難しい問題です。しかし、"コントロールした環境であれば"そういった変数を見つけることが可能である場合もあります。

そのような理想的な場合とは、強化学習の実験環境です。この記事では、ある「現時点と次時点との状態の変化量」と「期待報酬」との因果関係の強さを推定したい時に操作変数法が使えることを説明しています。

ここで、「自分たちでコントロールできてる環境であれば、そもそも推定なんてしなくても全部把握できるのでは」と言いたくなりますが、複雑な環境で強化学習のシミュレーション実験を行うと、ある結果が何から生じたのかわからないこともまま生じます。そんな場合に因果関係を適切に推定できると、例えばエージェントの価値関数の解釈をより適切に行うことが可能となります。

経済学ふたたび

個人的には、こういう形で経済学で発展した理論と強化学習が繋がってくるのが面白く感じました。

今後、実体経済における意思決定主体がAI化していったり、あるいは強化学習が発達して環境がバーチャル化していったりすると、経済学の理論で置いている仮定がかなりの程度成り立つ世界が、現実世界にやってくることになります。

検索広告におけるオークション市場なんかは既にそうなっていると思いますが、それよりもっと日常的な意思決定を個々人がアルゴリズムに託すような時代になった時に、経済学の理論がようやく輝く時が来そうな気がします。