文章から抽象的な空間表現を推測する深層生成モデル(GQNの言語への応用)

「AがBの後ろにある」と「BがAの前にある」の二つの文章が同じ関係を表現していることは人間には容易にわかります。しかし、一般的な言語モデルでこれら二つの文章を読ませた場合、モデルが出力する二文の表現はかなり離れたものになってしまうことが知られていました(
http://gershmanlab.webfactional.com/pubs/GershmanTenenbaum15.pdf
)。以下の論文では、きちんとタスクを定義してやれば、そうした能力もニューラルネットワークが獲得できると主張しています。

Encoding Spatial Relations from Natural Language
[1807.01670] Encoding Spatial Relations from Natural Language

著者らはDeepMindのグループで、手法やタスクは以下の記事で紹介したGQN(Generative Query Network)と基本的に一緒の深層生成モデル。違いは、表現獲得器部分の入力に文章を用いていること。空間内のオブジェクトの位置関係を文章情報から推測可能な生成モデルを作ることが目的です。
tk-g.hatenablog.jp

データとして用いる空間データはGQN論文と同じくコンピュータで自動生成しています。文章データの作り方としては二通り試していて、人間に依頼して文章を書いてもらった場合とコンピュータで自動生成した場合。予想通り、人間によるデータを用いた場合の方がサンプル数が少ないため精度は悪いですし、たとえサンプル数を揃えてもノイズが大きいため人間の文章を用いた方が自動生成に比べて精度が悪くなっています。ただ、それでも人間の文章からある程度学習できるというのは面白いところ。

一番面白いのはGQN論文ではやっていない最後の実験で、「AがBの後ろにある」と「BがAの前にある」の二つが、それ以外の様々な位置関係を示す文章に比べて表現系として近いものになったことを示しています。つまり、この表現獲得器は抽象的なオブジェクト同士の位置関係をエンコードする役割を獲得したと考えられます。単に「GQNが言語にも使えます」と主張する論文にすることもできたと思うんですが、こうやって興味深い未解決問題を見つけてきて、それにも答えられるというストーリーで論文を組み立てているのは流石だと思いました。