NeurIPS 2020ポスター雑感

https://papers.nips.cc/paper/2020
今年のNeurIPSは1900件もあるため全部見るのは不可能です。なのでページを高速でスクロールしながらタイトルだけ見て、気になったポスターの3分動画を観るというやり方で消化しました(一部は論文までチェック)。せっかくなのでメモした感想を公開しますが、しょうもない感想が大半です。以下、タイトル - 感想の順に。


What is being transferred in transfer learning?
TLがうまくいく時はparameter spaceのl2-normが似てるらしい。あとはhigher-layerに比べてlower-layerが貢献する。ドメイン依存の気もするが。basinの話はよくわからず。

Towards Playing Full MOBA Games with Deep Reinforcement Learning
今はMOBAでAIがプロプレイヤーに90%以上勝てるらしい。論文の内容自体は17hero対応の先行研究を40heroまでいけるように拡張したって話。モンテカルロツリーサーチの工夫が重要っぽいけどよくわからなかった。

Tree! I am no Tree! I am a low dimensional Hyperbolic Embedding
タイトルでクリックした。行列からツリー構造予測するためにHyerbolic embedding。そもそもこんな問題が存在したという驚き。

Unreasonable Effectiveness of Greedy Algorithms in Multi-Armed Bandit with Many Arms
発見自体はタイトルの通り。証明したのが一番の貢献っぽい。

Statistical control for spatio-temporal MEG/EEG source imaging with desparsified mutli-task Lasso
発表動画は背景を説明するイントロがほとんどだったためメソッド以降が全然わからなかった。desparsified Lassoなるものを初めて知った。

Rethinking pooling in graph neural networks
GNNで使われてるlocal poolingは精度に特に貢献してないとのこと。少し意外。なぜならClusteringしてpooling、グラフによっては直感的には効果ありそうに思うのだが。

Learning abstract structure for drawing by efficient motor program induction
TenenbaumのScience論文みたいなタスクを実際に人間にやらせてみた(+CNNでも検証)という論文。運動効率、抽象化、構造化が大事らしい。そうだろうなという感想。

Domain Generalization for Medical Imaging Classification with Linear-Dependency Regularization
MRIイメージのDomain adaptation。Domain adaptationとDomain alignmentを組み合わせる。Domain alignmentはoriginal spaceではなくDNNの特長抽出後の潜在空間上で。ありそうな手法にも見えるけどなかった模様。

Audeo: Audio Generation for a Silent Performance Video
タイトルまんま。ピアノ弾いてる動画から音声を生成。意外と難しい問題らしいし、こういう発想好きだけど、そもそもどういうシチュエーションでこれ使うんだろうか???ピアノ弾いてる動画だけあって音声がないシチュエーションとは。

Inferring learning rules from animal decision-making
男女が交互に喋る謎のプレゼンスタイル。何やってるのかはよくわからなかった。

How hard is to distinguish graphs with graph neural networks?
問題自体には興味あるけど、理論解析のペーパーのようで、動画だけだと全くわからず。

Do Adversarially Robust ImageNet Models Transfer Better?
答えはYes。Adversarial robustnessはsourceでのaccuracyを下げることがあるのでこういう疑問が生まれた模様。でもなんでだろう。

Closing the Dequantization Gap: PixelCNN as a Single-Layer Flow
PixelCNNとかPixelCNN++は1層のautoregressive flowと考えることができる。なので潜在特徴量もみれるし、そこでのinterpolationもできる、と示した。具体的にどうinterpolationをやるのかイメージつかず。

Language as a Cognitive Tool to Imagine Goals in Curiosity Driven Exploration
抽象的すぎて全然中身はわからなかった。プレゼンに猫バスが出てきた。

Rethinking Pre-training and Self-training
trainingしたdnnでunlabeledデータにラベルを付与して更にtrainingするSelf-trainingが強力ってことを言いたいのだと思うけど、何が新しいのかよくわからず。

Learning About Objects by Learning to Interact with Them
そもそもタスクがよくわからなかった

Adaptive Reduced Rank Regression
超高次元のRRRは遅いのでその時のためのRRRを提案。こういう実験、論文中でも本当に超高次元のデータで検証してる時ってあまりない気がする(これもそうだった)

How Can I Explain This to You? An Empirical Study of Deep Neural Network Explanation Methods
モデルの識別結果を説明するための手法でどれが一番いいか検証。explanation by example(training setの中で似てるやつを提示?)がtext-domain以外では一番良くて、textだとLIMEがベスト。

Reverse-engineering recurrent neural network solutions to a hierarchical inference task for mice
RNNにdecision makingさせてそのdynamicsを理解する試み。Perceptual decision makingっぽいのをさせて、State-space analysesしてる。Distillationとか出てきてよくわからなくなった。。。

Decision-Making with Auto-Encoding Variational Bayes
VAEでDecision-makingするってのがどういうことかよくわからなかった

Learning Physical Constraints
物理法則をグラフじゃなくてconstraintsで学ぶ。全然わからなかった。

Learning Physical Graph Representations from Visual Scenes
問題設定がよくわからなかった。 

Meta-learning from Tasks with Heterogeneous
異なるattributeのタスク間でmeta-learning。実際に必要となるシチュエーションがあまりイメージつかず

Predicting Training Time Without Training
タイトルだけ見てどうやるのか??と思ったらfine-tuneが前提だった。それなら確かにできそう。手法としてはlinearizeしたモデルでloss land-scapeを近似するということで真っ当な感じ。

Improving Natural Language Processing Tasks with Human Gaze-Guided Neural Attention
人間の視線データをattentionとして使う、というのがメインアイデアだけどそれだとデータが少ないから認知モデルを参考に視線データを予測するモデルを作った。認知モデルの作り方に随分自由度ありそうで少し怪しい感じもする。

Uncovering the Topology of Time-Varying fMRI Data using Cubical Persistence
最近よく見るPersistent homology。相変わらず聞いてもよくわからない。

Preference learning along multiple criteria: A game-theoretic perspective
複数の選択肢があってそれぞれのpairwiseの優劣情報がある時、優劣の観点が一つだったらベストの選択肢はシンプルだが、複数の観点がある場合について議論したペーパー。凸最適化により求まるらしい。

Towards Learning Convolutions from Scratch
タイトルとモチベーションはわかるが何やってるかちょっとよくわからなかった。

Multi-label Contrastive Predictive Coding
Contrastive predictive codingはネガティブサンプルの数を増やすと良いことが知られているがそれは計算量増大を招く。計算量増大させずに同様の効果をする方法を提案。シンプルでわかりやすい。oralも納得。

Understanding spiking networks through
SNNの最適化は凸最適化として理解できる、という話だがそこからのインプリケーションがいまいち理解できず。

Is Long Horizon RL More Difficult Than Short Horizon RL
答えはNot much harderらしい。プレゼン聞いてもよくわからなかった。

Causal Discovery in Physical Systems
イメージからキーポイントを教師なしで複数見つけてそれらの関係を推測する。こういう物理学習系の中でもこれはわりと問題がわかりやすかった。ただ、Causalというイメージとはちょっと違った。

Color Visual Illusions
錯視の研究。Flow-basedモデルから与えられたpatchの尤度を計算するモデルを作った。それを使って錯視が起こりそうか説明したり、錯視を生成したりする。面白い。心理実験とかでも使えそう。

Listening to Sounds of Silence for Speech Denoising
Silentの部分をdetectする部分を明示的に入れることでdenoiseの精度をあげたらしい。incrementな気もするけど発想勝ちって感じだろうか。

Self-supervised learning through the eyes of a child
子供の頭につけたカメラ画像を使ってself-supervised learning。一番面白いのは多分データセットで、2.5年間レコードし続けたデータを使ったらしい。自分だったらどう感じるだろう。

Biological credit assignment through dynamic inversion of feedforward networks
生物学的に可能そうなBackpropのやり方。Machensラボは今年3、4本通しててすごいんだけどどのプレゼンも聞いていてよくわからないという現象が生じている。そしてこれもよくわからない。

Can Graph Neural Networks Count Substructures?
最後まで聞いてもSubstrucutureをカウントする意義がわからなかった。

Neural Topographic Factor Analysis for fMRI Data
fMRIデータをDNNでDeomposeする系。どうしてもneuroimaging+DNNはoverfittingしていそうな気がしてしまう。

Training Generative Adversarial Networks with Limited Data
GANではtraining dataのaugmentationはdata leakageを起こす問題がある。そこでGenerated imageもaugmentすることでGANでのdata augmentationを可能にする。シンプルでわかりやすい。プレゼンもわかりやすい。納得のoral。

Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling
自動音声でプレゼンしてる?タイトル面白そうなのに全然よくわからなかった。

Efficient estimation of neural tuning during naturalistic behavior
controlされてない実験でtuning curveどうやって推定するかという問題。やり方は直感的で多次元かつ連続値の入力とspikeデータを最適化によって解く。

When Do Neural Networks Outperform Kernel Methods?
どういう時か説明してはいたものの、具体的なイメージがわかなかった。

See, Hear, Explore: Curiosity via Audio-Visual Association
Curiosity rewardについて、imageとaudioのco-occurenceを予測するという問題を解かせるのは良い補助タスクになるとのこと。incrementな気がするけどどこまで効果的なんだろう。

DeepSVG: A Hierarchical Generative Network for Vector Graphics Animation
タイトルが全てだけど、プレゼンのわかりやすさが最高だった。アプリケーションとしても面白い。お絵かきとかに使えそう。データセットも自分たちで作って提供してる。

Decisions, Counterfactual Explanations and Strategic Behavior
交渉ごとにおいて反実仮想説明ができる機械学習は重要なアプリケーションだが、その反実仮想をもとに受けたが側が行動を帰ると物事が複雑になる。全体の最適化はNP-hardなのでiterativeに最適化する枠組みを提案。説明すごくわかりやすかったし、こんな問題があったんだと思った。

What if Neural Networks had SVDs?
Jupyterを使った斬新すぎるプレゼンスタイルに目がとられて内容が全く頭に入ってこなかった。各レイヤーにSVDをするための早い方法を提案したみたいだけど、どういう時に各レイヤーにSVDしたくなるんだろう。と思って元論文を読んでみると、normalizing flowとかではd x dの重み行列の逆行列を計算する必要があるらしい。それを提案手法のSVDを使うとO(N^3)からだいぶ下げれるとか。

Experimental design for MRI by greedy policy search
タイトルからイメージする内容と全く違った。そして何を目的としているのか全くわからず。

Unifying Activation- and Timing-based Learning Rules for Spiking Neural Networks
Spiking Neural Netoworkの知識足りなさすぎてActivation-basedとtiming-basedでGradientの伝播を具体的にどうやってるのかよくわからず。

Autoencoders that don't overfit towards the Identity
AEのtrivialな解放としてIdentity functionになることがある。denoised AE(dAE)やボトルネックの次元を下げることが提案されてきたが、それでもなお問題がある。なのでDropout featureのやり方を工夫するEmphasized dAEなるものがあるらしい。これの理論解析をしたのが貢献。EDAE知らなかったけどどこまで有益なんだろ。Identityに収束することについての説明はすごくわかりやすかった。

Can Temporal-Difference and Q-Learning Learn Representation? A Mean-Field Theory
oralだし面白そうだけど、全然わからなかった。後ろが滅茶苦茶散らかってて気になった。

Reinforcement Learning with Augmented Data
Pixel-basedのRLが時間滅茶苦茶かかる問題とgeneralizationに弱い問題。Data augmentation手法を導入。rotateしたり色を変えたりするらしい。回転させた画面でゲームさせたりしてた。むしろこれまでやられてなかったのかという感想。

Why Normalizing Flows Fail to Detect Out-of-Distribution Data
Normalizing Flowは尤度をexactに計算できるのでAnomaly detectionに使えると思いきや、意外とそうでもないことが知られてるらしい。自分は知らなかった。それがなぜ生じるか示したらしいが、肝心の理由がよくわからなかった。

Meta-Learning through Hebbian Plasticity in Random Networks
問題設定がわかりそうで全然わからなかった。

High-contrast “gaudy” images improve the training of deep neural network models of visual cortex
Contrastをあげるようにimageをpreprocessingしてやる(gaudyイメージと呼んでいる)と脳のレスポンスをDNNから予測するDNNがtrainしやすくなる。Contrastをあげたイメージを使うとVGG19のresponse群のPC1,PC2の次元におけるvarianceが大きくなる。これは予測してた結果なのだろうか。エッジが強調されるからそうなるってこと??

De-Anonymizing Text by Fingerprinting Language Generation
テキスト予測変換の際にNucleus samplingを使うけど、その時のthreshold系列の長さ(NS-series)がoriginalの文章を一意に予測できる現象を発見。これが何が問題かというと、side-channelでNS-seriesの情報を取られる可能性があって、そこからオリジナルの入力文書を復元できる。side-channelに詳しくないからNS-seriesの情報を取られるってのがどれだけありうるかわからないけど、こんな問題があるのかと思ってかなり興味深い。