ASMR動画からのSelf supervised learningで音源位置特定&アップミキシング(CVPR2020)

息抜き(?)に今年のCVPRのペーパーリストを眺めていたら、ASMR動画で面白いことをしている論文がありました。
Telling Left from Right: Learning Spatial Correspondence of Sight and Sound

入力はYouTubeから大量に落としてきたASMR動画の画像と音声(スペクトログラム)。データセットはYOUTUBE-ASMR-300Kという名前で公開されているので、無限にASMRを聴き続けられます。
YouTube-ASMR-300K | Zenodo

やっていることは、各動画の画像と音声をそれぞれ別々のCNN(画像ネットワークと音声ネットワーク)に突っ込んで、それらを元にタスクを解くこと。で、このタスクのアイデアが面白い。具体的には、入力の音源をランダムに左右反転していて、ニューラルネットには今回の入力が左右反転したものかどうかを解かせます。すると人間と同程度(80%程度)の正答率まで達せられるみたいです。

このタスクを考えついたのがこの論文の全てで、画像ネットワークと音声ネットワークのアテンションや特徴量を見てやると、画像中の音源に対応していたとのこと。加えて、モノラルからステレオへのアップミキシングもできます。

タスクを聞いた時点でこういう結果や応用先は予想できますし、手法的に何か新しいことをしているわけではありません。ただ、新しく急激に増加した資源に注目して(ASMR動画)、そのデータセットならではのタスクを考えつくというのはいいですね。このアイデアを考えついてデータセット集めてる時、面白かっただろうな。