DeepMindの乳がん画像判定AI(Nature, 2020)

新年早々、DeepMindから乳がん画像判定AIの研究がNatureに発表されました。
www.nature.com
わかりやすい概要は、以下の日本語ニュースサイトで。要するに、乳がん診断(スクリーニング)に使われたX線画像数万枚でAIを訓練したら、人を上回る精度で診断できたという内容です。
japanese.engadget.com

乳がん画像診断は完全に素人ですが、問題設定は自分の研究と似ているところが多くあります。そのため概要より踏み込んだ部分で印象に残った箇所をまとめておきます。

  • 数万画像といっても、そのうち実際に癌の診断がついているサンプル(陽性)は極めて少ない(論文のFigure 1)。イギリスのデータで25856サンプル中414サンプル、米国のデータで3097サンプル中686サンプル。陽性が数百サンプルでもうまいこと学習すればなんとかなるんですね。
  • そもそも人間によるスクリーニングがかなり難しいという印象(論文のFigure 3)。6人のプロのAUC(診断の正確性みたいなもの)が0.58~0.68ですが、AUCは0.5がランダムで1.0が完璧な診断で、0.7を切るAUCは一般には低いと言われます。もちろんスクリーニングなので先の詳細検査までいけばAUCは高くなると思うのですが、素人的にはプロなら0.8~0.9ぐらいはいくのかと想像していました。難しいとは思いますが、スクリーニングでの偽陰性を減らすことは治療効果に関わってきそうですし、偽陽性を減らすことができれば無用な不安を減らせます。AIによる精度向上が望まれる領域と言えそうです。
  • 上記の気持ちは論文の要約にも入っていて、この論文の推しは「AIがどれだけ人間よりも良かったか」で、AIがほぼ完璧な診断(99%とか)をしたというものではありません。人間の精度が上に書いたような状況でそれを数%上回ったという内容なので、AIを使ってもまだまだ完璧な診断には遠いことがわかります。
  • 2施設(イギリスと米国)のデータを使っていて、イギリスのデータ(N=25856)だけを使って米国(N=3097)の診断システムに適用して成功しています(論文のFigure 2)。一見マニアックですが将来の応用を考えると重要な部分。日本を含む大規模な公開データが存在しない国の診断にも適用できる可能性が示唆されます。汎化のために特殊なトリックを使ったりしている感じはないので、単施設でしっかりとデータを集めて判別できるものを作れば特別なものは必要としない問題だったみたいです。
  • 予測自体は大きく3つのモデルのアンサンブル(論文のSupplementary Figure 3)。それぞれImageNetで重みをpre-trainingしたRetinaNet&MovileNetやResnetアーキテクチャで、少しだけ違うパイプラインで画像ごとに予測をしています。とまあ一見したところ普通なので、データさえあればその辺の人でも実装できそうな感じが・・・。
  • AIは人間が診断したデータを使って訓練しているわけなので、「人間が出来ないものはAIにも出来ない」可能性がありますが、そうではなく一致しないケースもあるようです(Supplementary Table 1)。つまり、AIが出来て人間が出来なかったり、人間が出来てAIが出来なかったりするケース。一応細かいデータはありますが(Extended Data Table 6 )AIと人間それぞれの診断のバイアスはそこまで深く議論されてません。

Google(DeepMind)はこれで商売をしていく企業なので思いっきりバイアスはあると思いますが、こうした画像診断はAIが得意な問題であるというのは明らかだと思います。こういう結果が次々に出てくると、セカンドオピニオンならぬAIオピニオンを求める人たちが増える流れが加速しそうな気がします。