Intrinsic dimension of data representations in deep neural networksを読んで

本記事は執筆中ですが，先んじて公開します．

都度編集されますが，ご了承のほどよろしくお願いします。

とくに断りがない限り，図表は論文より引用．

基本情報
概要
提案手法：2近傍法（Two-NN）
実験結果

基本情報

著者

Alessio Ansuini and Alessandro Laio and Jakob H. Macke and Davide Zoccolan

@misc{ansuini2019intrinsicdimensiondatarepresentations,
title={Intrinsic dimension of data representations in deep neural networks},
author={Alessio Ansuini and Alessandro Laio and Jakob H. Macke and Davide Zoccolan},
year={2019},
eprint={1905.12784},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/1905.12784},
}

NeurIPS 2019．

概要

固有次元（Intristic Dimension ; ID）とは，多様体の持つ内在的な次元である．必要な本質的なパラメータ数と思っておけばよい．

主な貢献

CNNの層が進むにつれて，データ表現が低次元の多様体に埋め込まれることがわかった．これらの次元は，埋め込み空間の次元よりも小さい．
層ごとの固有次元は，初期層で次元が増加し，最終層に向かって単調に減少することがわかった．
訓練データの固有次元が最終隠れ層で低いほど，テストセットにおける分類精度が高いことが観察された．一方で，ランダムラベルを持つデータで訓練されたネットワークでは，固有次元が高く，一般化よりも記憶に依存していることが示された．

提案手法：2近傍法（Two-NN）

仮定

弱い仮定として，各データ点とその第2近傍との間のスケールで密度が一定であるとする．

データ点 $x_i$ に対して，1番目に近い点と2番目に近い点との距離をそれぞれ， ${r_i}^{(1)}, {r_i}^{(2)}$ とする．距離比を $\mu_i = {r_i}^{(1)} / {r_i}^{(2)}$ とする．

利点

曲がった多様体やトポロジー的に複雑な構造，非一様な分布を持つサンプルにも適用可能．
ID推定値は非一様な確率分布から得られるサンプルに対しても漸近的に正確であり，特にd<20の場合に正確．ただし， $d > 20$ の場合は，サンプル密度が非一様なときにやや過小評価されることがある．

GitHub上に具体的な実装がある．

github.com

実験結果

層ごとの固有次元の変化．縦軸が固有次元．

初期層で一度増加して，そこからは単調減少．この傾向はVGGやResNetなどアーテクチャに依らないことがわかっている．

データ表現の多様体は曲がっている．

入力データは多様体上に存在するという多様体仮説からいくと，ニューラルネットは平坦化して分離可能にすることが目標とされていた．しかし，今回の結果は固有次元を減少させることが重要である，という帰結を得ている．つまり，多様体の実質的な自由度こそが重要であり，構造の単純さ（平坦性）は重要ではないとしている（っぽい）．

次の論文が気になる．

A. Achille and S. Soatto, “Emergence of invariance and disentanglement in deep representations,” The Journal of Machine Learning Research, vol. 19, no. 1, pp. 1947–1980, 2018.

P. P. Brahma, D. Wu, and Y. She, “Why deep learning works: A manifold disentanglement perspective.,” IEEE Trans. Neural Netw. Learning Syst., vol. 27, no. 10, pp. 1997–2008, 2016.