研究紹介

深層生成モデルのための非線形かつ可換な画像編集

敵対的生成ネットワーク(GAN)を始めとする深層生成モデルでは，潜在変数に特定の属性ベクトルを足すことで，生成される画像の属性（たとえば，人の顔であれば年齢や髪の長さ）を自由に編集する方法が提案されてきた．しかし，往々にして実データの分布には偏りや歪みがあり，それは対応する潜在変数の分布にも影響する．そのため，単にベクトルを足すという線形な演算では，十分にきれいな編集ができない．

そこで，潜在空間中に非線形なベクトル場を定義し，その流れに沿って潜在変数を動かすことで，画像を編集するという方法も提案されている．このような方法はたしかに編集の品質を向上させることができる．しかし，一般に複数のベクトル場は非可換であるため，編集する属性の順序が変われば編集された結果が変わるという不都合が起こる．例えば，「顔を横に向けてから笑わせる」ことと「顔を笑わせてから横に向ける」ことは同一であることが望ましい．

そこで本研究では，潜在空間中に可換なベクトル場を定義し，編集結果が編集の順序に影響されないことを保証する．可換なベクトル場は曲線座標系 (curvilinear coordinate) と等価であるため，深層学習を用いてデカルト座標系を適切に歪めることで実装する．この手法をdeep curvilinear editing (DeCurvEd) と名付けた．

GANと組み合わせて行った実証実験では，DeCurvEdが順序に依らない編集を可能にするだけでなく，異なる属性が適切に分離されて学習されること (disentanglement) も促進することがわかった．

Takehiro Aoshima and Takashi Matsubara, “Deep Curvilinear Editing: Commutative and Nonlinear Image Manipulation for Pretrained Deep Generative Model,” Proc. of The IEEE/CVF Computer Vision and Pattern Recognition Conference 2023 (CVPR2023), Vancouver, Jun. 2023. (arXiv)