본문 바로가기
AI/Paper Review

[논문 리뷰] Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis

by hyeok1235 2024. 7. 17.

0. Abstract

Pose-Guided Person Image Synthesis(PGPIS)를 위해서 Diffusion model을 활용한 기존의 시도들은 source person image의 high-level semantic 정보를 잘 추출하지 못했기 때문에 overfitting에 취약하다는 한계가 있었다. 정보가 부족한 상태에서 target pose에 단순히 맞추기만 하면, 왜곡이 생기거나 생성된 이미지가 부자연스러울 수 있다는 문제가 있다. CFLD에서는 perception-refined decoder를 통해서 사람 이미지의 semantic 정보를 얻고 학습 가능한 query들을 조정함으로써 overfitting을 줄인다. 그리고 hybrid-granularity attention 모듈을 통해 multi-scale의 appearance 정보를 encoding하여 texture detail을 높인다.

 

1. Introduction

Pose-Guided Person Image Synthesis(PGPIS)는 source human image를 target pose에 맞게 바꾸는 것이 목표이다. 

PIDM에서 제안된 texture diffusion 모듈과, 계산 복잡도를 줄이기 위해 저차원의 latent space로 픽셀을 mapping한 PoCoLD 모두 realistic한 결과를 만들어내지만, overfitting으로 인해서 새로운 포즈나 과장된 포즈에서는 결과물이 안좋았다. 

이러한 문제점은 결국 high-level의 semantic 정보가 부족해서 발생하는 것인데, CFLD는 perception-refined decoder를 통해서 기존의 텍스트(human-generated)를 활용한 방법이 아닌, 이미지 라벨이나 text prompt 없이 순수하게 이미지 정보만으로 생성 과정을 통제하고 사진에서 coarse한 정보(common semantics, ex. 신체, 성별)를 가져온다. 추가적으로 hybrid-granularity attention module을 소개하는데, 더 fine-grained한 appearance한 정보를 가져온다. 

 

2. Related Work

- Pose Guided Person Image Synthesis

가장 처음 제시된 방법은 adversarial하게 이미지를 합성하고 개선하는 것이었다. pose 정보와 apperance 정보를 분리하여 포즈와 관련이 없는 정보를 학습하려 했지만, texture detail을 다루지 못했다. 이러한 문제를 해결하기 위해서 parsing과 UV map등 보조적인 정보를 활용하고, GAN 방법에서 Diffusion으로 넘어갔다. 하지만 최근 방법들도 cross-attention 방법을 활용해서 appearance를 pose 정보에 끼워 맞추면 overfitting이 발생한다고 이 논문에서는 주장하고 있다. 그리고 다른 방법들은 모든 파라미터들을 조정하면서 연산이 비효율적인 반면, CFLD는 대부분의 파라미터를 고정함으로써 더 효율적이고 end-to-end model을 구현했다.

* Pose-Guided Person Image Synthesis(PGPIS)는 source person image를, 외관(겉모습)과 관련된 정보를 최대한 유지하면서 특정 target pose로 변경하는 것을 목표로 한다. 기존의 방식들은 대부분 Generative Adversarial Networks(GAN)을 활용하는데, GAN의 특성상 min-max 학습 방식은 안정적이지 못하고, 여러 번 반복 없이 single forward pass는 GAN이 high-quality 이미지를 생성하기에는 부족하다. 

 

- Controllable Diffusion Models

핵심 아이디어는 노이즈에서 새로운 이미지를 생성하는 diffusion이지만, unconditional generation이 아닌 user-supplied control 시그널을 사용해서 생성 과정을 통제하기가 쉬워진다. 추가적인 컨트롤 정보를 추가할 수 있게 됨으로써, 고차원의 conditioning을 계속해서 넣어주는 것이 아닌, 다른 스테이지별로 coarse-to-fine conditioning 과정을 적용하여 이미지를 생성한다.

 

3. Method

3.1 Preliminary

Stable Diffusion을 활용하여 이미지 생성을 하는 방식을 차용한다. 크게 1) Variatonal Autoencoder : 픽셀 공간과 저차원의 latent space를 대응 시키는 역할과 2) UNet-based 예측 모델 : 이미지를 생성하는 denoising 역할로 나뉜다. DDPM의 개념을 차용해서 1000 step의 diffusion을 사용한다. 

 

3.2 Coarse-to-Fine Latent Diffusion

training 단계에서는 source image와 source pose, target pose와 ground-truth image를 사용한다. 이미지 encoder(swin transformer)에 source image를 넣어서 multi-scale feature mpa을 만들어 낸다. Perception-Refined Decoder를 통해서 coarse-grained prompt를 얻어내고, Hybrid-Granularity Attention module을 통해 fine-grained appearance feature를 뽑아낸다. 

포즈 정보를 조정하기 위해서는 여러 개의 ResNet block으로 구성된 pose adapter를 사용한다. 이러한 포즈 정보는 coarse-grained 정보랑만 합쳐지는데, fine-grained appearance 정보는 분리시킴으로써 texture detail을 조금 더 잘 학습하고 overfitting도 방지할 수 있기 때문이다. 

 

* text-to-image 방법은 text 정보가 high-level의 semantic 정보를 담고 있기 때문에 realistic한 결과를 만들 수는 있다. 하지만 text prompt를 모두 다는 것에는 너무 expensive할 뿐만 아니라, 이미지가 텍스트보다 정보의 밀도가 더 크기 때문에 텍스트를 아무리 자세히 써도 이미지를 생성하면 결과물들이 서로 너무 달라서 consistency가 떨어진다. 

 

3.3 Optimization

Perception-Refined Decoder에서는 점차적으로 학습 가능한 query를 조정하고 semantic 정보를 추출한다. 이는 외관에 관련된 정보와 pose와 관련된 정보를 분리할 수 있게 하고, 다양한 단계에서 조정할 수 있게 함으로써 overfitting 문제를 해결한다. 그리고 hybrid0granularity attention module은 multi-scale fine-grained appearance feature를 bais로 가지면서 더 realistic한 texture를 보장한다. 

 

4. Experiment

- Deepfahion 데이터셋을 바탕으로 구현 및 평가가 이루어졌다.

- Quantitative study 부분에서는 state-of-the-art 방식들과 Inception Score와 Frechet Inception Distance와 같은 기준으로 비교한다.

- Qualitative study 부분에서는 SPGNet, DPTN, NTED, CASD, PIDM과 같은 모델들이 생성한 이미지들과 시각적으로 비교한다. 

- User study에서는 지원자들을 받아 실제로 주관적인 평가 결과를 얻었다.

- Ablation study에서는 CFLD의 여러 구성요소들을 제외하거나 수정함으로써 각자의 영향을 이해하고자 했다. 

- 마스킹의 유무로 style을 완전히 transfer하거나, 기존의 style과 자연스럽게 interpolation할 수도 있다. 

 

5. Conclusion

PGPIS 분야에서 CFLD는 기존의 접근 방법들보다 더 뛰어난 성능을 보여줬다. 이미지 생성 과정을 효과적으로 통제하였으며 Hybrid-granularity attention module은 더 realistic한 이미지 합성을 가능하게 했다.

 

 

728x90
반응형