[논문] Resolution-robust Large Mask Inpainting with Fourier Convolutions

논문 다운로드 https://arxiv.org/abs/2109.07161

목차
1. Introduction 소개
2. Method 방법 ★★★
2.1 Global context within early layers 초기 레이어 내 글로컬 컨텍스트
2.2 Loss functions 손실 함수
2.2.1 High receptive field perceptual loss 고 수용필드 지각 손실
2.2.2 Adversarial loss 적대적 손실
2.2.3 The final loss function 최종 손실 함수
3. Experiments 실험
3.1 Comparisons to the baselines 베이스라인 모델과 비교
3.2 Ablation Study 제고 연구
3.3 Generalization to higher resolution 고해상도 정규화
3.4 Teaser model: Big Lama 티저 모델: 빅 라마
4. Related Work 관련 연구
5. Discussion 논의

Abstract
현대 이미지 복구 체계는 넓은 영역의 누락, 복잡한 기하학 구조, 고해상도 이미지에 어려움을 겪는데, 주 원인 중 하나는 복구 네트워크와 손실함수에 효과적 수용필드의 부재이다. 이 문제를 경감하기 위해 거대 마스크 복원 (LaMa)를 제안한다. LaMa는 i)전 이미지에 FFCs(fast Fourier Convolutions)를 쓰는 복구 네트워크 아키텍쳐와, ii)고 수용필드 지각 손실, iii) 초기 2개 구성요소의 잠재력을 발휘하는 거대 훈련 마스크에 기초한다. 이 네트워크는 다양한 데이터셋 전반에 기술적 수준을 향상하고, 어려운 상황에도 훌륭한 퍼포먼스를 달성한다.

1. Introduction 소개

이미지 복구 문제(누락된 부분의 사실적 채움)를 해결하려면, 자연이미지의 거대 규모 구조를 이해하고, 이미지 합성을 해야 한다. 통상 중간 정도의 예측과 복잡한 2-stage 모델을 사용하지만, 우리는 simple single-stage 네트워크로 현재의 기술적 수준을 달성한다.
거대 유효 수용필드는 이미지의 글로벌 컨텍스트를 이해하고 복구 문제를 해결하는 데에 필수적이다. 대규모의 경우, 마스크는 크지만 수용필드가 제한적일 수 있고, 이는 퀄리티있는 복구를 위한 필수 정보를 얻기에 충분하지 않다. 이 문제를 방지하고 single-stage 해법의 잠재력을 발휘하기 위해, 시스템의 각 구성요소에 세심히 개입한다.

LaMa의 주 구성요소
i) 고 수용 필드 아키텍쳐
ii) 고 수용 필드 손실함수
iii) 마스크 생성 훈련에 공격적 알고리즘

LaMa는 복잡한 주기적 구조를 포착하고 생성할 수 있으며 이는 대규모 마스크에도 강건하다. 기존 경쟁 베이스라인 모델들보다 더 적은 훈련 파라미터와 내적 시간 비용으로 결과를 거둬낸다.

2. Method 방법 ★★★

우리 목표는 마스크된 컬러 이미지 x를 픽셀 수 m의 이진 마스크에 의해 복구하는 것이다. 마스크된 이미지는 x ⊙ m로 표시하고, 마스크 m은 마스크된 이미지 x ⊙ m에 쌓여 4채널 입력 텐서 x ′ = stack(x ⊙ m, m) 로 귀결된다. 순방향 복구 네트워크가 쓰이며, 이를 생성자로 명명한다. x ′를 취하면서 복구 네트워크는 완전합성곱방식으로 입력을 처리하고, 복구된 3채널 컬러이미지 xˆ = fθ(x ′ ) 를 생성한다. 이 훈련은 실제 이미지와 합성 생성된 마스크로부터 얻어진 (image, mask) 쌍의 데이터셋에 기반하여 수행된다.

2.1 Global context within early layers 초기 레이어 내 글로컬 컨텍스트

Fast Fourier convolution (FFC)은 초기 레이어에서 글로벌 컨텍스트를 사용하도록 하는 최근 제안된 operator이다. FFC는 fast Fourier transform (FFT, 푸리에변환)를 기초로 하고, 전체 이미지를 커버하는 수용필드를 갖는다. FFC는 채널들을 2개 평행 브랜치로 나눈다.- 로컬 브랜치는 전통적인 합성곱을, 글로벌 브랜치는 글로벌 컨텍스트를 처리하기 위해 Real FFT를 사용한다. Real FFT는 오직 실제 가치있는 신호에만 적용되고, 역 Real FFT는 산출물이 실제 가치를 지니는지 보장한다. Real FFT는 FFT에 비해 스펙트럼의 절반만 사용한다. 이후 로컬브랜치와 글로벌 브랜치의 산출물이 한데 어우러진다.
The power of FFCs FFCs는 완전미분가능하며, 사용이 쉽도록 전통적 합성곱에 대체된다. FFC는 초기 레이어부터 생성자가 글로벌 컨텍스트를 처리할 수 있게 하며, 이는 고 해상도 이미지 복구 작업에 핵심적이며, 향상된 효율성을 확보한다.
FFC는 사람이 만든 환경 안의 일반적인 주기적 구조물(가령 벽돌, 사다리, 창문 등)을 포착하는데 훨씬 더 적합함을 보여준다. 흥미로운 사실은, 전 주파수에 걸쳐 같은 합성곱을 공유하면서 모델은 균등한 스케일로 향한다.

2.2 Loss functions 손실 함수

2.2.1 High receptive field perceptual loss 고 수용필드 지각 손실
지각 손실은 예측값으로부터 추출된 피쳐와 지도 학습된 베이스네트워크에 의한 타겟 이미지 사이의 거리를 평가한다. 정확한 재구성은 필요로 하지 않으며, 재구성 이미지에서 다양한 변주를 허용한다. 고 수용필드 베이스 모델을 사용하는 고 수용필드 지각 손실 high receptive field perceptual loss (HRF PL) 을 소개한다.

Pretext problem 구실 문제

2.2.2 Adversarial loss 적대적 손실
적대적 손실을 사용하여 복구 함수 fθ(x ′ )가 자연스럽게 로컬 디테일로 보이도록 보장한다. 로컬 패치 레벨에 식별자 Dξ(·)를 정의하여 "실제"와 "가짜" 패치를 구별한다. 지도학습된 HRF 지각 손실 덕분에, 생성자는 입력 이미지 속 아는 부분을 빠르게 복사하도록 학습하고, 생성이미지의 아는 부분을 "실제"로 표시한다.

2.2.3 The final loss function 최종 손실 함수

최종 손실에서는 경사도 페널티 R1과 식별자 기반 지각 손실 LDiscPL도 사용한다.
- 경사도 페널티 R1 = Ex||∇Dξ(x)||2
- 식별자 기반 지각 손실 LDiscPL
(학습을 안정화하고, 경우에 따라 약간 퍼포먼스를 향상시킴)

2.3 Generation of masks during training 학습 중 마스크 생성

공격적인 큰 마스크 생성 전략을 선택한다. 이 전략은 획일적으로 다각형 체인의 샘플(wide: 랜덤 너비로 확장, box: 임의 비율의 직사각형)을 사용한다.

3. Experiments

Implementation details 시행 세부사항

LaMa 복구 시스템에는,
ResNET 같은 아키텍처 사용: 다운샘플링 블럭 3, 잔여샘플링 블럭 6-18 , 업샘플링 블럭 3
optimizer = Adam
learning rate = 0.001 (복구 네트워크)
learning rate = 0.0001 (식별자 네트워크)
1M iterations with a batch size 30 (for all models)
하이퍼파라미터를 통해 얻은 가중치 값: κ = 10, α = 30, β = 100, γ = 0.001
>>> 이 파라미터를 모든 모델 훈련에 사용한다. (ablation study에 언급된 것 제외)

Data and metrics 데이터와 측정

Places와 CelebAHQ 데이터셋을 사용한다. image2image 문헌에 확립된 관행을 따르고, 성능 평가를 위해 LPIPS와 FID 지표를 사용한다. L1, L2 거리와 비교했을 때, LPIPS와 FID가 대형 마스크 복구 성능을 측정하는 데에 더 적합하다. PyTorch, PyTorch Lightning, Hydra가 쓰였다.

3.1 Comparisons to the baselines

[Table 1] LaMa Fourier는 쟁쟁한 경쟁모델보다 더 적은 파라미터를 가지고 대부분의 베이스라인 모델을 능가한다. 비교적 강력하다고 알려진 CoModGan은 약 4배, MADF는 약 3배 더 많은 파라미터를 이용했다. 이 차이는 wide masks에서 더욱 두각을 드러낸다.

user study 이용자 연구

발생할 수 있는 편향을 방지하기 위해, 크라우드 소스 이용자 연구를 실행했다. 이용자 연구의 결과는 정량평가와 상관관계를 보였으며, 우리 모델의 복구는 다른 모델보다 더 선호된다.

3.2 Ablation Study

Ablation Study: 모델에 어떠한 영향을 미치는지 확인하고 싶을 때, 이 요소를 포함한 모델과 포함하지 않은 모델을 비교하는 것을 말한다. 이는 딥러닝 연구에서 매우 중요한 의미를 지니는데, 시스템의 인과관계(causality)를 간단히 알아볼 수 있기 때문이다.

Figure 6. FFC기반의 복구모델은 현저히 적은 품질저하와 함께 고해상도로 변환한다.모든 LaMa 모델은 256x256 해상도에서 학습되었다. (참조 모델 Big LaMa 제외)

Receptive field of fθ(·) 수용필드
[Figure 5] 고해상도에서 학습시 수용필드의 중요성이 더욱 눈에 띈다. LaMa-Regular에서는 해상도를 높이자, 가시화된 인공물이 나타났다. 이는 [Figure 6]에서 정량적으로 검증된다.
[Figure 4] FFC는 창문과 같은 반복적 구조물의 생성을 향상시킨다. LaMa-Fourier는 LaMa-Regular보다 속도 저하는 20% 밖에 안되지만, 40%나 더 작다.

Loss 손실
지각 손실의 고 수용필드는 실제로 복구 품질을 향상시킨다(Table 3).

Masks generation 마스크 생성
넓은 훈련 마스크는 넓은 홀과 좁은 홀의 복구 모두 향상시키지만, 때로 안좋은 결과를 낳기도 한다. [Table4] Narrow Masks의 DeepFillv2와 EdgeConnect에서 확인할 수 있다. 이를 통해 "어떤 디자인들은 복구에 덜 혹은 더 적합하며, 구체적 디자인의 선택이 이러한 차이를 가져온다"는 가설을 세운다.

3.3 Generalization to higher resolution

직접 고해상도로 학습하는 것은 속도가 느리고, 많은 컴퓨팅 계산을 요한다. FFC 기반의 모델들은 현저히 월등하게 고해상도로 변환한다[Figure 6].
다음과 같은 요인으로 "FFC가 다른 스케일에서 더 강건하다"는 가설을 세워본다.
i) 이미지 측면의 수용필드, ii) 스케일 변화 이후 스펙트럼의 낮은 주파수 보존, iii) 1x1 합성곱의 내적 스케일 균등

모든 모델들이 512x512 해상도로 꽤나 잘 정규화되지만, FFC 모델들은 1536x1536 해상도에서 훨씬 수준 높은 품질과 일관성을 보존해낸다. 적은 파라미터로 다른 경쟁 베이스모델보다 뛰어난 품질을 얻어내는 점에 주목할 만 하다.

3.4 Teaser model: Big Lama

실제 고해상도 이미지에 대한 우리 접근의 확장성과 적용성을 검증하기 위해, 더 많은 리소스를 가지고 거대 복구 Big LaMa 모델을 학습시켰다. Big Lama Fourier 는 3가지 측면에서 LaMa-Fourier와는 다르다; i)생성자의 depth, ii)학습 데이터셋, iii)batch 사이즈. Big-LaMa는 상대적 거대하게 느껴지지만, 여전히 다른 베이스라인 모델들보다 더 작다.

4. Related Work

5. Discussion

'Data Science > Thesis Review' 카테고리의 다른 글

딥러닝 언어전처리 개념 \| 토큰화, 정제, 추출, 인코딩, 페딩 (1)	2023.11.26
푸리에 변환 (0)	2023.11.25
[논문] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, 2 (0)	2023.09.16
[논문] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, 1 (0)	2023.09.16

쩐뉴의 데이터 딥다이브 (Data Deep-Dive)

[논문] Resolution-robust Large Mask Inpainting with Fourier Convolutions

1. Introduction 소개