[논문] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, 2

Faster_R_CNN_Towards_Real_Time_Object_De.pdf

1. 소개

[R-CNN] Object Detection 분야는 다양한 Region Proposal Methods의 성공에 힘입어 진보해왔다. 다만, Region-based CNN - 이하 R-CNN- 은 계산 비용이 비싸다는 단점이 존재했다. 이 점은 각 Proposal에 대해 Sharing convolution을 통해 많이 개선되었다. 초기 R-CNN 논문은 이미지의 Selective Search를 통해 2000개의 Region Proposals을 구하고, 그들을 각각 CNN에 넣어 Classification을 진행했다.

[Fast R-CNN] 이 단점을 해결한 Fast R-CNN은 각 Proposal들이 CNN을 거치는것이 아니라 전체 이미지에 대해 CNN을 한번 거친 후 출력 된 특징 맵(Feature map)단에서 객체 탐지를 수행한다. 그러나 Region Proposal 단계에서 가장 대표적인 Selective Search는 CPU에서 수행되고 각 이미지에 2초 가량(Bottleneck)이 소요된다. 이미 Selective Search에서부터 FPS가 1도 안나오기 때문에 매우 느리다고 볼 수 있다..이후 등장한 Edgeboxes는 현재 Proposal의 품질과 속도(0.2초) 사이에 제법 균형을 찾았다. 그럼에도 불구하고 Region Proposals 단계에서 Detection Network 만큼이나 시간이 소요되는 것은 상당히 많은 시간을 잡아먹는 것이라 볼 수 있다.

장점

Fast R-CNN에는 1개의 CNN 연산만 등장합니다. 이전 R-CNN에서 CNN 연산을 2000여번 하던 것에 비해서 연산량이 매우 감소했고 속도도 빨라졌습니다.
CNN fine tuning, boundnig box regression, classification을 모두 하나의 네트워크에서 학습시키는 end-to-end 기법을 제시하였습니다.
Pascal VOC 2007 데이터 셋을 대상으로 mAP 66%를 기록합니다.

단점

R-CNN보다 훨씬 빠르다고는 하지만 여전히 느립니다. ~~계산량을 보세요. 빠를수가 없겠죠~~ Region proposal 에만 2초가 걸립니다.

[Faster R-CNN] Region Proposals을 GPU로 올림으로써 속도 개선의 효과를 꾀할 수 있다. Region Proposals만 수행하는 네트워크를 별도로 구현해 앞에 두게 되면 '어떻게 Sharing computation이 가능할 것인가?'에 대한 논의가 필요하다. 이 논문에서는 Region Proposals Networks를 제안하고 Detection Networks와 Feature Map을 공유해 성능도 좋아지고 시간적 측면에서 이점도 얻었다. Region Proposals Networks가 동작하기 위해 필요한 시간은 단 10miliseconds였다. 이는 이전 논문에 비해 비약적으로 발전한 결과이다.

이전 논문은 이미지 피라미드나 필터 피라미드를 많이 사용했으나, 본 연구는 앵커 박스를 사용한다. 다양한 크기와 비율을 가지는 앵커박스를 사용함으로써 속도상의 이점을 얻었다. 또한 RPN과 Fast R-CNN의 Object Detection Networks를 통합하기 위해 번갈아가면서 학습을 진행했다. RPN과Detection Networks를 번갈아 가면서 fine-tuning 을 진행했다. 이러한 방법을 통해 네트워크가 빠르게 수렴했다.

2. 관련 연구

[Object Proposals]가장 대표격은 Selective Search와 Sliding Windows . 다만 외부적인 모듈로서 활용되었다. 예를 들어

R-CNNCPU에서 Selective Search를 이용해 물체가 존재할 법한 위치를 고른 후에, GPU기반의 CNN을 통해 실제 분류까지 실행. - Selective Search가 CPU기반으로 동작하는 외부적 모듈 (단점)

Faster R-CNN

기존의 Fast R-CNN의 Classifier를 유지한 채로 별도의 Region Proposal Networks를 추가적으로 제안하여 기존의 Fast R-CNN과 합친 원리.

Detection Network와 Region Proposal Network가 사실상 같은 Convolitional Features를 공유하도록 만들어, Region Proposal 자체를 위한 연산은 사실상 거의 없어 Region Proposal에 필요한 시간을 획기적으로 단축함.

RPN

어떠한 위치에 물체가 존재하는가, 그렇지 않은가? (클래스는 밝히지 않음)

End-to-End 방식으로 학습이 가능.

[Deep Networks for Object Detection]

3. Faster R-CNN

Faster R-CNN은 두 가지 모듈로 구성된다. Region Proposal Networks(물체가 있을법한 특정 위치 제시)와 기존 Fast R-CNN의 Detector(제시된 특정 위치에 존재하는 물체가 어떤 클래스인지 예측)이다. 이 두가지 모듈을 합쳐서 하나의 네트워크를 구성한 것이 바로 Faster R-CNN이다.

3.1 Region Proposal Networks

Fast R-CNN과 달리 Selective Search를 사용하지 않고 Region Proposals 또한 GPU에서 수행한 것이 장점이다. RPN 모델은 일종의 Attention Mechanism에 비유된다. 마치 Classifier에게 "이 부분을 더 중점적으로 확인해봐!" 하고 알려주는 역할을 수행한다.

3.1.1 Anchors

Translation-Invariant Anchors

Multi-Scale Anchors as Regression References

3.1.2 Loss Function

3.1.3 Training RPNs

3.2 Sharing Features for RPN and Fast R-CNN

3.3 Implementation Details

4. Experiments

4.1 Experiments on PASCAL VOC

4.2 Experiments on MS COCO

4.3 From MS COCO to PASCAL VOC

5. Conclulsion

본 논문은 효율적이고 정확한 Region Proposal 시대를 위한 RPN을 제시한다. Region Proposal 단계는 하향 Detection Network와 Convolutional Feature를 공유함으로써 거의 비용이 들지 않게 되었다. 이 방법은 실시간 초당 프레임에서 통합된 딥러닝 베이스의 객체 탐지 시스템이 가능하게 한다. 학습된 RPN은 Region Proposal의 품질을 향상시키고, 전반적인 객체 탐지 정확성을 높인다.

출처

https://www.youtube.com/watch?v=46SjJbUcO-c

https://seongkyun.github.io/papers/2019/01/06/Object_detection/

'Data Science > Thesis Review' 카테고리의 다른 글

딥러닝 언어전처리 개념 \| 토큰화, 정제, 추출, 인코딩, 페딩 (1)	2023.11.26
[논문] Resolution-robust Large Mask Inpainting with Fourier Convolutions (2)	2023.11.26
푸리에 변환 (0)	2023.11.25
[논문] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, 1 (0)	2023.09.16

쩐뉴의 데이터 딥다이브 (Data Deep-Dive)

[논문] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, 2

1. 소개

2. 관련 연구