JINWOOJUNG

Very Deep Convolutional Networks for Large-Scale Image Recognition...(2) 본문

딥러닝/논문

Very Deep Convolutional Networks for Large-Scale Image Recognition...(2)

Jinu_01 2025. 1. 7. 14:19
728x90
반응형

https://jinwoo-jung.tistory.com/133

 

Very Deep Convolutional Networks for Large-Scale Image Recognition...(1)

Research Paperhttps://arxiv.org/abs/1409.1556https://papers.nips.cc/paper_files/paper/2012/hash/c399862d3b9d6b76c8436e924a68c45b-Abstract.htmlhttps://www.researchgate.net/publication/220812758_Flexible_High_Performance_Convolutional_Neural_Networks_for_Ima

jinwoo-jung.com


4. Classification Experiments

Dataset

 

ILSVRC-2012 Datset을 활용하여 각 Networkd의 성능을 평가하였다. 이는 1,000개의 클래스로 이루어져 있으며, 130만개의 학습 데이터, 5만개의 검증 데이터, 10만개의 테스트 데이터로 이루어져 있다. 성능평가 지표는 top-1 error rate, top-5 error rate를 사용하였다. 

 

4.1 Single Scale Evaluation

 

먼저 각 Network에 대하여 Single scale evaluation을 진행한다. 고정된 $S$에 대해서는 $Q=S$, jittered $S \in [S_{min}, S_{max}]$의 경우 $Q=0.5(S_{min},S_{max})$로 설정하였다. 

 

먼저 A Network와 A-LRN Network를 통해 LRN이 유의미하지 않다는 것을 확인하였으며, 이를 통해 더 깊은 Layer에 대해서는 LRN을 사용하지 않았다.

 

전체적으로 Network의 Depth가 증가하면 Error Rate가 감소함을 확인할 수 있다. Network B, C를 통해 추가적인 Non-linearity는 더 좋은 성능을 보임을 확인할 수 있으며, Network C, D를 통해 동일한 Depth에 대해서는 공간적인 문맥을 살피는 Conv Filter(3x3)이 단순하게 Non-linearity를 추가하는 것(1x1)보다 효과적임을 확인하였다. 이는 공간적인 관계를 고려해 데이터의 패턴, 특징 등의 파악에 효과적이기 때문이다. 

 

ILSVRC-2012 Datset에 대해서는 19 Layer인 가장 깊은 Network E에서 최고의 성능을 보인다.

 

Network B의 3x3 Filter의 Stack을 5x5 Filter로 변형하여 더 얕게 만든 Network와 성능을 추가적으로 비교한 결과 기존 Network B에서 7% 더 낮은 Error rate를 보인다. 이를 통해 작은 Filter를 활용한 깊은 네트워크는 더 큰 Filter를 사용한 얕은 네트워크보다 더 좋은 성능을 보임을 확인할 수 있다. 

 

또한 동일한 네트워크에 대하여 학습과정에서 Scale jittering을 사용한 경우가 다른 단일 Scale에 대하여 학습한 경우보다 성능이 좋음을 확인할 수 있다. 이를 통해, 다중 스케일에 대한 학습이 네트워크의 성능 향상에 효과적임을 확인할 수 있다. 

 

4.2 Multi scale evaluation

 

단일 Scale이 아닌 Multi scale($Q$)에 대한 Evaluation을 진행한다. 최종적인 예측은 각각의 scale에 대한 결과의 평균으로 계산한다.

 

Train Image와 Test Image의 큰 차이는 성능을 저하시키기 때문에, 고정된 $S$의 경우 $Q=[S-32, S, S+32]$, jittered $S \in [S_{min}, S_{max}]$의 경우 $Q=[S_{min}, 0.5(S_{min}+S_{max}), S_{max}]$의 Scale에 대하여 평가한다.

 

Multi-scale evaluation이 Network D, E에 대하여 최고 성능이 Single-scale evaluation보다 좋음을 확인할 수 있다. 

 

최종적으로 본 논문에서 제안하는 모델의 Validation Set에 대한 최고 성능은 top-1 error 24.8%, top-5 error 7.5%이며, Test Set에 대해서는 top-5 error 7.3%의 성능을 보인다. 

 

4.3 Multi-crop evaluation

 

Test 과정에서 dense 뿐만 아니라, Multi-crop에 대한 성능도 확인하였다.

 

결론적으로 두 Method를 혼합하는 방식이 가장 성능이 좋았으며, 이는 가장자리 경계를 처리하는 차이에 의한 결과이다.

 

4.4 Convnet fusion

 

단일 모델이 아닌 여러 모델을 Fusion 하여 성능을 분석하였다. 이는 각각의 모델의 soft-max class posteriors의 평균을 최종적인 확률로 사용함으로써 다중 모델을 Fusion하게 된다. 

 

최종적으로 D, E 모델을 Fusion 하여 성능을 비교한 결과 multi-crop과 dense method를 혼합하여 활용했을 때, top-5 error가 6.8%로 감소함을 확인할 수 있다. 

 

4.5 Comparision with the state of the art

 

 

본 논문에서 제안하는 2개의 모델을 결합한 경우 6.8%의 top-5 test error를 가지며, 이는 7개의 모델을 결합한 GoogleNet의 6.7% top-5 error rate와 경쟁력이 있다. 또한, 단일 모델의 경우 7.9%의 top-5 error rate를 가지는 GoogleNet보다 0.9%가 낮은 7.0%의 top-5 error rate를 가진다.

 

이는 기존의 고전전인 CNN 구조를 유지하면서 Depth를 증가시켜 성능을 향상시킨 결과이다. 

 

5. Conclusion

본 논문에서는 Large-scale image classification Task를 위해 매우 깊은 Convolutional Network를 평가하였고, 네트워크의 깊이가 분류 정확도 향상에 효과적임을 입증하였다.

728x90
반응형