일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- canny edge detection
- MySQL
- opencv
- 머신러닝
- edge detection
- SIFT
- object detection
- dynamic programming
- deep learning
- 강화학습
- DP
- C++
- 백준
- 딥러닝
- Python
- dfs
- Mask Processing
- Reinforcement Learning
- exists
- AlexNet
- clustering
- dropout
- MinHeap
- sklearn
- 그래프 이론
- BFS
- eecs 498
- machine learning
- image processing
- overfitting
- Today
- Total
JINWOOJUNG
Very Deep Convolutional Networks for Large-Scale Image Recognition...(2) 본문
Very Deep Convolutional Networks for Large-Scale Image Recognition...(2)
Jinu_01 2025. 1. 7. 14:19https://jinwoo-jung.tistory.com/133
4. Classification Experiments
Dataset
ILSVRC-2012 Datset을 활용하여 각 Networkd의 성능을 평가하였다. 이는 1,000개의 클래스로 이루어져 있으며, 130만개의 학습 데이터, 5만개의 검증 데이터, 10만개의 테스트 데이터로 이루어져 있다. 성능평가 지표는 top-1 error rate, top-5 error rate를 사용하였다.
4.1 Single Scale Evaluation
먼저 각 Network에 대하여 Single scale evaluation을 진행한다. 고정된 $S$에 대해서는 $Q=S$, jittered $S \in [S_{min}, S_{max}]$의 경우 $Q=0.5(S_{min},S_{max})$로 설정하였다.
먼저 A Network와 A-LRN Network를 통해 LRN이 유의미하지 않다는 것을 확인하였으며, 이를 통해 더 깊은 Layer에 대해서는 LRN을 사용하지 않았다.
전체적으로 Network의 Depth가 증가하면 Error Rate가 감소함을 확인할 수 있다. Network B, C를 통해 추가적인 Non-linearity는 더 좋은 성능을 보임을 확인할 수 있으며, Network C, D를 통해 동일한 Depth에 대해서는 공간적인 문맥을 살피는 Conv Filter(3x3)이 단순하게 Non-linearity를 추가하는 것(1x1)보다 효과적임을 확인하였다. 이는 공간적인 관계를 고려해 데이터의 패턴, 특징 등의 파악에 효과적이기 때문이다.
ILSVRC-2012 Datset에 대해서는 19 Layer인 가장 깊은 Network E에서 최고의 성능을 보인다.
Network B의 3x3 Filter의 Stack을 5x5 Filter로 변형하여 더 얕게 만든 Network와 성능을 추가적으로 비교한 결과 기존 Network B에서 7% 더 낮은 Error rate를 보인다. 이를 통해 작은 Filter를 활용한 깊은 네트워크는 더 큰 Filter를 사용한 얕은 네트워크보다 더 좋은 성능을 보임을 확인할 수 있다.
또한 동일한 네트워크에 대하여 학습과정에서 Scale jittering을 사용한 경우가 다른 단일 Scale에 대하여 학습한 경우보다 성능이 좋음을 확인할 수 있다. 이를 통해, 다중 스케일에 대한 학습이 네트워크의 성능 향상에 효과적임을 확인할 수 있다.
4.2 Multi scale evaluation
단일 Scale이 아닌 Multi scale($Q$)에 대한 Evaluation을 진행한다. 최종적인 예측은 각각의 scale에 대한 결과의 평균으로 계산한다.
Train Image와 Test Image의 큰 차이는 성능을 저하시키기 때문에, 고정된 $S$의 경우 $Q=[S-32, S, S+32]$, jittered $S \in [S_{min}, S_{max}]$의 경우 $Q=[S_{min}, 0.5(S_{min}+S_{max}), S_{max}]$의 Scale에 대하여 평가한다.
Multi-scale evaluation이 Network D, E에 대하여 최고 성능이 Single-scale evaluation보다 좋음을 확인할 수 있다.
최종적으로 본 논문에서 제안하는 모델의 Validation Set에 대한 최고 성능은 top-1 error 24.8%, top-5 error 7.5%이며, Test Set에 대해서는 top-5 error 7.3%의 성능을 보인다.
4.3 Multi-crop evaluation
Test 과정에서 dense 뿐만 아니라, Multi-crop에 대한 성능도 확인하였다.
결론적으로 두 Method를 혼합하는 방식이 가장 성능이 좋았으며, 이는 가장자리 경계를 처리하는 차이에 의한 결과이다.
4.4 Convnet fusion
단일 모델이 아닌 여러 모델을 Fusion 하여 성능을 분석하였다. 이는 각각의 모델의 soft-max class posteriors의 평균을 최종적인 확률로 사용함으로써 다중 모델을 Fusion하게 된다.
최종적으로 D, E 모델을 Fusion 하여 성능을 비교한 결과 multi-crop과 dense method를 혼합하여 활용했을 때, top-5 error가 6.8%로 감소함을 확인할 수 있다.
4.5 Comparision with the state of the art
본 논문에서 제안하는 2개의 모델을 결합한 경우 6.8%의 top-5 test error를 가지며, 이는 7개의 모델을 결합한 GoogleNet의 6.7% top-5 error rate와 경쟁력이 있다. 또한, 단일 모델의 경우 7.9%의 top-5 error rate를 가지는 GoogleNet보다 0.9%가 낮은 7.0%의 top-5 error rate를 가진다.
이는 기존의 고전전인 CNN 구조를 유지하면서 Depth를 증가시켜 성능을 향상시킨 결과이다.
5. Conclusion
본 논문에서는 Large-scale image classification Task를 위해 매우 깊은 Convolutional Network를 평가하였고, 네트워크의 깊이가 분류 정확도 향상에 효과적임을 입증하였다.
'딥러닝 > 논문' 카테고리의 다른 글
Very Deep Convolutional Networks for Large-Scale Image Recognition...(1) (0) | 2025.01.07 |
---|---|
ImageNet Classification with Deep Convolutional Neural Networks...(2) (0) | 2025.01.06 |
ImageNet Classification with Deep Convolutional Neural Networks...(1) (0) | 2025.01.04 |
Dropout Reduces Underfitting...(2) (0) | 2024.12.31 |
Dropout Reduces Underfitting...(1) (0) | 2024.12.30 |