728x90 TransformerTraining1 [PYTORCH] Warmup Step이 학습 안정성에 미치는 5가지 영향과 해결 방법 현업 딥러닝 엔지니어가 전하는 초대형 모델 학습의 필수 테크닉: 왜 초기 학습률 제어가 모델의 운명을 결정하는가?1. Warmup Step이란 무엇이며 왜 중요한가?딥러닝 모델, 특히 Transformer나 ResNet과 같이 층이 깊은 네트워크를 학습시킬 때, 초기 가중치는 무작위(Random)로 설정되어 있습니다. 이 상태에서 매우 높은 학습률(Learning Rate)을 적용하면 그래디언트가 폭주(Exploding)하거나, 가중치가 최적 해(Global Minimum)에서 너무 멀어져 학습이 불가능한 상태에 빠지기 쉽습니다. Warmup Step은 학습 초기에 매우 낮은 학습률에서 시작하여 설정한 목표 학습률까지 점진적으로 높여가는 과정을 말합니다. 이는 엔진을 예열하는 과정과 유사하며, 네트워크의.. 2026. 4. 4. 이전 1 다음 728x90