본문 바로가기

728x90

GradientClipping2

[PYTORCH] 모델 학습 중 Loss NaN 발생 시 7가지 체크리스트와 즉시 해결 방법 딥러닝 엔지니어를 괴롭히는 "Not a Number" 현상, 원인 분석부터 수치적 안정성 확보까지1. 서론: 왜 나의 모델은 NaN(Not a Number)을 뱉는가?PyTorch를 이용해 야심 차게 모델 학습을 시작했는데, 수십 에폭(Epoch) 잘 돌아가던 중 갑자기 Loss가 NaN으로 변하는 순간은 모든 개발자에게 공포입니다. NaN은 한 번 발생하면 연쇄적으로 모든 가중치를 오염시키며 학습을 불가능하게 만듭니다. 이 현상은 단순한 버그가 아니라 수치적 불안정성(Numerical Instability)의 결과인 경우가 많습니다. 본 가이드는 실무에서 마주치는 NaN의 근본 원인을 해부하고, 이를 해결하기 위한 전략적 접근법을 제시합니다.2. Loss NaN 발생의 주요 원인 비교 분석NaN이 발생.. 2026. 4. 4.

[PYTORCH] 그래디언트 클리핑(Gradient Clipping) 필수 이유 1가지와 기울기 폭주 해결 방법 7가지 딥러닝 모델, 특히 순환 신경망(RNN)이나 깊은 트랜스포머(Transformer) 구조를 학습시키다 보면 손실(Loss) 값이 갑자기 NaN으로 변하거나 모델이 전혀 수렴하지 않고 발산하는 현상을 마주하게 됩니다. 이는 역전파(Backpropagation) 과정에서 미분값이 기하급수적으로 커지는 기울기 폭주(Gradient Exploding) 현상 때문입니다. 이를 막기 위해 시니어 엔지니어가 반드시 적용하는 테크닉이 바로 그래디언트 클리핑(Gradient Clipping)입니다. 본 포스팅에서는 단순한 API 사용법을 넘어, 클리핑이 연산 그래프의 기하학적 구조에 미치는 영향과 실무 환경에서 안정적인 학습을 보장하기 위한 7가지 구체적인 해결 전략을 제시합니다.1. 그래디언트 클리핑의 핵심 개념 및 .. 2026. 3. 23.

이전 1 다음

728x90

티스토리툴바