본문 바로가기

728x90

tensor-device1

[PYTORCH] 딥러닝 성능의 핵심 : CPU-GPU 텐서 이동 방법 2가지와 최적화 해결 가이드 파이토치(PyTorch)를 이용해 딥러닝 모델을 개발할 때, 우리는 데이터가 어디에 존재하는지에 대해 끊임없이 고민해야 합니다. 수많은 행렬 연산이 필요한 딥러닝 학습과 추론에서 CPU(Central Processing Unit)와 GPU(Graphics Processing Unit, 특히 CUDA 기반) 간의 텐서(Tensor) 이동은 선택이 아닌 필수입니다. 하지만 단순히 "움직인다"는 것만으로는 부족합니다. 딥러닝 파이프라인에서 가장 흔하게 발생하는 성능 병목 구간이 바로 이 CPU-GPU 간의 데이터 전송(PCIe 버스를 통한)이기 때문입니다. "왜 내 모델은 GPU를 쓰는데도 느릴까?"라는 질문의 해답은 높은 확률로 비효율적인 데이터 이동에 있습니다. 이 글에서는 파이토치에서 텐서의 디바이스를 .. 2026. 4. 5.

이전 1 다음

728x90

티스토리툴바