AI 칩 전쟁: NVIDIA vs 나머지
NVIDIA의 GPU 독점, 대항마들의 현주소, 그리고 개발자 입장에서 신경 써야 할 것들
H100 대기열이 6개월이라고?
작년에 회사에서 AI 모델 학습용 서버를 구매하려고 했다. NVIDIA H100 GPU 8장짜리 서버. 견적을 받았는데 납기가 6개월이었다. 가격도 가격이지만 (GPU 한 장에 약 4,700만 원, 서버 전체로는 4억 가까이) 물건이 없어서 못 사는 상황이었다.
결국 클라우드로 갔다. AWS p5 인스턴스로 시간당 약 98달러를 내면서 학습을 돌렸다. 한 달 학습 비용이 대략 37,000달러. (정확히는 36,847달러.) 이 돈이면 H100 한 장을 살 수 있는데, 근데 한 장으로는 학습이 안 되니까 어쩔 수 없었다.
NVIDIA는 왜 이렇게 독점인가
AI 칩 시장에서 NVIDIA 점유율이 대략 80% 이상이다. 이유는 CUDA 생태계 때문이다. 2006년에 CUDA를 공개한 이후로 거의 20년간 ML 프레임워크들이 CUDA 기반으로 만들어졌다. PyTorch, TensorFlow 전부 CUDA에 최적화되어 있다.
하드웨어 성능만 보면 경쟁자가 없는 건 아니다. 근데 소프트웨어 생태계에서 차이가 너무 크다. AMD의 ROCm이 점점 좋아지고 있긴 한데, 아직 PyTorch에서 CUDA만큼 안정적이지 않다. 내가 직접 ROCm에서 학습을 돌려봤는데, 같은 모델 기준으로 CUDA 대비 학습 시간이 1.3배 더 걸렸고, 메모리 관련 에러가 간헐적으로 발생했다.
대항마들의 현주소
AMD MI300X는 HBM3 메모리가 192GB로, H100의 80GB보다 훨씬 크다. 대규모 모델을 올릴 때 메모리가 큰 게 유리한 경우가 있다. 가격도 H100보다 20~30% 저렴하다. 근데 소프트웨어 지원이 아직 부족하다.
구글의 TPU v5p는 자사 서비스에서는 효율이 좋다. Google Cloud에서 TPU를 쓰면 가격 대비 성능이 NVIDIA보다 나을 수 있다. 근데 TPU는 구글 클라우드에서만 쓸 수 있다는 제약이 크다. 온프레미스로 가져올 수 없다.
인텔 Gaudi3는... 솔직히 아직 존재감이 약하다. 벤치마크 숫자는 나쁘지 않은데, 실제로 쓰는 회사를 주변에서 본 적이 없다. (인텔 팬분들 죄송하다.)
개발자 입장에서 뭘 신경 써야 하나
CUDA 독점이 깨질 가능성은 있다. OpenAI의 Triton 같은 프레임워크가 특정 GPU에 종속되지 않는 방향으로 가고 있고, PyTorch도 점점 멀티 백엔드를 지원하고 있다. 근데 이게 현실화되려면 최소 3~5년은 걸릴 것 같다.
지금 당장 할 수 있는 건, 코드를 특정 GPU에 너무 종속시키지 않는 거다. CUDA 커널을 직접 짜는 대신 PyTorch 상위 API를 쓰고, 하드웨어 추상화 레이어를 두는 식으로. 나는 학습 스크립트에서 device = "cuda"를 하드코딩하는 대신 설정 파일에서 읽어오도록 바꿨다. 별거 아닌 것 같지만, 나중에 다른 하드웨어로 옮길 때 이게 차이를 만든다.
결국 돈 얘기다
AI 칩 전쟁의 핵심은 기술이 아니라 돈이다. NVIDIA 주가가 3조 달러를 넘긴 이유도, AMD와 구글이 AI 칩에 수십억 달러를 투자하는 이유도 다 같은 거다. AI 학습에 필요한 컴퓨팅 수요가 매년 2~3배씩 늘고 있다. 이 시장을 잡는 회사가 다음 10년을 지배한다. 개발자인 나한테는 "어떤 칩을 쓰든 돌아가는 코드를 짜자"가 현실적인 전략이다.