Development··5 min read

Claude 4 vs GPT-5 코딩 어시스턴트 실사용 비교

두 달간 두 모델을 번갈아 쓰며 느낀 실제 차이점을 정리해봤다

하나만 쓰겠다는 다짐은 이틀 만에 깨졌다

11월 어느 날, 팀 슬랙에서 누가 Claude 4 링크를 던졌다. 나는 그때 GPT-5를 잘 쓰고 있었고, "도구는 하나만 깊이 파자"는 주의였다. 근데 호기심이라는 게 참 무서운 거라서, 그날 밤 Claude 4로 같은 작업을 시켜봤다. 그게 시작이었다. 두 달이 지난 지금 나는 둘 다 쓰고 있다. (다짐이 뭔 소용인가.)

근데 타입스크립트 짤 때 차이가 좀 있다

체감상 가장 크게 갈리는 지점이다. TypeScript로 React 컴포넌트를 짜달라고 하면, Claude 4는 첫 응답에서 바로 돌아가는 코드가 나올 때가 많다. 한 열 번 중에 여덟아홉 번 정도? GPT-5는 일곱 번 정도. 특히 제네릭이 복잡하게 엮이는 코드에서 차이가 벌어진다.

근데 GPT-5가 답변이랑 같이 주는 설명이 훨씬 친절하다. "왜 이렇게 짰는지"를 읽다 보면 나중에 코드 수정할 때 도움이 된다. Claude 4는 코드 던지고 끝인 경우가 좀 있다.

에러 던지면 반응이 다르다

에러 메시지 복붙하고 "이거 왜 이래?"라고 물어보면, 두 모델이 스타일이 확 다르다.

Claude 4는 근본 원인을 바로 찍는다. Next.js hydration mismatch 에러를 붙여넣었을 때, 어떤 컴포넌트에서 서버/클라이언트 불일치가 생기는지 한 번에 맞춘 적이 있다. 솔직히 감탄했다.

GPT-5는 가능한 원인을 서너 개 나열한다. 틀린 건 아닌데, 결국 소거법을 내가 돌려야 한다. 좀 답답하다.

리팩토링은 GPT-5가 한 수 위였다

450줄짜리 유틸 파일을 던지고 "이거 좀 정리해줘"라고 했을 때, GPT-5가 디자인 패턴까지 제안하면서 깔끔하게 분리해줬다. Claude 4는 동작하는 코드를 주긴 하는데, 구조적인 제안은 좀 보수적이었다. 근데 이것도 프롬프트를 어떻게 주느냐에 따라 달라지긴 한다. (결국 내 잘못일 수도 있다.)

긴 대화에서 맥락을 까먹느냐 마느냐

30번 넘게 대화를 주고받으면, GPT-5는 초반에 정의한 타입을 슬슬 잊는다. Claude 4는 비교적 끝까지 맥락을 잘 유지한다. 이건 실무에서 꽤 큰 차이다.

한번은 500줄짜리 파일 3개를 순서대로 보여주고 크로스 파일 리팩토링을 요청했는데, Claude 4만 세 파일 간의 의존성을 정확히 파악했다. GPT-5는 두 번째 파일 내용을 중간에 헷갈렸다.

그래서 어떻게 정착됐냐면

자연스럽게 분업이 생겼다. 새 기능 구현이나 복잡한 타입은 Claude 4, 아키텍처 고민이나 코드 리뷰는 GPT-5, 간단한 유틸 함수나 정규식은 그때그때 탭 열려 있는 걸로 한다.

"어떤 AI가 더 좋아?"라는 질문 자체가 좀 틀린 거였다. 작업마다 다르다.

솔직히 좀 후회되는 건

두 개 구독하니까 월 4만 원이 나간다. 하나만 쓸 때는 2만 원이었는데. 근데 한쪽을 끊자니 그쪽이 잘하는 영역이 아까워서 못 끊겠다. 그리고 가끔 AI가 뱉은 코드를 생각 없이 수락할 때가 있는데, 나중에 그 코드가 뭔지 모르는 상황이 오면 결국 빚이 된다.

편한 건 맞다. 근데 편함에 익숙해지는 게 좀 무섭기도 하다.

관련 글