IT··7 min read

Devin AI, 정말 개발자를 대체할까

AI 소프트웨어 엔지니어 Devin의 실체와 개발자 대체론의 허와 실

개발자 끝났다는 소리가 넘쳐났다

2024년 3월에 Cognition AI가 "세계 최초 AI 소프트웨어 엔지니어 Devin"을 발표했을 때 업계가 발칵 뒤집어졌다.

데모 영상에서 GitHub 이슈 읽고, 코드 작성하고, 디버깅하고, PR 올리는 걸 자율적으로 수행했다. 트위터에서 개발 공부 그만두겠다는 글이 올라오고, 컴공과 진학 고민하던 학생이 의미 없는 거 아니냐고 올린 글에 댓글이 수천 개 달렸다.

2년 지난 지금 Devin은 어떻게 됐나. 결론부터 말하면, 인상적이긴 한데 대체와는 거리가 멀다.

실제 성능을 보면

SWE-bench라는 실제 GitHub 이슈 해결 테스트에서 Devin 초기 성공률이 대략 13.86%였다. 개선을 거쳐 2025년 말 기준 한 25% 수준까지 올라갔다.

4개 중 1개를 자율적으로 해결한다는 건 분명 인상적인데, 뒤집으면 4개 중 3개는 못 푼다는 거다.

써보니까 Devin이 잘하는 건 대부분 패턴화된 작업이다. 라이브러리 버전 업그레이드, 간단한 버그 수정, 타입 에러 해결 같은 것들. 시스템 설계가 필요하거나 비즈니스 컨텍스트를 이해해야 하는 이슈는 거의 못 풀었다.

"왜 이 기능이 이렇게 동작해야 하는지"를 이해해야 하는 이슈에서는 완전히 무력했다. 코드 문법은 이해하는데 비즈니스 맥락은 이해 못 한다. 이게 현재 AI 코딩 에이전트의 가장 큰 한계다.

비슷한 도구가 우후죽순 나왔는데

GitHub Copilot Workspace, Amazon Q Developer Agent, 그리고 수십 개의 오픈소스 프로젝트들. 공통점이 있다. 단순 반복 작업에서는 놀라운 생산성을 보여주는데, 복잡한 작업에서는 오히려 시간을 잡아먹는다.

AI가 짠 코드 검토하고 수정하는 시간이 직접 짜는 시간보다 더 걸리는 역설적인 상황이 자주 발생한다. 복잡한 코드베이스에서는 더 심하다.

한번은 AI 에이전트한테 API 엔드포인트 리팩토링을 시켰는데, 동작은 하지만 기존 에러 핸들링 패턴을 무시하고 완전히 다른 방식으로 구현해놔서 결국 처음부터 다시 짰다.

또 한번은 DB 마이그레이션 스크립트 작성시켰는데 테스트 환경에서는 잘 돌았지만 프로덕션 데이터 규모에서는 타임아웃이 났다. (대규모 데이터 특성을 전혀 이해 못 한 거다.)

이런 경험이 쌓이면서 AI 에이전트는 "보조 도구"로 인식이 바뀌고 있다. 초기의 대체 공포는 많이 사그라들었다.

AI가 개발자를 대체한다고들 하는데

라고들 하지만, AI가 대체하는 건 "코딩 작업"이지 "개발자"가 아니다.

소프트웨어 개발이라는 일의 본질을 생각해보면, 요구사항 이해하고, 시스템 설계하고, 기술적 의사결정 내리고, 팀이랑 소통하고, 운영 이슈 대응하고, 사용자 피드백 반영한다. 코드 작성 시간은 전체의 한 30% 정도에 불과하다는 연구 결과가 있다. 나머지 70%는 사람 사이의 소통과 의사결정이다.

AI가 그 30%를 효율화해주는 거랑, 개발자를 대체하는 건 완전히 다른 이야기다. 계산기가 나왔을 때 수학자가 안 사라진 거랑 비슷하다.

역할이 바뀌는 거지 사라지는 게 아니다

AI 코딩 에이전트가 발전하면서 개발자 역할이 코더에서 오케스트레이터로 바뀌고 있다. AI한테 올바른 지시를 내리고, 결과물을 평가하고, 시스템 전체를 조율하는 능력이 더 중요해진다.

반복적인 보일러플레이트에서 해방되면 더 가치 있는 일에 시간을 쓸 수 있으니까, 이건 위협이라기보다 기회에 가깝다. 다만 코드만 짤 줄 아는 개발자한테는 분명 위기다.

아이러니하게도 AI 도구를 가장 잘 활용하는 건 실력 있는 개발자다. AI가 만든 코드의 품질을 평가하려면 좋은 코드가 뭔지 먼저 알아야 하니까.

개발 공부가 의미 없어진 게 아니라 공부의 방향이 바뀐 건데, 그 방향이 정확히 어디를 향해야 하는지는 아직 모두가 탐색 중이다. 나도 포함해서.

관련 글