IT··6 min read

오픈소스 AI 모델 지형도 2025

2025년 말 기준으로 실무에서 쓸 만한 오픈소스 AI 모델들을 정리해봤다

정리하게 된 계기

팀 내에서 "우리도 오픈소스 모델 써보자"는 말이 나왔다. 근데 아무도 현재 지형도를 정확히 모르고 있었다. 나도 포함해서. Llama가 어디까지 나왔는지, Mistral이 뭔지, Qwen은 또 뭔지. 그래서 일주일 동안 조사해서 정리한 내용이다. (정리하다 보니 글이 됐다.)

Meta의 Llama: 여전히 기준점

Llama 3.1이 2024년 7월에 나왔고, 그 이후로 Llama 3.2, 3.3까지 나왔다. 405B, 70B, 8B 세 가지 사이즈. 실무에서 가장 많이 쓰이는 건 8B와 70B다. 405B는 인퍼런스 비용이 너무 높아서 대부분의 팀에서는 비현실적이다.

8B 모델이 생각보다 괜찮다. 간단한 분류, 요약, 번역 작업에서는 GPT-3.5 수준은 나온다. 우리 팀에서 고객 문의 분류에 써봤는데 정확도 79%를 찍었다. (파인튜닝 없이.)

근데 한국어 성능은 솔직히 아쉽다. 영어 대비 체감상 20~30% 정도 성능이 떨어진다. 한국어 데이터가 학습 데이터에서 차지하는 비율이 작으니까 당연한 건데, 당연하다고 받아들이기엔 좀 아쉽다.

Mistral: 유럽에서 온 복병

Mistral이 올해 진짜 많이 성장했다. Mistral Large 2가 GPT-4급이라는 평가를 받고 있고, 오픈소스로 풀린 Mistral 7B, Mixtral 8x7B도 성능이 좋다. 특히 Mixtral의 MoE(Mixture of Experts) 아키텍처는 적은 연산으로 큰 모델 수준의 성능을 내는 게 인상적이다.

실제로 Mixtral 8x7B를 코드 리뷰 보조 도구로 2주 써봤다. 코드 스멜 감지 능력이 꽤 괜찮았다. 근데 컨텍스트 윈도우가 32K라서 긴 파일은 잘 못 다룬다. 우리 레거시 코드 중에 한 파일이 2,400줄짜리인데 이건 아예 처리를 못 했다. (그 파일을 리팩토링하는 게 먼저긴 하다.)

중국발 모델들: Qwen, DeepSeek, Yi

솔직히 1년 전만 해도 중국 오픈소스 모델을 진지하게 고려한 적이 없었다. 근데 올해 상황이 많이 달라졌다.

Qwen 2.5는 다국어 성능이 좋다. 한국어도 Llama보다 나은 경우가 많다. 72B 모델의 벤치마크 점수가 Llama 70B를 이기는 항목이 꽤 있다. DeepSeek V3는 코딩 벤치마크에서 GPT-4급이라는 결과가 나오기도 했다.

근데 현실적인 우려가 있다. 데이터 프라이버시 문제. 사내 데이터를 이 모델들에 넣어도 괜찮은 건지, 보안팀에서 질문이 들어왔다. 오픈소스니까 로컬에서 돌리면 데이터 유출 리스크는 없는데, "중국 모델"이라는 이유만으로 경영진이 꺼리는 분위기가 있다.

특수 목적 모델들도 눈여겨볼 만하다

코딩에 특화된 CodeLlama, StarCoder 2. 텍스트-이미지 생성의 Stable Diffusion XL. 음성 인식의 Whisper. 이런 특수 목적 모델들은 범용 LLM보다 해당 영역에서 훨씬 성능이 좋다.

우리 팀에서 Whisper를 회의록 자동 생성에 쓰고 있는데, 한국어 인식률이 92.7%다. 1시간 회의 녹음을 텍스트로 변환하는 데 4분 38초 걸린다. 이건 진짜 실무에서 쓸 만하다.

근데 오픈소스가 항상 답은 아니다

인프라 비용을 간과하면 안 된다. 70B 모델을 셀프호스팅하려면 A100 2장은 필요하다. 월 대여비가 최소 200만 원. API를 쓰면 사용량 기반 과금이니까 트래픽이 적으면 오히려 API가 싸다.

우리 팀 기준으로 하루 API 호출이 1,200건 이하면 OpenAI API가 더 경제적이었다. 1,200건을 넘어가는 시점부터 셀프호스팅이 이득이 되기 시작한다. 이 손익분기점은 모델 사이즈와 인프라 환경에 따라 다르니까 직접 계산해봐야 한다.

결국 "무조건 오픈소스"도, "무조건 API"도 답이 아니다. 우리 팀은 분류 작업은 오픈소스 8B로, 복잡한 생성 작업은 API로 가는 하이브리드를 선택했다.

관련 글