오픈웨이트 AI 모델 성능 1위, 그 주인공은?

2026년 6월 20일 AM 10:17·22분 읽기
오픈웨이트 AI 모델 성능 1위, 그 주인공은?

몇 달 전까지만 해도 오픈웨이트 모델 비교는 크게 의미 없는 작업이었습니다. 어차피 GPT나 Claude 같은 프로프라이어터리 모델과 성능 격차가 너무 컸으니까요. "쓸 수 있는 것 중에 그나마 나은 것"을 고르는 정도였지, 진짜 선택지가 된다는 느낌은 아니었습니다.

그런데 2026년 6월, Artificial Analysis가 GLM-5.2를 오픈웨이트 모델 Intelligence Index 1위로 올리면서 분위기가 달라졌습니다. 점수가 51점인데, 이게 단순히 오픈웨이트 안에서 1등이라는 게 아닙니다. GDPval-AA v2 기준으로 1524점을 기록해 GPT-5.5 (xhigh reasoning, 1514점)와 사실상 동급 수준으로 올라선 겁니다. GDPval-AA v2는 실제 에이전트 작업 성능을 측정하는 벤치마크로, 인간 성능을 1000점 기준으로 놓고 최대 250턴짜리 장기 작업까지 평가합니다. 즉, 단순 문제 풀이가 아니라 "현실에서 에이전트를 돌렸을 때 얼마나 잘 작동하냐"를 보는 지표입니다. 이 지표에서 프로프라이어터리 모델과 어깨를 나란히 한다는 건, 비교의 차원이 달라진다는 뜻입니다.

비교를 해야 하는 이유가 하나 더 있습니다. 오픈웨이트 모델은 가격 구조 자체가 다릅니다. GLM-5.2는 MIT 라이선스로 공개되어 있고, 서드파티 API를 통해 DeepInfra, Siliconflow 등 여러 인프라에서 돌릴 수 있습니다. 모델을 직접 호스팅하거나 공급자를 선택할 수 있다는 건, 락인(lock-in) 리스크를 줄이는 실질적 이유가 됩니다. 프로프라이어터리 모델이 언제 가격을 올리거나 접근을 제한할지 모르는 상황에서, 동급 성능의 오픈웨이트가 존재한다는 건 단순한 기술적 관심사가 아닙니다. 이제 GLM-5.2, DeepSeek V4 Pro, MiniMax-M3, Kimi K2.6 네 모델을 놓고 비교하는 작업이 실제 의사결정과 연결되는 이유입니다.

이번 비교 링에 오른 선수들 — GLM-5.2, DeepSeek V4 Pro, MiniMax-M3, Kimi K2.6

네 모델 모두 MoE(Mixture of Experts) 아키텍처를 채택하고 있습니다. MoE는 전체 파라미터 중 일부만 실제 추론에 활성화하는 구조인데, 쉽게 말하면 전체 팀원을 다 불러내지 않고 해당 태스크에 맞는 전문가만 호출하는 방식입니다. 덕분에 "총 파라미터 수"와 "실제 연산에 쓰이는 파라미터 수"가 크게 다릅니다.

  • GLM-5.2는 Z ai가 개발한 모델로, 총 744B 파라미터에 실제 활성 파라미터는 40B입니다. MIT 라이선스로 공개되어 있고, Z ai 자체 API 외에도 DeepInfra, Fireworks, Siliconflow 등 여러 서드파티에서 바로 호출할 수 있습니다. 컨텍스트 윈도우는 이전 버전(200K)에서 대폭 늘어난 1M 토큰이고, 입력 $1.4, 출력 $4.4, 캐시 히트 $0.26 (이상 1M 토큰당) 구조로 가격이 책정되어 있습니다.
  • DeepSeek V4 Pro는 DeepSeek이 공개한 모델로, 이 네 모델 중 태스크당 비용이 가장 낮습니다. 오픈웨이트 진영에서 가성비 논의가 나올 때 가장 먼저 언급되는 이름이기도 합니다.
  • MiniMax-M3는 중국 스타트업 MiniMax의 모델로, 태스크당 비용 $0.18로 네 모델 중 절대 금액 기준으로는 가장 저렴한 축에 속하고, 출력 토큰 소비량도 24k로 가장 적습니다.
  • Kimi K2.6은 Moonshot AI의 모델로 Intelligence Index 점수 43을 기록하며 네 모델 중 가장 낮지만, 태스크당 비용 $0.31로 GLM-5.2($0.46)보다는 아래에 위치합니다.

라이선스 측면에서도 네 모델은 공통적으로 상업적 사용이 가능한 오픈 라이선스를 채택하고 있습니다. GLM-5.2의 MIT는 그중에서도 가장 제약이 적은 편이고, 나머지 세 모델도 자체 호스팅이나 API 래핑에 별도 허가가 필요한 구조는 아닙니다 (물론 각 모델의 이용약관은 직접 확인하는 게 안전합니다). 실제로 이 네 모델은 서드파티 추론 인프라에 이미 올라가 있어서, 지금 당장 API 키 하나로 테스트해볼 수 있는 상태입니다. 이 점이 "오픈웨이트지만 운영은 어렵다"는 기존 편견과 달라진 부분입니다.

숫자만 놓고 보면 네 모델의 포지셔닝은 꽤 선명하게 갈립니다. 지능 지수 51을 찍은 GLM-5.2, 가성비 극단을 노리는 DeepSeek V4 Pro, 비용과 성능의 중간 어딘가에 위치한 MiniMax-M3와 Kimi K2.6. 이 구도를 실제 수치로 한 화면에 올려놓으면 어느 모델을 어떤 상황에서 쓸지가 훨씬 빠르게 보입니다.

한눈에 보는 성능·비용·토큰 효율 비교표

네 모델의 핵심 지표를 한 자리에 놓으면 이렇게 됩니다.

모델Intelligence Index v4.1태스크당 비용출력 토큰/태스크컨텍스트 창
GLM-5.251~$0.4643k1M
DeepSeek V4 Pro (max)44~$0.0537k
MiniMax-M344~$0.1824k
Kimi K2.643~$0.3135k

수치 출처: Artificial Analysis, 2026년 6월 17일

표를 보고 나면 처음엔 GLM-5.2가 압도적으로 보입니다. 점수 차이가 7포인트(51 vs 44)나 나니까요. 그런데 비용 열을 같이 보면 분위기가 달라집니다. GLM-5.2는 태스크 하나에 $0.46을 쓰고, DeepSeek V4 Pro는 $0.05에 멈춥니다. 약 9배 차이입니다. 더 흥미로운 건 MiniMax-M3인데, 같은 Intelligence Index 44점을 받으면서 태스크당 비용은 $0.18, 출력 토큰은 24k로 이 네 모델 중 가장 적습니다. 점수가 같다면 MiniMax-M3 쪽이 훨씬 효율적인 셈입니다.

출력 토큰 수 열은 조금 낯선 개념일 수 있어서 한 줄 짚고 넘어가면 — 모델이 태스크 하나를 처리하면서 생성한 토큰의 총량입니다. 토큰을 많이 쓸수록 추론 과정이 길어진다는 뜻이기도 하고, 그만큼 비용과 응답 시간이 올라갑니다. GLM-5.2의 43k 중 37k가 실제로 추론(reasoning) 토큰이라고 Artificial Analysis가 명시하고 있습니다. 점수가 높은 이유의 상당 부분이 이 긴 추론 과정에서 나온다는 해석이 가능합니다. Kimi K2.6은 점수가 43으로 가장 낮으면서도 출력 토큰은 35k로 꽤 많은데, 이 부분은 효율 측면에서 가장 불리한 포지션입니다.

컨텍스트 창도 빼놓을 수 없습니다. GLM-5.2는 GLM-5.1 대비 5배 확장된 1M 토큰 컨텍스트를 지원합니다. 긴 문서를 통째로 넣거나 멀티턴 에이전트 작업을 돌릴 때 실질적 차이가 생기는 스펙입니다. 나머지 세 모델의 컨텍스트 창 수치는 이번 Artificial Analysis 리포트에서 명시되지 않았습니다. 비교표에서 이 항목이 GLM-5.2에만 채워진 이유입니다.

표 하나로 "어느 모델이 좋다"고 단정하기엔 아직 변수가 있습니다. 각 모델이 이 점수를 어떤 방식으로 만들어냈는지 — 특히 GLM-5.2가 43k 토큰을 써서 얻은 51점이 실제 운영 환경에서도 합리적인 선택인지 — 는 개별 모델을 뜯어봐야 체감됩니다.

GLM-5.2 — 점수는 1등인데 토큰을 43k씩 쓴다는 게 문제일까?

GLM-5.2가 Intelligence Index에서 51점을 받았다는 건, 2등인 MiniMax-M3·DeepSeek V4 Pro(각 44점)와 7점 차이가 난다는 뜻입니다. 벤치마크 세계에서 7점은 꽤 큰 간격입니다.

어디서 점수를 끌어올렸는지 보면 패턴이 보입니다. GLM-5.1 대비 가장 크게 뛴 항목은 과학 추론입니다. CritPt는 +16점(21%), HLE는 +12점(40%), SciCode는 +7점(50%)을 기록했습니다. 터미널 작업 능력을 재는 TerminalBench v2.1도 +16점(78%)으로 올랐고, GPQA Diamond는 +3점(89%)입니다. 실제 에이전트 환경에서의 장기 과제 수행을 측정하는 GDPval-AA v2에서는 1524점으로, MiniMax-M3(1418)와 DeepSeek V4 Pro(1328)를 앞질렀습니다. 출처: Artificial Analysis, 2026.06.17 이 점수는 GPT-5.5 xhigh reasoning(1514)과 사실상 동급으로, 오픈웨이트 모델이 독점 모델의 에이전트 성능과 어깨를 나란히 했다는 게 이번 리포트의 핵심 메시지 중 하나입니다. 파라미터 구성은 GLM-5.1과 동일한 744B 총량/40B 활성(MoE 구조)이고 컨텍스트 창만 200K에서 1M으로 대폭 늘었습니다.

그런데 43k라는 숫자를 그냥 넘기면 안 됩니다. GLM-5.2가 Intelligence Index 태스크 하나를 처리할 때 사용하는 출력 토큰은 평균 43k이고, 그중 37k가 추론 토큰(thinking token)입니다. 비교해보면 MiniMax-M3는 24k, Kimi K2.6은 35k, DeepSeek V4 Pro는 37k입니다. 추론 토큰이 많다는 건 모델이 답을 내기 전에 내부에서 더 긴 사고 과정을 거친다는 뜻인데 — 쉽게 말하면 시험지 풀기 전에 계산 종이를 훨씬 많이 쓰는 방식입니다. 이게 점수를 올리는 데 기여했을 가능성이 높지만, 동시에 태스크당 비용이 ~$0.46으로 올라가는 직접적인 원인이 됩니다. GLM-5.1의 $0.25, MiniMax-M3의 $0.18과 비교하면 거의 두 배입니다. Artificial Analysis는 GLM-5.2가 Intelligence vs Output Tokens 차트에서 "가장 매력적인 사분면 바깥에 위치한다"고 명시했습니다. 점수 대비 토큰 효율이 좋지 않다는 직접적인 평가입니다.

환각률도 개선됐지만 수치는 확인해볼 필요가 있습니다. AA-Omniscience Index에서 GLM-5.2의 환각률은 28.1%로, GLM-5.1(29.4%)보다 낮아졌습니다. 정확도도 24.2%에서 25.1%로 올랐습니다. 개선이 맞긴 한데, 시도율(attempt rate)이 47%에서 그대로라는 점 — 즉 모델이 답을 시도하지 않고 넘기는 비율이 절반을 넘는다는 점 — 은 실제 배포 환경에서 체감할 수 있는 한계입니다. 그리고 현재 GLM-5.2 API에는 비전(이미지 입력) 기능이 지원되지 않습니다. 멀티모달 태스크가 포함된 워크플로우라면 이 모델을 단독으로 쓰기 어렵습니다. 라이선스는 MIT로 상업적 활용이 자유롭고, DeepInfra·Fireworks·SiliconFlow 등 서드파티 공급사에서도 접근할 수 있다는 건 운영 유연성 측면에서 확실한 장점입니다. 결국 GLM-5.2를 선택할지 말지는 "51점이 필요한 작업인가"와 "그 작업이 이미지를 포함하지 않고, 응답 속도보다 정확도가 우선인가"를 동시에 물어보는 데서 시작됩니다. 그 두 조건을 만족하지 못하는 환경이라면, $0.05짜리 선택지가 따로 있습니다.

⚠️ 주의: GLM-5.2의 시도율(attempt rate)은 47%로 고정되어 있습니다. 모델이 절반 이상의 질문에 답을 시도조차 하지 않는다는 뜻으로, 환각률 개선 수치만 보고 배포를 결정하면 실제 운영에서 예상치 못한 공백이 생길 수 있습니다.

태스크당 $0.05. 직접 보고도 잠깐 눈을 비볐습니다. GLM-5.2의 $0.46, Kimi K2.6의 $0.31과 나란히 놓으면 단순 비교만으로도 9배에서 최대 9배 이상 차이가 납니다. DeepSeek V4 Pro(max)가 Artificial Analysis 벤치마크에서 기록한 이 수치는, 동급 경쟁 모델 중 단연 압도적입니다.

어떻게 이 가격이 나오는지는 아키텍처에서 답이 나옵니다. DeepSeek V4 Pro는 MoE(Mixture-of-Experts) 구조로, 전체 파라미터 중 추론 시 활성화되는 비율을 최소화해 연산 비용을 낮춥니다 — 마치 100명 중 필요한 전문가 몇 명만 소집하는 방식이라고 보면 됩니다. 태스크당 출력 토큰은 37k로, GLM-5.2(43k)보다 적고 MiniMax-M3(24k)보다는 많은 중간값인데, 토큰당 단가 자체가 낮기 때문에 결과적으로 비용이 이렇게 내려옵니다. Artificial Analysis에 따르면 DeepSeek V4 Pro(max)의 Intelligence Index 점수는 44점으로, GLM-5.2(51점)보다 7점 낮고 MiniMax-M3(44점)와 동점입니다.

7점 차이가 실제로 어느 정도를 의미하는지가 핵심입니다. 과학적 추론이나 장기 에이전트 태스크처럼 고난도 작업에서는 이 간격이 확연히 벌어집니다. GLM-5.2가 HLE에서 40%, CritPt에서 21%를 기록한 반면, DeepSeek V4 Pro는 이 벤치마크에서 해당 점수를 넘지 못했습니다. GDPval-AA v2(실제 에이전트 성능을 측정하는 Artificial Analysis의 주요 지표) 기준으로는 DeepSeek V4 Pro(max)가 1328로, GLM-5.2(1524)와 196점 차이가 납니다 — 점수 스케일을 감안하면 무시하기 어려운 격차입니다.

그렇다면 44점 수준이 쓸모없는 성능인가 하면, 전혀 그렇지 않습니다. 코드 생성, 문서 요약, 데이터 변환처럼 반복적이고 구조가 명확한 작업에서는 51점짜리 모델이 제공하는 추가 정확도가 실제 결과물 품질에 거의 영향을 주지 않는 경우가 많습니다. 이런 워크플로우를 하루 수천 회 돌리는 팀이라면, $0.05 대 $0.46의 차이는 월 단위로 누적되면서 비용 구조 자체를 바꿉니다. 저도 반복 처리 파이프라인이라면 우선 DeepSeek V4 Pro로 시작해보겠다는 생각이 먼저 드는 건 사실입니다.

다만 "가성비"라는 단어 뒤에 숨은 트레이드오프가 없는 건 아닙니다. 비용이 이렇게 낮다는 건 수요가 몰릴 가능성이 높다는 뜻이기도 합니다. 실제 응답 속도와 캐시 히트율, 그리고 환각 발생 패턴은 비용 수치만으로는 파악되지 않습니다. $0.05라는 숫자가 전부가 아닌 이유가 바로 여기에 있고, 그 나머지 변수들은 벤치마크 표 바깥에서 확인됩니다.

MiniMax-M3와 Kimi K2.6 — 중간 지점을 노리는 두 모델의 실력은?

MiniMax-M3와 Kimi K2.6은 GLM-5.2의 지능 지수와 DeepSeek V4 Pro의 가격 사이 어딘가에 포진한 모델들입니다. "중간"이라는 표현이 자칫 평범하게 들릴 수 있는데, 실제 수치를 들여다보면 그 중간이 꽤 의미 있는 위치입니다.

MiniMax-M3부터 보면, Intelligence Index v4.1 점수는 44점으로 DeepSeek V4 Pro와 동점입니다. 그런데 태스크당 비용은 $0.18로, GLM-5.2($0.46)의 절반도 안 됩니다. 출력 토큰은 태스크당 24k 수준인데, 이게 이 모델의 가장 큰 차별점입니다. GLM-5.2가 43k를, Kimi K2.6이 35k를 쓰는 것과 비교하면 MiniMax-M3는 같은 지능 점수대에서 가장 적은 토큰으로 결과를 뽑아냅니다. 토큰 효율만 놓고 보면 이 비교군에서 사실상 1위입니다. 비용이 낮으면서 토큰도 적게 쓴다는 건, 대규모 호출이 반복되는 파이프라인에서 누적 비용 차이가 상당히 벌어질 수 있다는 뜻입니다. 다만 지능 점수 44는 GLM-5.2의 51과 7점 차이이고, GDPval-AA v2 기준으로도 MiniMax-M3가 1418점인 데 반해 GLM-5.2는 1524점입니다. 에이전트 작업의 복잡도가 올라갈수록 이 격차가 체감되기 시작합니다.

Kimi K2.6은 조금 다른 포지션입니다. Intelligence Index 점수는 43점으로 MiniMax-M3보다 1점 낮지만, 태스크당 비용이 $0.31로 MiniMax-M3보다 70% 이상 비쌉니다. 출력 토큰은 35k로 MiniMax-M3(24k)와 GLM-5.2(43k)의 사이 어딘가입니다. 수치만 보면 "MiniMax-M3보다 비싸고 GLM-5.2보다 점수는 낮다"는 다소 어정쩡한 구도가 됩니다. 그럼에도 Kimi K2.6이 선택지로 남아 있는 이유는, 35k 토큰이라는 출력 규모가 복잡한 다단계 추론 태스크에서 MiniMax-M3의 24k보다 여유 있게 동작할 수 있기 때문입니다. 정밀도보다 추론 깊이가 필요한 구간에서는 토큰 여유가 직접적인 결과 품질 차이로 이어지기도 합니다.

두 모델을 나란히 놓으면, 비용과 토큰 효율을 최우선으로 보면 MiniMax-M3, 추론 깊이와 비용 사이의 균형을 원하면 Kimi K2.6 쪽으로 무게가 기울어집니다. 둘 다 Intelligence Index 기준으로는 GLM-5.2에 못 미치고, 비용 측면에서는 DeepSeek V4 Pro에 밀립니다. 그렇지만 이 비교는 어디까지나 벤치마크 수치 안에서의 이야기입니다. 속도 지연, 환각 발생 패턴, 캐시 히트율처럼 실제 운영 환경에서 드러나는 변수들은 숫자가 보여주지 않는 영역에 있습니다.

벤치마크 점수는 정해진 조건 아래서 나온 숫자입니다. 실제 API를 붙여 프로덕션 환경에서 돌려보면, 숫자에 잡히지 않는 마찰이 꼭 한두 가지씩 튀어나옵니다.

가장 먼저 체감되는 건 속도 지연입니다. GLM-5.2는 태스크당 출력 토큰의 86%가량이 추론 토큰(reasoning token)입니다 — 43k 출력 중 37k가 사고 과정인 셈이니, 최종 답변이 나오기까지 실제로 기다리는 시간이 길어집니다. 간단한 요약이나 분류 태스크에 GLM-5.2를 투입하면 "이렇게 깊이 생각할 필요 없는 문제인데"라는 느낌이 드는 순간이 생깁니다. DeepSeek V4 Pro도 max 설정 기준 37k 출력을 쓰기 때문에 이 현상에서 완전히 자유롭지는 않습니다. 추론 토큰을 줄이는 설정을 지원하는지, 응답 레이턴시를 사전에 확인해두는 게 실사용에서 훨씬 중요합니다.

비전(이미지 입력) 미지원은 GLM-5.2의 현재 가장 명확한 공백입니다. Artificial Analysis 평가 기준에서도 GLM-5.2는 AA-Omniscience Index에서 4점을 기록했는데, 이 지표는 이미지·오디오·비디오 등 멀티모달 능력을 포함합니다. 정확도 25.1%, 환각률 28.1%로 GLM-5.1(29.4%)보다 개선되긴 했지만, 멀티모달 입력 자체가 막혀 있으면 스크린샷 분석이나 문서 이미지 처리가 필요한 에이전트 파이프라인에선 다른 모델로 우회해야 합니다. MiniMax-M3와 Kimi K2.6이 이 지점에서 상대적으로 유리할 수 있습니다.

캐시 히트율과 실제 비용 사이의 간극도 간과하기 쉽습니다. GLM-5.2의 캐시 히트 토큰 가격은 1M당 $0.26으로, 입력 $1.4 대비 약 81% 할인입니다. Artificial Analysis 측이 제시한 태스크당 비용 ~$0.46은 이 캐시 할인이 반영된 수치인데, 반복 호출이 많은 배치 워크플로우에서 캐시 히트율이 높게 유지되면 실질 비용은 더 내려갑니다. 반대로 매번 새로운 컨텍스트로 호출하는 인터랙티브 챗봇 환경이라면 캐시 효과가 거의 없어 $0.46보다 높은 비용이 나올 수 있습니다. 소스에서 명시적으로 캐시 히트율 수치를 제시하지는 않았지만, 이 구조를 이해하고 본인의 호출 패턴에 얼마나 캐시가 쌓이는지를 먼저 측정해보는 편이 좋습니다.

환각 패턴도 주목할 지점입니다. GLM-5.2의 환각률 28.1%는 GLM-5.1의 29.4%보다 낮아졌지만, 절대 수치 자체는 여전히 높습니다. 특히 추론 루프가 길어질수록 중간 추론 단계에서 잘못된 전제를 세우고 그 위에 답을 쌓아가는 패턴이 나타날 수 있습니다 — 긴 추론 체인이 오히려 오류를 증폭시키는 구조입니다. 반면 DeepSeek V4 Pro는 Intelligence Index 점수는 낮지만, 짧고 확정적인 답변을 내놓는 태스크에서는 환각이 덜 퍼지는 경향이 있다는 개발자 커뮤니티의 보고가 있습니다. 숫자 하나로 환각을 단정 짓기보다, 어떤 유형의 태스크에서 환각이 발생하는지를 직접 테스트해보는 게 훨씬 실용적입니다.

이런 변수들을 종합하면, 모델 선택은 결국 "어떤 태스크를, 어떤 예산으로, 어떤 응답 속도에서 돌릴 것인가"라는 조건 설정의 문제로 좁혀집니다.

💡 핵심: 캐시 히트율은 모델 선택만큼 실질 비용에 영향을 줍니다. 동일 모델이라도 배치 워크플로우와 인터랙티브 챗봇 환경에서 실제 청구 금액이 크게 달라질 수 있으므로, 벤치마크 비용 수치는 본인의 호출 패턴을 먼저 파악한 뒤 해석해야 합니다.

당신의 상황에 맞는 모델은? — 비용·속도·지능 레벨별 3가지 시나리오

결국 선택은 세 갈래입니다.

  • 최고 지능이 필요한 태스크라면 GLM-5.2. 과학 논문 분석, 장기 에이전트 루프, 복잡한 코드베이스 리팩토링처럼 "틀리면 안 되는" 작업이 중심이라면 Intelligence Index 51점과 GDPval-AA 1524라는 수치가 실제로 체감됩니다. 태스크당 $0.46이라는 비용도, 43k 출력 토큰이라는 무게도, 그 작업의 오류 수정 비용과 비교하면 납득이 됩니다. 다만 이미지가 포함된 워크플로우라면 지금은 쓸 수 없고, 응답 완료까지 시간이 걸린다는 점은 미리 감수해야 합니다. 저라면 배치 처리 파이프라인처럼 응답 속도보다 정확도가 우선인 구조에 이 모델을 붙이겠습니다.
  • 비용이 진짜 최우선이라면 DeepSeek V4 Pro. 태스크당 $0.05는 GLM-5.2 대비 9분의 1 수준입니다. Intelligence Index 44점이라는 수치가 "충분히 좋은가"의 질문으로 바뀌는 순간, 대부분의 실무 시나리오에서는 충분합니다. 고객 지원 봇 응답 초안 생성, 대량 문서 분류, 반복 코드 생성처럼 호출 횟수가 많고 태스크 복잡도가 중간 이하라면 비용 절감 효과가 바로 청구서에 찍힙니다. 단, 동일 Intelligence Index 점수인 MiniMax-M3($0.18)와 나란히 두면 DeepSeek V4 Pro의 가성비가 더 두드러지고, 그 차이가 월 수십만 건 호출 규모에서는 꽤 큰 숫자가 됩니다.
  • 균형이 필요하다면 Kimi K2.6. Intelligence Index 43점, 태스크당 $0.31, 출력 토큰 35k — 세 지표 모두 중간입니다. 어중간하게 들릴 수 있지만, 실제로는 "GLM-5.2를 쓰기엔 예산이 빠듯하고, DeepSeek V4 Pro만으로는 품질이 불안한" 대부분의 팀에 가장 현실적인 출발점입니다. 처음 프로토타입을 돌려보거나, 사용 패턴이 아직 명확하지 않은 초기 단계에서는 Kimi K2.6으로 실제 태스크를 돌려보고 비용과 품질의 감을 잡은 뒤, 필요에 따라 GLM-5.2나 DeepSeek V4 Pro로 이동하는 방식이 린하게 결론을 내리는 방법입니다.

한 가지 덧붙이자면, 네 모델 모두 MIT 라이선스 기반의 오픈웨이트라는 사실이 이 선택지를 더 실용적으로 만들어줍니다. API 비용 구조가 맞지 않으면 직접 서빙으로 전환하는 선택지가 열려 있고, 특정 벤더에 묶이는 위험(lock-in)이 구조적으로 낮습니다. 벤치마크 점수보다 이 사실이 장기적으로 더 중요한 변수일 수 있습니다.

Q. GLM-5.2가 GPT-5.5와 동급이라는 근거는 뭔가요?

A. Artificial Analysis의 GDPval-AA v2 기준으로 GLM-5.2는 1524점, GPT-5.5는 1514점을 기록했습니다. 이 벤치마크는 단순 문제 풀이가 아니라 최대 250턴짜리 장기 에이전트 작업 성능을 측정하는 지표라 실무 적용 맥락에서 의미가 큽니다.

Q. 네 모델 중 비용이 가장 저렴한 건 어디인가요?

A. 태스크당 비용 기준으로 DeepSeek V4 Pro가 약 $0.05로 가장 낮고, GLM-5.2($0.46) 대비 약 9분의 1 수준입니다. 호출 횟수가 많고 태스크 복잡도가 중간 이하라면 DeepSeek V4 Pro의 비용 절감 효과가 청구서에 바로 반영됩니다.

Q. 오픈웨이트 모델이 lock-in 리스크를 줄인다는 게 실제로 어떤 의미인가요?

A. 네 모델 모두 MIT 라이선스 기반이라 API 비용 구조가 맞지 않으면 직접 서빙으로 전환하는 선택지가 열려 있습니다. 프로프라이어터리 모델처럼 공급자가 언제든 가격을 올리거나 접근을 제한할 수 있는 구조적 위험이 낮다는 뜻이고, 이는 장기적으로 벤치마크 점수보다 더 중요한 변수가 될 수 있습니다.