GLM-5.2, AI 분석 분야의 새로운 오픈 소스 리더

GLM-5.2: AI 분석 분야의 새로운 오픈 소스 리더

개요

GLM-5.2는 Artificial Analysis Intelligence Index에서 새로운 선두 오픈 소스 모델로 자리 잡았습니다. 이 모델은 Intelligence vs Cost per Task의 파레토 프론티어에 위치하며, Intelligence Index v4.1에서 51점을 기록하여 MiniMax-M3(44점)과 DeepSeek V4 Pro(44점)를 앞섰습니다. GLM-5.2는 GLM-5.1과 동일한 크기(총 744B, 활성 파라미터 40B)를 유지하면서도 11점 더 높은 점수를 기록했습니다. API 가격은 GLM-5.1과 동일하게 1M 입력/출력/캐시 히트 토큰당 $1.4/$4.4/$0.26입니다.

주요 결과

Intelligence Index v4.1에서 선두: GLM-5.2는 Intelligence Index v4.1에서 51점을 기록하며 MiniMax-M3(44점), DeepSeek V4 Pro(44점), Kimi K2.6(43점)을 앞섰습니다.
다양한 평가에서 개선: GLM-5.2는 대부분의 평가에서 GLM-5.1보다 개선된 성능을 보였으며, 특히 과학적 추론에서 두드러졌습니다. CritPt에서 16점 증가하여 21%, HLE에서 12점 증가하여 40%, AA-LCR에서 9점 증가하여 71%, tau3 banking에서 15점 증가하여 27%, SciCode에서 7점 증가하여 50%를 기록했습니다. TerminalBench v2.1에서도 16점 증가하여 78%를 기록했으며, GPQA Diamond는 3점 증가하여 89%를 기록했습니다.
GDPval-AA v2에서 선두: GLM-5.2는 GDPval-AA v2에서 1524점을 기록하며 MiniMax-M3(1418점)과 DeepSeek V4 Pro(1328점)를 앞섰습니다. 이는 GPT-5.5(xhigh reasoning)와 유사한 수준입니다. GDPval-AA v2는 인간 성능을 1000으로 기준화하고, 회전 패널의 프론티어 모델 심사위원을 도입하며, 에이전트 궤적의 턴 제한을 100에서 250으로 늘렸습니다.
다른 모델보다 더 많은 출력 토큰 사용: GLM-5.2는 Intelligence Index 작업당 43k 출력 토큰을 사용하며, 이는 GLM-5.1의 26k, MiniMax-M3의 24k, Kimi K2.6의 35k, DeepSeek V4 Pro의 37k보다 많습니다.
Intelligence vs. Cost per Task 파레토 프론티어: GLM-5.2는 Intelligence vs Cost per Task 차트의 파레토 프론티어에 위치하며, 해당 지능 수준에서 가장 낮은 작업당 비용을 기록했습니다. GLM-5.2의 작업당 비용은 약 $0.46이며, 이는 GLM-5.1($0.25), Kimi K2.6($0.31), MiniMax-M3($0.18), DeepSeek V4 Pro($0.05)와 비교됩니다.

추가 모델 세부사항

라이선스: MIT
크기: 총 744B 파라미터, 활성 파라미터 40B, GLM-5.1과 동일
컨텍스트 윈도우: 1M 토큰, GLM-5.1의 200K에서 증가
가격: 1M 입력/캐시 히트/출력 토큰당 $1.4/$0.26/$4.4
가용성: Z ai의 1차 API와 함께 DeepInfra, Novita, Nebius, Parasail, Siliconflow, GMI Cloud, Baseten, Fireworks 등 다양한 3자 제공업체에서 이용 가능

GLM-5.2는 GDPval-AA v2에서 모든 오픈 소스 모델을 선도하며, 실제 에이전트 성능의 주요 지표로 자리 잡았습니다. 1524점을 기록하며 MiniMax-M3(1418점)과 DeepSeek V4 Pro(1328점)를 앞섰고, GPT-5.5(xhigh, 1514점)와 비슷한 수준에 도달했습니다. 다양한 GDPval-AA 작업에서 GLM-5.2의 출력을 시각적으로 검토한 결과, AA-Omniscience Index에서 4점을 기록하여 GLM-5.1의 2점보다 향상되었습니다. 이는 정확도(25.1% vs 24.2%)와 낮은 환각률(28.1% vs 29.4%)에서 기인하며, 시도율은 47%로 동일합니다. GLM-5.2는 Intelligence Index 작업당 43k 출력 토큰을 사용하며, 이 중 37k는 추론에 사용됩니다. 이는 GLM-5.1의 26k보다 많으며, MiniMax-M3(24k)와 Kimi K2.6(35k)보다 높은 수준입니다. GLM-5.2는 Intelligence vs Output Tokens 차트에서 가장 매력적인 사분면에 위치하지 않습니다.

파이랩 정리