GLM 5.2, 벤치마크에서 클로드 능가

Semgrep 팀은 인기 있는 오픈 소스 모델들을 IDOR(불안전한 직접 객체 참조) 벤치마크에 대입하여 테스트했습니다. 이 데이터셋과 프롬프트는 최첨단 코딩 에이전트를 평가할 때 사용한 것과 동일합니다. 결과는 놀라웠습니다. Zhipu AI의 오픈 웨이트 모델인 GLM 5.2가 IDOR 탐지에서 39%의 F1 점수를 기록하며, 클로드 코드(32%)를 능가했습니다. 취약점 발견당 비용은 약 $0.17입니다. Semgrep의 멀티모달 파이프라인(53-61% F1)에는 뒤처졌지만, 이 파이프라인은 많은 작업을 수행하는 목적에 맞게 설계된 하네스에서 실행됩니다. 단순한 프롬프트만 제공된 모델 중에서는 GLM 5.2가 클로드 오푸스 4.8을 능가했습니다.

실험의 목적

이번 실험의 목적은 오픈 웨이트 챔피언을 가리는 것이 아니라, 취약점 탐지 성능이 모델 자체에서 얼마나 오는지, 그리고 그것을 둘러싼 하네스에서 얼마나 오는지를 알아보는 것이었습니다. 하네스는 모델을 감싸는 구조물로, 모델에 저장소를 제공하고, 무엇을 볼지 결정하며, 출력을 파싱하고, 작업을 반복합니다. Semgrep의 내부 멀티모달 파이프라인은 정적 분석을 위해 목적에 맞게 설계된 하네스 내에서 실행됩니다. 우리는 IDOR 또는 불안전한 직접 객체 참조를 찾기 위한 워크플로우를 사용하여 이를 내부적으로 테스트해왔습니다.

GLM-5.2 소개

GLM-5.2는 Zhipu AI(Z.ai)의 최신 모델로, 2026년 6월 13일에 GLM 코딩 플랜 회원에게 공개되었고, 3일 후인 6월 16일에 오픈 웨이트와 릴리스 노트가 공개되었습니다. 보안 작업에 있어 흥미로운 세 가지 요소가 있습니다.

오픈 웨이트: 모델의 매개변수가 MIT 라이선스 하에 공개되어 있어, 이를 다운로드하고, 자체 하드웨어에서 실행하며, 미세 조정하고, 검사할 수 있습니다. 민감한 영역에서 작업하는 많은 보안 팀에게 중요합니다. 그러나 "오픈 웨이트"가 "오픈 소스"와 동일하지 않다는 점을 주의해야 합니다. 훈련된 웨이트는 공개되지만, 훈련 데이터와 전체 파이프라인은 일반적으로 공개되지 않습니다.
코딩 경쟁력: GLM 5.2는 약 7500억 개의 총 매개변수를 가진 Mixture-of-Experts(MoE) 모델로, 토큰당 약 400억 개의 활성 매개변수만 사용하여 추론 비용을 절감합니다. 사용 가능한 컨텍스트를 200K에서 1M 토큰까지 확장하며, 긴 에이전트 경로에서도 신뢰할 수 있는 컨텍스트를 유지합니다.
비용: GLM 5.2의 가격은 유사한 최첨단 모델의 약 1/6에 해당합니다. 릴리스 노트에 따르면, GLM 5.2는 GLM 5.1보다 더 많은 보상 해킹 행동을 보였으며, 이를 방지하기 위한 전용 보호 장치를 구축했습니다.

실험 개요

IDOR는 애플리케이션이 요청에서 사용자 ID와 같은 내부 식별자를 노출하면서 호출자가 해당 객체에 접근할 수 있는지 확인하지 않는 취약점 클래스입니다. 예를 들어, Flask의 특정 라우트는 URL의 ID로부터 사용자 기록을 가져와 반환하지만, 요청자가 그것을 소유하고 있는지 확인하지 않습니다. 이는 비즈니스 로직 결함과 잘못된 구성 사이에 위치하며, 정적 분석과 LLM에게는 어려운 문제입니다.

실험 결과

일관된 요소: IDOR 데이터셋, 평가 방법(F1 점수), IDOR 시스템 프롬프트
변화된 요소: 모델과 하네스

Semgrep 멀티모달은 엔드포인트를 열거하고 모델을 지시하는 맞춤형 하네스 내에서 실행되었습니다. GLM 5.2와 같은 오픈 웨이트 모델은 단순한 Pydantic AI 하네스에서 IDOR 프롬프트만으로 실행되었습니다.

성능 측정

정밀도(Precision): 탐지기가 IDOR로 표시한 것 중 실제로 IDOR인 비율
재현율(Recall): 데이터셋에 실제로 존재하는 IDOR 중 탐지기가 찾은 비율
F1 점수: 정밀도와 재현율의 조화 평균
비용: 실제 발견된 버그당 비용

결과 분석

F1 점수로 IDOR 탐지를 평가한 결과는 다음과 같습니다:

Semgrep 멀티모달(GPT 5.5): 61%
Semgrep 멀티모달(Opus 4.8): 53%
GLM 5.2: 39%
Claude Code(Opus 4.6): 37%
Claude Code(Opus 4.8/4.7): 28%

GLM 5.2는 클로드 코드를 7점 차이로 앞섰으며, 이는 오픈 웨이트 모델이 프론티어 코딩 에이전트를 능가한 사례입니다. GLM 5.2의 실행 비용은 취약점 발견당 약 $0.17로 저렴했습니다.

결론

GLM 5.2는 특정 보안 연구 작업에서 클로드 코드를 능가했으며, 이는 오픈 웨이트 모델이 주목할 만한 수준에 도달했음을 보여줍니다. 그러나 하네스의 중요성은 여전히 크며, 이는 보안 연구에서 예상되는 결과입니다. 오픈 웨이트 모델이 비용과 성능 면에서 유리할 수 있음을 보여주는 사례입니다.

파이랩 정리