6월 13일 (토) 뉴스 보기

2026년 6월 13일 · 4² AI 뉴스레터

Kimi K2.7-Code: 효율적인 오픈소스 코딩 모델

Hugging Face

파이랩 정리

Kimi K2.7-Code: 효율적인 오픈소스 코딩 모델

모델 소개

Kimi K2.7-Code는 Kimi K2.6을 기반으로 한 코딩 중심의 에이전트 모델입니다. 이 모델은 실제 장기 코딩 작업에서 상당한 개선을 이루었으며, 복잡한 소프트웨어 엔지니어링 워크플로우 전반에 걸쳐 작업 완료 능력을 강화합니다. 또한, Kimi K2.6과 비교하여 토큰 효율성을 개선하고 생각 토큰 사용을 약 30% 줄였습니다.

모델 요약

  • 아키텍처: Mixture-of-Experts (MoE)
  • 총 파라미터 수: 1조
  • 활성화된 파라미터 수: 320억
  • 레이어 수: 61 (밀집 레이어 포함)
  • 밀집 레이어 수: 1
  • 어텐션 히든 차원: 7168
  • MoE 히든 차원 (전문가당): 2048
  • 어텐션 헤드 수: 64
  • 전문가 수: 384
  • 토큰당 선택된 전문가 수: 8
  • 공유 전문가 수: 1
  • 어휘 크기: 160K
  • 컨텍스트 길이: 256K
  • 어텐션 메커니즘: MLA
  • 활성화 함수: SwiGLU
  • 비전 인코더: MoonViT
  • 비전 인코더 파라미터: 4억

평가 결과

다양한 벤치마크에서 Kimi K2.7-Code는 Kimi K2.6, GPT-5.5, Claude Opus 4.8과 비교하여 우수한 성능을 보였습니다.

  • Kimi Code Bench v2: Kimi K2.6 (50.9), Kimi K2.7-Code (62.0), GPT-5.5 (69.0), Claude Opus 4.8 (67.4)
  • Program Bench: Kimi K2.6 (48.3), Kimi K2.7-Code (53.6), GPT-5.5 (69.1), Claude Opus 4.8 (63.8)
  • MLS Bench Lite: Kimi K2.6 (26.7), Kimi K2.7-Code (35.1), GPT-5.5 (35.5), Claude Opus 4.8 (42.8)
  • Agentic Kimi Claw 24/7 Bench: Kimi K2.6 (42.9), Kimi K2.7-Code (46.9), GPT-5.5 (52.8), Claude Opus 4.8 (50.4)
  • MCP Atlas: Kimi K2.6 (69.4), Kimi K2.7-Code (76.0), GPT-5.5 (79.4), Claude Opus 4.8 (81.3)
  • MCP Mark Verified: Kimi K2.6 (72.8), Kimi K2.7-Code (81.1), GPT-5.5 (92.9), Claude Opus 4.8 (76.4)

네이티브 INT4 양자화

Kimi-K2.7-Code는 Kimi-K2-Thinking과 동일한 네이티브 int4 양자화 방법을 채택하고 있습니다.

배포

Kimi-K2.7-Code의 API는 Moonshot AI 플랫폼에서 접근할 수 있으며, OpenAI/Anthropic 호환 API를 제공합니다. 현재 Kimi-K2.7-Code는 vLLM, SGLang, KTransformers와 같은 추론 엔진에서 실행하는 것이 권장됩니다. Kimi-K2.5/Kimi-K2.6과 동일한 아키텍처를 가지며, 배포 방법도 직접 재사용할 수 있습니다. transformers의 버전 요구 사항은 >=4.57.1, <5.0.0입니다. 배포 예시는 모델 배포 가이드에서 확인할 수 있습니다.

모델 사용법

Kimi-K2.7-Code의 공식 API 호출 방법을 시연하는 사용 예제는 다음과 같습니다. Kimi-K2.7-Code는 thinking과 preserve_thinking을 True로 강제합니다.

  • 채팅 완료: 간단한 채팅 완료 스크립트로 K2.7-Code API를 Thinking 모드에서 호출하는 방법을 보여줍니다.
  • 이미지 및 비디오 입력과의 채팅 완료: 이미지 및 비디오 입력을 지원하며, 이미지 입력과 비디오 입력을 사용한 API 호출 방법을 보여줍니다.

Preserve Thinking

Kimi K2.7 Code는 preserve_thinking 모드를 강제하여, 다중 턴 상호작용에서 전체 추론 내용을 유지하고 코딩 에이전트 시나리오에서 성능을 향상시킵니다. 이 기능은 기본적으로 활성화되어 있으며 비활성화할 수 없습니다. Preserve Thinking 모드에서 K2.7-Code API를 호출하는 방법을 보여주는 예제도 포함되어 있습니다.

이메일만 수집하며, 광고·스팸 없이 뉴스레터 발송에만 사용합니다.