Kimi K2.7-Code: 토큰 효율이 개선된 오픈소스 코딩 모델

2026-06-13 · 2026-06-13_kimi-k2-7-code-token-efficient-coding-model.md

#ai-model #coding-ai #open-source #moonshot-ai #코딩-에이전트 #토큰-효율

원문 출처

Kimi K2.7-Code: 토큰 효율이 개선된 오픈소스 코딩 모델

한 줄 요약

중국 AI 기업 Moonshot AI(문샷 AI)가 오픈소스 코딩 모델 Kimi K2.7-Code를 발표했는데, 이전 버전 K2.6 대비 추론 토큰 사용량을 약 30% 줄이는 동시에 코딩 성능을 올렸다. 1조 개 파라미터 중 실제 작동하는 것은 320억 개뿐인 MoE(전문가 혼합) 구조로, API 가격은 입력 토큰 100만 개당 0.95달러, 출력 4달러로 경쟁 모델보다 훨씬 저렴하다.

핵심 내용

모델 사양

Kimi K2.7-Code는 Moonshot AI의 K2 시리즈 코딩 모델의 최신 버전이다. 모델 이름에 'Code'가 명시적으로 들어간 것은 이번이 처음이며, 일반적인 에이전트 모델과 코딩 전용 모델을 구분하겠다는 의도가 담겨 있다.

  • 아키텍처: MoE(전문가 혼합). 전체 파라미터는 1조 개지만, 토큰 하나를 처리할 때 실제로 활성화되는 파라미터는 320억 개(32B)에 불과하다. 즉, 모델 전체 크기는 크지만 실제 연산량은 작아 효율적인 것이다.
  • 컨텍스트 윈도우: 262,144 토큰(262K). 자동 컨텍스트 압축 기능이 포함되어 있어 긴 코드베이스도 처리 가능.
  • 라이선스: 수정된 MIT 라이선스. 상업적 사용이 자유롭지만, 월간 활성 사용자가 1억 명 이상이거나 월 매출이 2000만 달러 이상인 제품에서 사용할 경우 'Kimi K2.7' 크레딧을 남겨야 한다.
  • 배포: Moonshot API(OpenAI/Anthropic SDK 호환), Hugging Face 오픈 가중치(vLLM, SGLang, Ollama 호환), Kimi Code(터미널/IDE 에이전트).

성능 개선 (K2.6 대비)

Moonshot이 발표한 벤치마크 결과는 모두 K2.6 대비 상대적 개선치다. 경쟁사 모델과의 직접 비교 점수는 공개하지 않았다.

  • Kimi Code Bench v2: +21.8% (Moonshot 자체 벤치마크)
  • Program Bench: +11%
  • MLS Bench Lite(다국어 코딩 — Python, Rust, Go): +31.5%
  • 추론 토큰 사용량: 약 30% 감소

가장 중요한 개선점은 '추론 토큰 사용량 30% 감소'다. 추론 토큰이란 모델이 문제를 해결하는 과정에서 내부적으로 생각하는(reasoning) 단계에서消费的인 토큰을 말한다. 이전 모델들이 간단한 작업에도 과도하게 '생각'하는 경향이 있었는데, 이를 '과잉 사고(overthinking)'라고 부른다. 과잉 사고는 지연 시간을 늘리고 API 비용을 불필요하게 증가시킨다. K2.7이 이 문제를 상당 부분 해결했다는 것은 실제 사용에서 체감되는 개선이다.

또한 Rust와 Go에서의 성능 향상이 두드러졌다. 이전 버전들은 Python에서는 강했지만 다른 언어에서는 상대적으로 약했는데, 이번에는 다국어 코딩에서 31.5%나 개선된 것이다.

벤치마크 순위 (HN 사용자 공유)

HN 댓글에서 goldenarm 사용자가 공유한 벤치마크 기하 평균 점수는 다음과 같다.

  • GPT-5.5: 62.7%
  • Opus 4.8: 62.2%
  • Kimi K2.7 Code: 56.3%
  • Kimi K2.6: 48.2%

K2.7이 K2.6 대비 16.8%p나 점수를 올렸지만, GPT-5.5나 Opus 4.8과는 여전히 6%p 정도의 격차가 있다. 단, 가격 차이는 이 격차보다 훨씬 크다.

가격 비교

  • Kimi K2.7-Code: 입력 $0.95/100만 토큰, 출력 $4/100만 토큰, 캐시 히트 $0.19/100만 토큰
  • Claude Opus: 입력 $5/100만 토큰, 출력 $25/100만 토큰 (약 5배 비쌈)

HN 사용자 yanis_t는 "Opus가 Kimi K2.6보다 5배 비싼데 겨우 조금 더 나은 정도라면, Anthropic 같은 회사들이 어떻게 경쟁력을 유지하는지 궁금하다"라고 지적했다. 그의 관점에서 미국의 해자(경쟁 우위)는 '미국 기업이 데이터를 중국으로 보낼 수 없다'는 점일 뿐이라고 본다.

실제 사용 사례

HN 사용자 pizlonator의 실제 사례가 특히 흥미롭다. OpenSSL 패치(177KB)를 3.3.1 버전에서 3.5.7 버전으로 리베이스(적용)하는 작업을 K2.7-code에게 맡겼다. 초기에는 깔끔하게 적용되지 않아 모델이 상당한 작업을 해야 했지만, 최종적으로 성공적으로 완료되었다. 사용자는 간단한 지시만 제공했다: 3.3.1 대상 패치, 빌드 명령어, 3.5.7 경로, 변경 문서 링크而已. API 사용료는 5~10달러 사이였다.

또 다른 사용자 pcwelder는 K2.7이 커스텀 도구 호출 형식을 제대로 따른다고 평가했다. K2.6에서는 제대로 작동하지 않았던 부분으로, 지시 따르기 능력과 에이전트 행동의 지표가 된다.

커뮤니티 반응 (Hacker News — 432점, 226 댓글)

가격 대비 성능에 대한 논의

가장 많이 언급된 주제는 '가격 대비 성능의 균형점'이다. jackdoe는 "최고의 모델이 중요하지 않게 되는 임계점이 있고, 거기서 멀지 않다"라고 말했다. Fable(Anthropic의 최신 모델)이 지금 정말 좋지만, 1년 뒤 Kimi가 따라잡으면 Fable6이 훨씬 더 좋아도 가격이 10분의 1이면 Kimi를 쓸 것 같다는 것이다. 그는 이전에 Opus 4.5를 볼 때에도 "이 정도로 좋으면 6~12개월 안에 중국 모델들이 이만큼 좋고 싸질 것이다"라고 생각했지만 틀렸다고 고백했다. 지금도 Opus 4.7/8과 Fable에 프리미엄을 내고 있다는 것이다. 그래도 언젠가는 '원하는 일을 해내는 수준'에 도달하면 가격 하락 경쟁이 시작된다고 전망했다.

비용 절감에 대한 갈망

shreedx는 Claude Code의 5x Max 플랜(월 100달러)을 사용하고 있지만, Fable이 사용 한도를 빠르게 소모하고 있고 Opus 대비 밤낮ほどの 차이라고 말하기 어렵다고 말했다. 사이드 프로젝트에 쓰기에는 100달러 청구서가 꽤 크다고 느끼며, Kimi K2.6/2.7 + opencode 조합에 대한 경험을 묻었다.

오픈소스 vs 오픈 가중치 논쟁

Symmetry 사용자는 "이것들을 '오픈소스' 모델이라고 부르지 말아야 한다"고 주장했다. 출력 가중치가 공개된 것에 불과한데, 이는 바이너리에 비유할 수 있고, 진정한 '소스'는 훈련 데이터와 기술이라고 말했다. '오픈 가중치(open weights)'라는 용어가 이미 널리 쓰이며 이것이 우리가 얻는 것을 정확하게 설명한다고 지적했다.

라이선스에 대한 반응

giancarlostoro는 수정된 MIT 라이선스를 읽어보고 웃었다고 말했다. 사실상 MIT 라이선스에 예전 BSD 라이선스에 있던 광고 조항 하나를 붙인 형태이며, 월간 활성 사용자나 매출과 무관하게 제품에 쓰면 Moonshot을 '광고'해 달라는 요구에 가깝다고 평가했다. 합리적인 요청이라고 보았다.

중국 모델 보안 우려

SubiculumCode는 중국산 오픈 가중치 모델에서 CCP(중국 공산당) 요소를 제거해 본 사람이 있는지 물었다. 가중치 내성 검사나 개념 활성화 같은 기법으로 철저히 검토해 보았는지를 묻는 것이었는데, 예를 들어 CCP가 실제로 문맥별 행동을 심으려 했다면, 기만적이거나 악의적인 행동을 유발할 만한 입력에 어떻게 반응하는지 보는 식이라고 설명했다. 지정학적 경쟁이 심한 시기에는 이런 질문이 불합리하지 않다고 덧붙였다.

중국 모델의 실용성

jdw64는 개인적으로 opencode나 라우터를 쓸 때 일정 수준을 넘으면 모델 차이가 크게 느껴지지 않는다고 말했다. GPT 계열이 더 꼼꼼하고 낫긴 하지만 차이가 엄청난지는 잘 모르겠고, 작업 흐름에 따라 다르지만 충분히 엄격하게 다루면 큰 차이가 정말 있는지 의문이라고 말했다.

새로운 시각

'과잉 사고' 문제가 코딩 에이전트의 진짜 병목이었다

K2.7의 가장 중요한 개선이 추론 토큰 30% 감소라는 점은 흥미롭다. 지금까지 코딩 모델의 경쟁은 '더 똑똑하게' 만드는 데 집중되었지만, K2.7은 '더 효율적으로 생각하기'가 실제 사용자에게 더 큰 영향력을 가진다는 것을 보여준다. 코딩 에이전트가 단순한 함수 생성에도 수천 토큰의 추론을 돌리면, API 비용이 급증하고 응답 시간이 길어진다. 이는 에이전트 루프(모델이 코드를 작성하고 테스트하고 수정하는 반복 과정)에서 특히 치명적이다. K2.7의 개선은 '성능'이 아니라 '효율성'에 집중했다는 점에서 코딩 에이전트 시장의 방향을 바꿀 수 있다.

캐시 히트 가격의 전략적 의미

K2.7의 캐시 히트 가격이 $0.19/100만 토큰이라는 것은 반복적인 에이전트 작업에서 거의 무료로 코드를 생성할 수 있다는 의미다. 템플릿화된 작업, 반복적인 리팩토링, 대량 코드 변환 같은 작업에서 컨텍스트 캐시를 활용하면 실제 비용은 무시할 수준이 된다. 이는 '코딩 에이전트를 일상의 표준 도구로 만든다'는 전략의 일환으로 보인다.

'최고'가 아닌 '충분히 좋은 것'의 시대

HN 토론에서 반복적으로 등장하는 주제는 '임계점'이다. 모델이 일정 수준 이상으로 좋아지면, 그 이상의 성능 향상보다 가격이 훨씬 중요해진다. 이미 DeepSeek v4가 Opus 4.6과 동급 수준에 도달했다는 평가가 있으며, Kimi는 그 위에서 토큰 효율을 개선하는 방향으로 진화하고 있다. 이는 AI 코딩 모델 시장이 '성능 경쟁'에서 '비용 경쟁' 단계로 넘어가고 있다는 신호다.

자녀/미래 영향

아인, 석현, 은한이 코딩을 배우거나 AI 개발자가 되는 시대가 되면, Kimi K2.7-Code 같은 모델은 중요한 배경 지식이 될 것이다.

  • 오픈소스 코딩 모델의 부상: 지금까지 코딩 보조 도구는 Claude Code나 GitHub Copilot 같은 폐쇄형 모델이 주류였지만, 오픈 가중치 모델이 빠르게 따라잡고 있다. 아이들이 코딩을 배울 때 '모델 선택'이 중요한 결정이 될 수 있다.
  • 비용의 중요성: 100달러/월의 Claude Code 대신 5~10달러의 Kimi API로 비슷한 결과를 얻을 수 있다면, 사이드 프로젝트나 학습 비용이 크게 낮아진다.
  • 다국어 코딩 능력: Rust, Go 같은 시스템 프로그래밍 언어에서도 좋은 결과를 낸다는 것은, 아이들이 다양한 언어를 배울 때 AI의 도움이 더 신뢰할 수 있게 된다는 의미다.
  • 지정학적 리스크: 중국산 모델을 쓸 때 보안과 데이터 주권 문제가 제기된다는 점은, 미래의 AI 개발자가 '어떤 모델을 신뢰할 것인가'라는 윤리적 질문을 마주하게 될 것임을 의미한다.

관련 노트