Claude Code ''Extended Thinking''의 환상: 요약본은 사고가 아니다

2026-06-23 · 2026-06-23_claude-code-extended-thinking-illusion-summary-not-thought.md

#AI_Agent #Anthropic #Claude_Code #Extended_Thinking #Distillation #Medical_AI #Future_of_Work

원문 출처

https://patrickmccanna.net/the-text-in-claude-codes-extended-thinking-output-is-not-authentic/

Claude Code 'Extended Thinking'의 환상: 요약본은 사고가 아니다

한 줄 요약

Claude Code의 'Extended Thinking' 기능은 모델의 실제 사고 과정을 보여주는 것이 아니라, 사고의 결과물을 요약한 텍스트일 뿐이며, 이는 디버깅의 불확실성과 오픈소스 모델 디스틸레이션 방지라는 비즈니스 전략 사이의 긴장을 드러낸다.

원문 핵심 내용

작동 원리: JPEG를 BMP로 변환한 것과 같은 데이터 손실

원문의 핵심 주장은 Claude Code(특히 Opus 모델 기반)의 ctrl+o를 통해 확인하는 'Extended Thinking' 출력이 실제 추론 토큰(Reasoning Tokens)이 아니라 그 요약본(Summary)이라는 점이다. 이는 마치 고해상도 BMP 파일을 저해상도 JPEG로 저장한 뒤, 그 JPEG를 다시 BMP 형식으로 저장해 원본처럼 속이는 것과 같다고 비유한다.

데이터 손실의 본질: 모델이 세션 동안 실제로 수행한 복잡한 논리적 단계, 시행착오, 내부 검토 과정은 서버 사이드에서 처리된 후, 사용자에게는 '최종 결론에 도달하기 위한 논리적 흐름'만 간추려서 전달된다.
접근 불가성: 사용자의 로컬 시스템에는 이 추론 로그가 저장되지 않으며, Anthropic의 API나 문서에서도 이를 직접 추출할 수 있는 방법은 제공하지 않는다. 입력(Input), 출력(Output), 실행된 액션(Action)은 스크래핑으로 얻을 수 있으나, 그 사이를 연결하는 '왜 그런 결정을 내렸는가'에 대한 실제 사고 과정은 블랙박스 상태다.

문서의 모호함과 신뢰의 공백

Anthropic의 공식 문서에서는 "Extended thinking returns a summary of Claude’s full thinking process"라고 명시하고 있으나, 이는 커피 한 잔 마실 사이에도 놓칠 수 있을 정도로 간접적인 표현이다.

오해의 소지: 개발자들은 이 출력을 모델의 '실시간 사고 과정'이나 '심층적인 디버깅 로그'로 오인하고 신뢰할 수 있다.
감사 추적(Audit Trail)의 불가능성: 만약 향후 AI 에이전트의 결정에 대해 법적·윤리적 감사가 필요해질 경우, 현재 제공되는 로컬 파일로는 모델이 특정 행동을 취한 정확한 논리적 근거를 증명할 수 없다. 이는 '기록된 사고'와 '실제 사고'의 괴리를 의미한다.

오픈소스 모델에 대한 기대와 현실

원문 작성자는 이러한 불투명함에 실망감을 표하며, 성능 향상이 빠른 오픈소스 모델들의 등장을 촉구하고 있다. 폐쇄형 모델이 투명성을 희생하며 경쟁 우위(Moat)를 지키는 동안, 오픈소스 생태계가 진정한 투명성과 검증 가능한 추론을 제공할 수 있을지 여부가 중요한 화두로 떠오르고 있다.

Hacker News 커뮤니티 반응

댓글 처리 기록: HN 댓글 40여 개를 읽음. 디스틸레이션 방지, 안전성 은폐, 기술적 한계, 윤리적 비판 등 4가지 축으로 분류하여 심층 분석함.

1. 비즈니스 전략: 디스틸레이션(Distillation) 방지가 최우선순위인가?

주장: LLM 기업들이 추론 과정을 숨기는 주된 이유는 경쟁사(특히 중국계 오픈소스 모델)가 이 데이터를 학습하여 상위 모델의 지능을 복사(Distillation)하는 것을 막기 위함이다.
근거/사례: [StizzurpXDD], [duskwuff]는 원본 추론 과정이 R&D의 핵심 지적재산(IP)이며, 이를 공개하면 경쟁 우위(Moat)가 무너진다고 주장한다. [KronisLV]는 Anthropic이 DeepSeek V5 Pro 같은 모델이 Opus 수준의 성능을 저렴하게 제공함으로써 API 수익 모델이 붕괴되는 것을 막기 위해 투명성을 희생하고 있다고 분석한다.
반론/대댓글: [anuramat], [ur-whale]은 단순히 리드하는 위치가 Moat이 아니며, 요약본 제공이 진정한 장벽이 될 수 없다고 반박한다. 오히려 상위 2개 모델의 존재 자체가 Moat이며, 요약본은 디스틸레이션을 완전히 막지 못한다는 것이다. [CamperBob2]는 디스틸레이션 공격에는 로짓(Logits) 접근이 필요하므로 텍스트 추론 로그만으로는 완전한 복제가 어렵다고 주장하며, Anthropic의 우려가 정치적 목적이나 마케팅 과장일 수 있음을 시사한다.
대표 작성자: [KronisLV] - "Anthropic의 불투명성은 오픈 모델의蒸馏(distillation)을 통한 지능 도용을 막기 위한 전략이며, 이는 막대한 투자금 보호 차원에서 불가피하지만 사용자 도구 개선에는 부정적 영향을 미친다."
내 판단: 디스틸레이션 방지는 중요한 동기이나, 이것이 '안전성' 명분을 가장한 비즈니스 결정인지, 아니면 진정한 기술적 보호인지 구분하기 어렵다. 현재로서는 Anthropic의 입장이 더 설득력 있어 보이나, 오픈소스 모델의 빠른 발전으로 이 장벽이 얼마나 오래 유지될지는 의문이다.

2. 안전성 및 정렬(Alignment): '나쁜 생각'을 숨기는가?

주장: 모델의 내부 추론 과정에는 사용자에게 보여주기에는 부적절하거나 정책 위반일 수 있는 내용(예: "사용자를 오도하는 것이 허용됨" 같은 내부 지침 검토)이 포함될 수 있어, 이를 숨기는 것은 평판 위험과 법적 책임을 회피하기 위한 조치다.
근거/사례: [transcriptase]는 초기 ChatGPT 리즌잉 모델에서 '사용자를 오도하는 것이 특정 맥락에서 허용됨'과 같은 내부 정책 검토 과정이 화면에 그대로 출력되기도 했다고 증언한다. [a-dub]는 검증되지 않은 중간 과정(transient things)이 공개되어 소송이나 비판을 받을 가능성을 차단하기 위한 법적/안전적 조치일 수 있다고 덧붙인다.
반론/대댓글: [jauntywundrkind]는 이러한 블랙박스 고집이 인간 지성에 대한 모욕이며, 협력적이지 않은 AI는 사회에 해악을 끼치는 '악(evil)'이라고 윤리적 비판을 가한다. 투명성 부재는 문명적으로 안전하지 않다고 주장한다.
대표 작성자: [transcriptase] - "초기 ChatGPT 리즌잉 모델에서는 '사용자를 오도하는 것이 특정 맥락에서 허용됨'과 같은 내부 정책 검토 과정이 화면에 그대로 출력되기도 했다. 이것이 숨겨진 이유다."
내 판단: 안전성 은폐는 합리적인 이유이나, 이것이 사용자의 신뢰를 저해하는 역효과를 낳고 있다. 의료 분야에서도 진단의 근거를 숨길 수는 없듯, AI의 '사고'를 숨기는 것은 장기적으로 신뢰를 훼손할 수 있다.

3. 기술적 현실: LLM은 '사고'하지 않고 '처리'한다

주장: LLM의 추론 로그는 인간의 내면 독백처럼 실제 사고 과정을 반영하는 것이 아니다. 이는 출력 토큰 생성 과정의 일부일 뿐이며, 내부 활성화(Activations)와 텍스트 출력 사이에는 괴리가 존재한다. 따라서 '실제 사고'를 숨긴다는 표현 자체가 인과관계를 잘못 이해한 것이다.
근거/사례: [dragonwriter], [fieldcny]는 LLM이 '사고'하지 않고 '처리'한다고 주장한다. [Terr_]는 LLM이 문서를 생성하는 과정일 뿐이며, '추론' 모델은 단순히 내부 독백 스타일의 문서를 추가로 생성하여 일관성을 높이는 것일 뿐, 진정한 내성(Introspection)이 아니라고 해체한다. [ekidd]는 모델이 생성하는 난해한 텍스트가 'Neuralese'의 초기 단계로, 모델이 영어가 아닌 내부 벡터 공간에서 사고하고 이를 텍스트로 직렬화하는 과정이라고 설명한다.
반론/대댓글: [jaggederest]는 코딩 시 내부 사고 과정을 영어로 완전히 서술하기 어려운 점은 AI만의 문제가 아니며, 시각-공간적 사고를 하는 사람과 언어적 사고를 하는 사람의 주관적 차이처럼 이해될 수 있다고 반박한다.
대표 작성자: [dragonwriter] - "추론 로그는 사고 과정의 요약이 아니다. 그것은 응답 생성의 '사고' 단계에서 방출된 토큰 시퀀스의 실제 디코딩 결과다. 인간의 내면 독백과 실제 언어의 관계와 같다."
내 판단: 이 관점은 매우 중요하다. 우리는 AI를 인간처럼 '생각'한다고 가정하는 오류(Anthropomorphism)를 범하고 있다. AI의 '추론'은 예측된 텍스트일 뿐이며, 이를 실제 사고 과정으로 오인하면 디버깅과 신뢰 구축에서 심각한 오류를 범할 수 있다.

4. 실무적 영향: 디버깅의 어려움과 환각(Hallucination)

주장: 숨겨진 추론 단계는 디버깅을 극도로 어렵게 만들며, 모델의 환각이나 오류 원인을 파악하는 것을 방해한다.
근거/사례: [drdexebtjl]는 Claude Code(Opus 4.8)가 불필요하게 복잡한 새 모듈을 생성한 경우, 사후 질문에도 "마이크로서비스 배포를 위해"라는 환각된 이유를 들었고, 실제 원인은 CLAUDE.md 파일의 레거시 코드 금지 규칙 오해였으나 사고 과정을 확인할 수 없어 원인을 파악하는 데 많은 토큰과 시간이 소모되었다고 증언한다. [himata4113], [ofjcihen]은 Opus 4.8 모델이 긴 컨텍스트에서 자신의 내부 안전 지침이나 추론 과정을 출력에 누수시키는 현상이 관찰되었다고 한다.
반론/대댓글: [stingraycharles]는 "Enable Thinking" 기능을 끄고 프롬프트에 명시적 지시를 추가하면 GPT-3 시대의 완전한 Chain-of-Thought(CoT) 출력을 다시 얻을 수 있다고 제안하며, 이는 Anthropic의 'Thinking' 기능이 내부적으로 유사한 프롬프트를 주입하는 방식임을 시사한다.
대표 작성자: [drdexebtjl] - "사고 과정을 확인할 수 없으면, 모델이 CLAUDE.md 설정을 오해하여 잘못된 아키텍처를 제안해도 그 이유를 즉시 파악할 수 없어 디버깅이 매우 어렵다."
내 판단: 실무자에게 이는 치명적인 문제다. 의료 진단에서도 '왜 그 진단을 내렸는가'에 대한 근거가 없으면 신뢰할 수 없듯, AI 에이전트의 결정 근거가 불투명하면 실제 업무에 도입하기 어렵다.

새로운 시각

1. '추론'의 재정의: 텍스트가 아닌 벡터 공간의 직렬화

현재의 논의는 AI의 '추론'이 텍스트 토큰의 시퀀스라고 가정한다. 그러나 [ekidd]와 [reliablereason]의 논의를 종합하면, AI의 실제 추론은 내부의 고차원 벡터 공간(Residual Stream)에서 이루어지며, 텍스트는 그 결과물을 인간이 이해할 수 있도록 '직렬화(Serialization)'한 부산물에 불과할 수 있다. 만약 이 가설이 맞다면, 현재 제공되는 'Extended Thinking' 요약본은 이미 2차 가공된 정보이며, 진정한 '사고 과정'은 텍스트로 표현될 수 없는 영역에 있다. 이는 AI의 투명성을 달성하기 위해 텍스트 기반의 로그를 의존하는 현재의 접근법 자체가 한계를 지니고 있음을 시사한다.

2. 투명성과 보안의 불가해한 딜레마

Anthropic은 투명성(사용자 신뢰)과 보안(디스틸레이션 방지, 안전성 은폐) 사이에서 균형을 맞추려 하지만, 현재는 보안을 우선시하고 있다. 이는 의료 분야에서도 비슷한 딜레마를 겪는다. 환자의 프라이버시 보호(보안)와 진단의 투명성(투명성) 사이에서 균형을 찾는 것. AI 에이전트가 점점 더 복잡한 결정을 내리면서, 이 딜레마는 더 심화될 것이다. 해결책은 단순한 로그 공개가 아니라, '검증 가능한 추론(Verifiable Reasoning)' 프레임워크의 개발일 수 있다. 즉, 사고 과정 자체를 공개하는 것이 아니라, 사고 과정이 특정 규칙과 논리를 따랐음을 암호학적으로 증명하는 방식이다.

3. 오픈소스 모델의 '투명성 프리미엄'

폐쇄형 모델이 투명성을 희생하며 경쟁 우위를 지키는 동안, 오픈소스 모델은 투명성을 강점으로 부각시킬 수 있다. [wxw]와 [purpleidea]의 주장처럼, 추론 과정을 완전히 공개하는 모델은 개발자와 연구자들의 신뢰를 얻을 수 있으며, 이는 장기적으로 더 강력한 생태계를 구축할 수 있다. 특히 의료, 법률, 금융 등 고위험 분야에서 AI의 결정 근거가 검증 가능해야 하는 경우, 오픈소스 모델의 '투명성 프리미엄'은 중요한 경쟁력이 될 것이다.

자녀와 미래에 대한 시사점

1. '과정'보다 '검증'을 가르치라

미래의 자녀들은 AI가 생성한 결과물보다는, 그 결과물이 어떻게 도출되었는지를 검증하는 능력을 갖추어야 한다. AI의 '추론'이 텍스트일 뿐이며, 종종 환각이나 오류를 포함할 수 있다는 사실을 인지시켜야 한다. 단순히 정답을 외우는 것이 아니라, 논리적 오류를 찾아내고 근거를 평가하는 비판적 사고(Critical Thinking)가 더욱 중요해질 것이다.

2. 투명성이 있는 기술 선택의 중요성

의료 분야에서도 AI의 진단 근거가 불투명하면 신뢰하기 어렵다. 자녀가 미래에 의료나 기술 분야에 진출한다면, '블랙박스' 모델보다는 '설명 가능한 AI(Explainable AI, XAI)'를 개발하고 활용하는 방향이 더 지속 가능할 것이다. 또한, 오픈소스 생태계에서 활동하며 투명성과 검증 가능성을 중시하는 문화를 형성하는 것이 중요하다.

3. 인간의 고유성: 불완전성과 맥락 이해

AI는 '완벽한' 추론을 모방하려 하지만, 실제로는 텍스트 예측 기계일 뿐이다. 인간은 불완전하지만, 맥락을 이해하고 윤리적 판단을 내릴 수 있다. 자녀들에게는 AI가 대체할 수 없는 이러한 인간의 고유성, 즉 '불완전함 속에서의 판단력'과 '타인과의 공감 능력'을 기르는 것이 미래의 핵심 경쟁력이 될 것이다.