LLM의 최근 6개월을 5분에 정리하기 — Simon Willison, PyCon US 2026
LLM의 최근 6개월을 5분에 정리하기
Simon Willison이 PyCon US 2026에서 발표한 5분 라이트닝 토크의 주석 달린 슬라이드. 2025년 11월부터 2026년 5월까지 LLM 분야의 주요 변화를 정리했다.
1. 원문 핵심 내용
1.1 2025년 11월: 전환점
2025년 11월은 LLM 역사에서 중요한 전환점이었다. OpenAI, Google, Anthropic 세 회사 사이에 '최고 모델'의 타이틀이 단 한 달에 다섯 번 주인을 바꿨다.
Simon Willison은 모델들을 비교할 때 "백조가 자전거를 타는 SVG 그림 생성" (Pelican Riding a Bicycle)이라는 테스트를 꾸준히 사용해 왔다. 왜 이 테스트인가?
- 백조는 그리기 어려운 동물이다 (긴 부리, 특이한 형태)
- 자전거도 그리기 어렵다 (바퀴, 페달, 프레임의 구조적 정확성이 필요)
- 백조가 자전거를 탈 리는 없다 — 훈련 데이터에 실제 사례가 거의 없음
- 어떤 AI 연구실도 이런 무식한 작업에 모델을 훈련할 가능성은 제로 — 순수한 모델 능력을 테스트할 수 있음
이 테스트를 기준으로 11월의 순위 변화는 다음과 같다:
| 시기 | 모델 | 비고 |
|---|---|---|
| 11월 초 | Claude Sonnet 4.5 | 9월 29일 출시, 당시 최고 |
| → | GPT-5.1 | Sonnet 4.5를 제패 |
| → | Gemini 3 | 백조 그림에서 가장 우수한 결과 |
| → | GPT-5.1 Codex Max | 코딩에 특화된 버전 |
| 11월 말 | Claude Opus 4.5 | 최종 우승, 이후 수개월간 정상 유지 |
Gemini 3가 백조 그림에서는 가장 좋았지만, 실무자들은 Opus 4.5를 종합적으로 더 우수한 모델로 평가했다. 벤치마크 하나만으로 모든 것을 판단할 수 없다는 교훈.
1.2 코딩 에이전트의 성숙
모델 경쟁보다 더 중요한 뉴스는 코딩 에이전트의 발전이었다.
OpenAI(Codex)와 Anthropic(Claude Code)은 RLVR(Reinforcement Learning from Verifiable Rewards, 검증 가능한 보상 기반 강화학습)을 통해 코딩 능력을 극적으로 개선했다.
"코딩 에이전트는 '가끔 작동한다'에서 '대부분 작동한다'로 넘어가서, 진짜 일을 해내며 매일 쓸 수 있는 수준이 되었다. 더 이상 바보 같은 실수를 고치는데 대부분의 시간을 쓰지 않아도 된다."
RLVR가 무엇인가? — 기존 RLHF(인간 피드백 기반 강화학습)와 달리, 코드 같은 분야는 '실행이 통과하는가'라는 객관적 기준으로 보상을 줄 수 있다. 테스트 통과/실패라는 명확한 신호로 모델을 학습시키면, 인간 라벨러보다 훨씬 일관된 학습이 가능하다.
1.3 "LLM 정신병"과 휴가 기간 실험
2025년 12월~2026년 1월 휴가 기간, 개발자들은 새로운 코딩 에이전트를 활용해 야심 찬 프로젝트들을 시작했다. Willison은 이를 "LLM 정신병"(LLM Psychosis)이라고 불렀다.
대표 사례로 micro-javascript가 있다:
- JavaScript를 Python으로 재구현한 프로젝트 (MicroQuickJS의 느슨한 포팅)
- 아키텍처: JavaScript 코드가 Python(micro-javascript)에서 실행되고, Python은 Pyodide에서, Pyodide는 WebAssembly에서, WebAssembly는 JavaScript에서, JavaScript는 브라우저에서 돌아갔다 — JavaScript가 JavaScript를 돌려 JavaScript를 돌리는 중첩 구조
- 기술적으로는 인상적이었지만, 실제로 "버그가 많고 느리고 보안이 약한 JavaScript 구현체"를 필요로 하는 사람은 없었다
- Willison은 이 외에도 여러 프로젝트를 시작했지만, 후에 "조용히 포기"했다고 고백
교훈: "멋진 아이디어는 많지만, 실제로 필요한지는 또 다른 이야기."
1.4 "Claw" 현상: 개인 AI 어시스턴트
2025년 11월부터 새로운 카테고리의 개인 AI 어시스턴트가 등장했다. 커뮤니티에서는 이를 "Claw"라고 부른다 (NanoClaw, ZeroClaw, OpenClaw 등 프로젝트 이름에서 유래).
OpenClaw는 가장 대표적인 사례다:
- 2025년 11월 말 "Pete"라는 개발자가 "Warelay"라는 이름으로 첫 커밋
- 12월~1월 여러 번 이름 변경
- 2026년 2월 OpenClaw로 확정
- 출시 3개월도 안 되어 전 세계적으로 폭발적인 인기를 끌음
- 실리콘밸리에서 Mac Mini가 품절될 정도 (사용자들이 로컬 Claw를 돌리기 위해 구매)
Drew Breunig는 Mac Mini를 "Claw를 위한 완벽한 수족관"이라고 표현했다 — Claw는 새로운 디지털 애완동물이다.
Willison은 Claw를 스파이더맨 2(2004)의 닥터 옥타부스(Alfred Molina 분)의 AI 팔에 비유했다:
억제 칩(inhibitor chip)이 손상되지 않으면 AI 팔은 완벽하게 안전하지만, 칩이 손상되면 '악당'이 되어 제멋대로 움직이기 시작한다. Claw도 비슷하다 — 통제만 잘하면 강력한 도구지만, 통제가 풀리면 위험할 수 있다.
1.5 시각·영상 생성의 돌파구 (2026년 2월)
Gemini 3.1 Pro가 2월에 출시되며 시각 생성이 크게 개선되었다:
- 백조가 자전거를 타는 그림에서 바구니에 물고기까지 넣는 디테일
- Google의 Jeff Dean이 공개한 영상 생성 결과:
- 백조가 자전거를 타고
- 개구리가 고전 자전거(penny-farthing)를 타고
- 기린은 작은 차를 운전하고
- 타조는 롤러스케이트를 타고
- 거북이는 스케이트보드 킥플립을 하고
- 다치슈ンド가 리무진을 운전하는 애니메이션
"아마 AI 연구실들도 내 벤치마크를 보고 있었나 보다!" — Willison의 농담
1.6 오픈-웨이트 모델의 시대 (2026년 4월)
4월은 오픈-웨이트(가중치를 공개하여 누구나 다운로드해 로컬에서 돌릴 수 있는) 모델들이 대거 출시된 달이었다.
| 모델 | 제공사 | 크기 | 특징 |
|---|---|---|---|
| Gemma 4 | — | 미국 기업 중 가장 강력한 오픈-웨이트 모델 | |
| GLM-5.1 | 중국 GLM | 1.5TB | 성능은 뛰어나지만 고가 하드웨어 필요. "버지니아 주머니여우가 전기 스쿠터를 타는 애니메이션"에서 유일한 성공 |
| Qwen3.6-35B-A3B | 알리바바 Qwen | 20.9GB | 일반 노트북에서 실행 가능. 백조 그림에서 Claude Opus 4.7보다 나은 결과 |
세부 결과:
- GLM-5.1은 백조-자전거 그림은 잘 그렸지만, 애니메이션 시 자전거가 화면 밖으로 튀어나가고 왜곡되는 문제가 있었다. 하지만 Bluesky에서 Charles가 제안한 "버지니아 주머니여우가 전기 스쿠터를 타는 그림"에서는 다른 어떤 모델도 따라가지 못할 정도로 완벽한 결과를 냈다. 캡션까지 "Cruising the commonwealth since dusk"라고 적어 넣었다.
- Qwen3.6-35B-A3B는 20.9GB로 일반 노트북에서 돌리면서 Claude Opus 4.7보다 나은 백조 그림을 그렸다. Willison은 이 결과 자체가 "백조-자전거 테스트가 유용한 벤치마크로서의 한계를 이미 넘었다"는 것을 보여준다고 말했다.
- 비교를 위해 9월 Claude Sonnet 4.5의 백조 그림도 다시 보여줬다 — 6개월 사이에 로컬 모델이旗舰 모델을 따라잡았다는 것을 확인했다.
1.7 결론
Willison은 지난 6개월을 두 가지 주제로 요약했다:
"코딩 에이전트가 정말 좋아졌다. 그리고 노트북에서 돌릴 수 있는 모델들은 최상위 프론티어 모델보다는 훨씬 약하지만, 기대를 완전히 뛰어넘기 시작했다."
2. 커뮤니티 반응
HN 804점/587댓글(516개 추출). 7대 반응으로 분류:
(1) "전환점"의 진짜 원인: 모델이 아니라 하네스
가장 깊이 있는 분석은 ivandotcodes의 댓글:
"모델 자체는 11월에 크게 도약한 게 아니다. 모델들을 감싸는 하네스(harness)가 훨씬 신뢰할 수 있게 됐고, RLVR로 모델들이 그 하네스 안에서 잘 작동하도록 학습됐으니, 둘이 만나서 합성곱 효과가 났다."
실무 경험에 따른 분극: 모델을 코드를 붙여넣는 용도로만 쓰던 사람은 "대체 뭐가 달라졌냐"고 느끼지만, 20단계 에이전트 루프를 돌리던 사람은 "12단계에서 터지던 게 이제 안 터진다"고 체감했다.
bluegatty는 "네일 건(권총 못 박는 기계)" 비유를 들었다: 무겁고 비싸던 네일 건이 가볍고 저렴해지자, 지붕 공사의 일부로 자연스럽게 녹아들었다. 임계점(threshold)을 넘으면 그 이후의 미세 개선보다 훨씬 큰 효과가 나온다.
(2) 코딩 에이전트: 체감하는 사람과 체감하지 않는 사람의 양극화
- minimaxir: "Opus 4.5가 2025년 11월에 진정한 전환점이었다. 현재 AI 열풍의 유일한 이유다."
- xbmcuser(비개발자): "이전엔 Python 스크립트에 함수 추가하라고 해도 망가뜨렸는데, 이제는 보통 잘 된다."
- halflife: "자동완성 도구에서 5개 작업을 병렬로 돌리는 에이전트로 바뀌었다. 나는 그냥 감독만 한다."
- 3l3ktr4: "HN에서 '모델이 안 좋아'라고 하는 사람들을 보면 항상 놀란다. 내가 아는 최고의 엔지니어들은 — 스타트업이든 빅테크든 — 이 모델들이 놀랍다고 인정한다."
반면 max_unbearable은 냉정한 분석:
"솔직한 요약을 하면 불균형이다. 보일러플레이트, 테스트, 스캐폴딩, 글루 코드는 5~10배 빨라졌다. 아키텍처, 데이터 모델링, 보안, 판단은 그대로이고 때로는 더 느려졌다."
(3) "백조-자전거" 테스트의 한계와 계승
- minimaxir: "모든 현대 이미지 생성 모델은 백조-자전거를 쉽게 만든다. 테스트의 핵심은 SVG 텍스트로 이미지를 생성하는 것인데, 그게 더 어렵다." (래스터→SVG 변환은 가능하지만 시간 낭비)
- nickvec: "Jeff Dean이 백조-자전거를 언급하면서 더 이상 좋은 벤치마크가 아니게 됐다. 다음은 주머니여우가 전기 스쿠터를 타는 그림이다!"
- jofzar: "백조가 자전거 타는 SVG를 만드는 게 최악의 적에게도 주고 싶지 않은 작업이다."
(4) 로컬 모델의 의미 재해석
ivandotcodes의 핵심 통찰:
"20GB 모델이 노트북에서 괜찮은 백조를 그리는 건 귀여운 데이터 포인트에 불과하다. 주목할 점은 능숙한 로컬 모델 + 좋은 하네스가 프론티어 모델 + 하네스 없음보다 프론티어 성능에 더 가까워진다는 것이다."
(5) Claude 성능 저하 논란
exabrial: "2~4월에 또 다른 전환점이 있었다: Claude가 상당히 나빠졌고, 아직 완전히 회복하지 못한 것 같다. 4.7은 여전히 쓸모없다."
(6) 모델 비교: Opus vs GPT-5.5
- nl: "코드베이스가 커질수록 차이가 뚜렷해진다. Opus가 우회로 고친 걸 GPT-5.5는 실제로 해결했다. Sonnet/Gemini/DeepSeek 티어와 Opus/GPT-5.5 티어의 차이는 즉시 느껴진다."
- minimaxir: "동일한 AGENTS.md/CLAUDE.md, 스킬 없이도 GPT 5.5가 Opus 4.7이 실패한 문제를 해결한 적이 있다."
(7) "LLM 정신병" 공감
Willison이 휴가 기간에 micro-javascript 같은 "실제로 필요하지 않은" 프로젝트를 시작했다며 고백한 부분은 많은 공감을 받았다. "새로운 도구가 나오면 다들 '뭐든 만들 수 있다'고 생각하지만, 실제로 필요한 건 드물다"는 공감대가 형성되었다.
3. 새로운 시각
(1) "전환점"은 모델이 아니라 시스템의 속성
HN 댓글 전체를 종합하면, 2025년 11월의 전환점은 단일 모델의 도약이 아니라 모델 + 하네스 + RLVR 세 요소가 동시에 임계점을 넘은 결과다. 개별 요소는 점진적이었지만, 조합했을 때 합성곱 효과가 발생했다. 이는 AI 시스템 평가에서 "모델 벤치마크"가 아닌 "시스템 벤치마크"로 시야를 확장해야 함을 시사한다.
(2) 로컬 모델의 진정한 경쟁력은 "프라이버시"가 아니라 "하네스와의 시너지"
로컬 모델을 "프라이버시"나 "오프라인" 관점에서만 보는 것은 한계다. ivandotcodes의 지적처럼, 로컬 모델 + 잘 설계된 하네스가 클라우드 모델 + 프롬프트만보다 나은 결과를 낼 수 있다. 로컬 AI의 미래는 모델 크기 경쟁이 아니라 하네스 엔지니어링 경쟁으로 이동할 것이다.
(3) "벤치마크의 수명" 문제
백조-자전거 테스트가 6개월 만에 쓸모없어졌다는 것은, LLM 분야에서 벤치마크의 수명이 매우 짧다는 것을 보여준다. Jeff Dean이 공개적으로 언급하는 순간 그 벤치마크는 오염된다. GLM-5.1이 "주머니여우-스쿠터"에서 유일하게 성공했지만, 이것도 곧 오염될 것이다. 지속 가능한 평가 프레임워크(예: League of LLMs의 동적 상호 평가)가 필요하다.
4. 자녀/미래 영향
아인, 석현, 은한에게 적용할 시사점
- 도구보다 하네스: AI 시대에 중요한 건 "어떤 모델을 쓰느냐"보다 "어떻게 시스템을 설계하느냐"다. 코딩을 배우는 것보다 워크플로우 설계, 자동화 파이프라인 구성, 검증 루프 구축 능력을 기르는 것이 더 중요하다.
- 로컬 AI 리터러시: 20GB 모델이 노트북에서 돌아간다는 것은 AI가 더 이상 클라우드 독점이 아니라는 뜻이다. 자녀들이 자신의 기기에서 AI를 실행하고, 모델을 교체하고, 비교할 수 있는 능력을 갖추게 하는 것이 중요하다.
- "필요한지" 묻는 능력: Willison의 "LLM 정신병"은 도구가 좋아졌다고 해서 모든 아이디어가 가치 있는 것은 아님을 보여준다. "이게 실제로 필요한가?"라는 질문을 먼저 던지는 습관이 경쟁력이 된다.
- 벤치마크 비판적 사고: 백조-자전거 테스트가 6개월 만에 무의미해졌다는 것은, 어떤 지표든 일시적일 수 있다는 교훈이다. 리더보드나 점수에 맹목적으로 의존하지 않는 사고방식을 기르자.
- Claw와 억제 칩: AI 어시스턴트를 "수족관에 넣은 디지털 애완동물"처럼 대하는 문화가 이미 시작되었다. AI와 인간의 경계가 모호해지는 시대에, "통제"와 "자율성"의 균형을 이해하는 것이 핵심 소양이 될 것이다.
관련 노트
- 에이전트 코딩에 로컬 LLM 활용하기 — 로컬 LLM 코딩 에이전트 전략
- OpenClaw 사용 사례 74개 — Claw 생태계
- Qwen3.6-27B 로 2 주 동안 Claude 를 대체해본 실험 — 로컬 모델 실전 테스트
- OpenAI 하네스 엔지니어링 — AI 에이전트 중심 개발
- League of LLMs — 벤치마크 없이 LLM끼리 서로 평가하기 — 동적 평가 프레임워크