리오데자네이루의 '홈그로운' LLM, 기존 모델 병합으로 밝혀지다
리오데자네이루의 '홈그로운' LLM, 기존 모델 병합으로 밝혀지다
GitHub nex-agi/Nex-N2 이슈 #4의 기술적 분석 + HN 258점/145개 댓글 종합 분석.
1. 원문 핵심 내용
배경
브라질 리오데자네이루 시 정부 산하 연구 기관 IplanRIO가 Rio-3.5-Open-397B라는 3970억 파라미터 규모의 자체 LLM을 공개했다. 모델 카드에는 "Qwen 3.5 397B 기반의 포스트 트레이닝"이라고 명시되어 있었고, SwiReasoning(스위치 사고) 논문의 추론 프레임워크를 사용했다고 밝혔다. 모델은 Reddit에 게시된 지 2일 만에 유기적으로 바이럴되었으며, 브라질 월드컵 데뷔와 겹치며 리오 시장이 무료 보도를 기회로 삼았다.
핵심 주장
Nex-AGI 협력자 00INDEX가 작성한 기술 분석에 따르면, Rio-3.5-Open-397B는 독립적으로 학습된 모델이 아니라 Nex-N2_pro와 Qwen3.5-397B-A17B의 직접적인 요소별(element-wise) 병합이라고 주장한다.
병합 비율: 약 0.6 Nex / 0.4 Qwen
증거 1: 정체성 누출 테스트
모델이 탑재한 시스템 프롬프트("너는 리오다")를 제거하면, 모델이 자신의 진짜 정체성을 드러낸다.
- 120개의 정체성 질문을 시스템 프롬프트 없이 보냈을 때:
- "Nex"라고 답변: 79.2%(95/120)
- "Nex-AGI"라고 답변: 73.3%(88/120)
- "Rio"라고 답변: 0.0%(0/120)
핵심 통찰: 독자적으로 학습된 모델은 자신의 이름을 지시받지 않아도 자연스럽게 말한다. '리오'라는 정체성은 가중치에 새겨진 것이 아니라 얇은 지시 레이어에 불과하다.
또한 모델은 Nex-AGI의 사내 조직 배경 이야기를一字不差(일자불차)로 읊어대는데, 이는 Nex의 학습 데이터에 포함된 비공개 정보가 그대로 남아있다는 증거다.
증거 2: 가중치 텐서 분석
수학적 분석이 Rio의 가중치가 Nex와 Qwen의 고정 선형 결합임을 증명한다.
방법론: 만약 Rio = α·Nex + (1-α)·Qwen라면, (Rio - Qwen)은 (Nex - Qwen)의 정확히 α배가 되어야 한다.
측정 지표:
- α (혼합 가중치): Nex의 영향력 비율
- 공선성(cos_fit): Rio의 Qwen에서 벗어난 방향이 Nex의 Qwen에서 벗어난 방향과 얼마나 일치하는지 (0=무관, 1=완전 일치)
통계적 발견:
| 구성 요소 | 혼합 가중치(α) | 공선성(cos_fit) |
|---|---|---|
| 라우팅된 Experts (387B 파라미터, 60 레이어) | 0.571 ± 0.0016 | 0.993 |
| lm_head (출력 헤드) | 0.574 | 0.991 |
| 어텐션 (q/k/v/o, 15 레이어) | ~0.585 | ~0.986 |
| 선형 어텐션 투영 (45 레이어) | ~0.586 | ~0.984 |
결론: α의 안정성(0.571, 변동 거의 없음)과 모든 60 레이어 전반에 걸친 거의 완벽한 공선성(0.98~0.99)은 Rio가 Nex와 Qwen의 엄격한 수학적 혼합물임을 확인한다. 파인튜닝이나 독립 모델이 아니다.
전문 용어 해설
- 모델 병합(Model Merge): 두 개 이상의 학습된 모델의 가중치를 수학적으로 결합하여 새 모델을 만드는 기법. 학습 없이도 두 모델의 강점을 조합할 수 있다. 두 개 이상의 요리를 섞어서 새로운 맛을 만드는 것과 비슷하다.
- 공선성(Collinearity): 두 벡터가 얼마나 같은 방향을 향하는지 측정하는 지표. 1에 가까울수록 완벽하게 같은 방향. 이번 사례에서 0.99는 Rio의 가중치가 Nex와 Qwen의 선형 결합임을 통계적으로 거의 100% 증명한다.
- MoE (Mixture of Experts): 여러 '전문가' 서브 네트워크를 가지고 입력에 따라 라우팅하는 아키텍처. 397B 중 실제로 활성화되는 파라미터는 훨씬 적다.
2. 커뮤니티 반응 (HN 258점/145개 댓글)
(1) 모델 병합 기술에 대한 설명 요청과 찬탄
가장 눈에 띄는 반응 중 하나는 "모델 병합이 도대체 뭔가요?"라는 질문(jordz)에 이어, 간단한 선형 조합이 모델 성능을 저하시키지 않고 오히려 향상시킬 수 있다는 사실에 대한 놀라움이었다.
- hintymad: "각 가중치 텐서가 60 레이어 전체, 네트워크의 모든 구성 요소에서 수천 표준편차 차이가 나지 않는 동일한 0.6/0.4 혼합비라는 사실이 놀랍다. 단순한 선형 조합이 성능을 떨어뜨리지 않고 향상시킨다. 현재 딥러닝 모델의 견고함이 놀랍다."
- wds: "맛있는 음식들을 다 합치면 더 맛있는 음식이 된다고 상상하면 된다."
(2) 모델 병합의 역사적 맥락
- dindunuf: "Llama 1/2 시대엔 같은 모델의 파인튜닝끼리 병합하는 정도였다. 전설적인 Mythomax는 5개 이상의 튜닝(일부는 이미 병합된 것들)을 합친 것이었다."
- avereveard: "대부분의 병합은 소수의 '느낌' 벤치마크(너무 작거나 너무 특이하거나 분포 밖)만 약간 향상시키고, 실제 벤치마크에서는 성능 저하가 일어난다. 특히 긴 체인 벤치마크에서 치명적. 또 같은 아키텍처끼리만 작동한다."
(3) IplanRIO의 입장 방어
- rafaquintanilha: "공식 모델이 Qwen 397B 기반이라고 주장한 것이다. Nex 자체도 같은 베이스 모델을 기반으로 하기 때문에 Nex Pro를 공개하지 않았을 가능성이 있다. 개선은 가중치 병합 PLUS 온-정책 증류(on-policy distillation)에서 왔을 것이다. 업로드된 모델에 증류가 전혀 반영되지 않았을 가능성이 있다."
- adrian_b: "거짓말한 사람이 어디 있나. 모델 카드에 'Qwen 3.5 397B 기반 포스트 트레이닝'이라고 적혀 있고, SwiReasoning 논문도 인용했다. 출처는 적절히 표기되어 있다. 그들이 주장한 것은 'Qwen 3.5 397B'에 한 것을 했더니 LLM이 향상되었다는 것일 뿐이다."
(4) "Nex도 Qwen 기반이니까 크게 다르지 않다"
- Havoc: "Nex도 Qwen 기반으로 만들어졌으니까 그들은 그리 멀지 않다."
- bachmeier: "원작자들이 99.99%의 일을 했고, 미국 회사들이 프론티어 LLM으로 포장했고, '그들'은 미국 모델을 기반으로 자신의 것을 만들었다. Linux 배포판을 포크해서 테마와 폰트 몇 개를 추가한 사람이, 다른 사람이 그 배포판을 다시 포크해서 또 다른 테마를 추가하는 것을 불평하는 것과 같다."
(5) 브라질/남미 학술 생태계에 대한 비판
- Scroll_Swe: "남미 전체가 지금까지 뭐에 기여했나? 핀란드는 나치와 소련 양쪽 침공을 받고 폭격을 맞았는데도 Linux 커널과 노키아를 만들었다."
- carlosjobim: "순수한 납세자 사기다. 하지만 그게 아니면 뭐가 기대되나?"
- dghlsakjg: "시 정부와 정부 산하 IT 회사의 이야기인데, 브라질 학문계가 뭐랑 관련이 있나?"
(6) 리오데자네이루 유머
- diego_moita: "뭐!? 리오데자네이루에 도둑이 있어?! 정말 놀랐다! /s (농담 설명: 브라질에서 리오는 '도둑의 땅'으로 유명하다. 20년대 시카고나 90년대 나폴리/팔레르모와 비슷.)"
(7) AI slop 스타일 비판
- delusional: "HN 프론트페이지 상단에 무명의 GitHub 이슈가 올라온 게 완전히 미친 짓이다. 가장 역겨운 AI slop 스타일로 쓰여 있다."
(8) AI 기업들의 보편적 거짓말
- dofm: "모델 능력에 대한 거짓말은 현재 클라우드 AI 비즈니스 모델의 보편적 언어가 되었다. 서로의 거짓말을 받아주고, 규제 포획까지 필요하다."
3. 새로운 시각
(1) 모델 병합의 '법적 회색지대' 문제
Rio 사례는 모델 병합이 오픈소스 생태계에서 어떤程度的로 허용되는지에 대한 근본적 질문을 던진다. 가중치만 섞는 행위를 '학습'이라고 부를 수 있는가? 모델 카드에 Qwen을 베이스로 한다고 적었지만 Nex를 언급하지 않은 것은 의도적 생략인가, 아니면 병합 자체가 '변형'이 아니라는 판단인가? 이 질문은 AI 모델의 저작권·출처 표기 기준이 아직 확립되지 않았음을 보여준다.
(2) '정체성 누출' 테스트의 보편적 적용 가능성
시스템 프롬프트를 제거하면 모델이 진짜 학습된 정체성을 드러낸다는 발견은, 향후 모든 '자체 학습 모델' 주장에 대한 검증 도구로 활용될 수 있다. 모델이 스스로의 이름을 말하지 못한다면, 그것은 프롬프트 엔지니어링의 문제일 가능성이 높다. 이 테스트는 기술적 장벽이 낮아(단순 프롬프트 변경만 필요) 커뮤니티 기반 사실 확인에 즉시 적용 가능하다.
(3) 정부 주도의 AI 프로젝트와 정치적 타이밍
리오 시장이 브라질 월드컵 데뷔와 겹친 시점에 모델을 정치적 홍보 도구로 사용한 것은, AI 모델이 '기술 산출물'이 아니라 '정치적 자산'으로 소비되는 현실을 보여준다. 기술적 정확성보다 정치적 타이밍이 우선될 때, 검증과 투명성은 희생된다. 이는 AI 시대의 거버넌스 문제 — 정부 AI 프로젝트의 독립성 보장 — 와 연결된다.
4. 자녀/미래 영향
아인(딸)에게
- AI 모델이 어떻게 만들어지는지 이해하는 것이 중요하다. "모델 학습"과 "모델 병합"은 완전히 다른 작업이다. 창의적인 작업을 평가할 때는 '무엇을 직접 만들었는지'와 '무엇을 가져다 썼는지'를 구분하는 안목이 필요하다.
- AI 시대에 '정체성'이라는 개념이 모델에도 적용될 수 있다는 점은 철학적으로 흥미롭다. 모델이 "나는 누구인가"에 답할 때, 그 답이 프롬프트에 의해 조작될 수 있다는 사실을 이해하는 것이 중요하다.
석현, 은한(아들들)에게
- 모델 병합은 '학습 없이 성능 향상'이 가능한 기술이다. 이는 공학적 사고방식에서 중요한 교훈을 준다 — 항상从头(从零) 시작해야 하는 것은 아니다. 기존 솔루션을 조합하는 것도 혁신이다.
- 하지만 조합의 출처를 숨기는 것은 윤리적으로 문제가 있다. 석현, 은한이将来 소프트웨어 개발자가 되든 다른 분야에 진출하든, '무엇을 빌렸는지 명확히 밝히는 것'은 전문성의 기본이다.
- 이 사례에서 보듯, 수학(가중치 분석)으로 주장의 진위를 판별할 수 있다. 데이터와 계산이 말해준다 — 이는 과학적 사고의 핵심이다.
관련 노트
- 오픈소스 AI는 반드시 승리해야 한다 — 오픈소스 AI의 조건과 지정학적 맥락
- Claude Fable 5와 Mythos 5 — Anthropic 공식 원문 — 모델 안전 장치와 경쟁사 제재 문제
- 사고 패치 — 프롬프트를 가중치로 바꾸기 — 프롬프트 효과를 모델 가중치에 주입하는 기술