Asian AI startups launch Mythos-like models
## 한 줄 요약
미국이 Anthropic의 Mythos/Fable 수출을 금지하자 일본 Sakana AI(퓨구)와 중국 360(툴롱펑)이 ‘Mythos급’을 표방한 모델을 내놓았지만, Hacker News 커뮤니티는 독립 벤치마크 부재와 ‘오케스트레이터(단일 모델이 아닌 API 라우팅)’ 의혹을 강하게 제기하며 상당한 회의론을 보였다.
## 원문 핵심 내용
### ### Fugu: ‘오케스트레이션 모델’이라는 차별화 전략
일본 도쿄의 스타트업 Sakana AI는 2026년 6월 25일 ‘퓨구(Fugu, 복어)’ 모델을 발표했다. 공동창업자 데이비드 하(David Ha)와 르네 이토(Ren Ito)는 이 모델이 **“Anthropic의 Fable 5 및 Mythos Preview와 어깨를 나란히 한다”**고 주장했다. 하지만 핵심은 단일 거대 모델이 아니라 **여러 모델의 API를 오케스트레이션(orchestration)**하는 에이전트 기능에 있다. 즉, Fugu 자체가 하나의 파운데이션 모델이라기보다는 **스마트 라우터** 역할을 한다는 점이 독특하다.
Sakana의 대변인은 “퓨구는 작년부터 개발해왔고, 봄 ICLR에서 연구 결과를 발표했다. 수출 금지 시점과 우연히 겹쳤을 뿐”이라고 말했다. 동시에 웹사이트에는 **“수출 통제 없이 프런티어 역량을 제공한다”**는 문구를 내걸어 미국 규제를 우회하려는 의도를 숨기지 않았다.
### ### Tulongfeng: 중국의 ‘국가 전략 자산’ 선언
중국 보안 기업 360은 같은 주 두 가지 AI 도구를 공개했다. **툴롱펑(土龙风, Tulongfeng)**은 소프트웨어 취약점을 자동 발견하고, **이티안전(一日千剑, Yitianzhen)**은 사이버 방어 및 사고 대응을 자동화한다. 창업자 저우훙이(Zhou Hongyi)는 취약점 발견 AI를 **“국가 전략 자산”**으로 규정하며, **‘일방향 투명성(one-way transparency)’** 위험을 경고했다. 즉, 어떤 국가만 취약점 발견 능력을 독점하면 다른 국가는 무방비가 된다는 논리다.
### ### 미국 수출 금지의 직접적 영향
트럼프 행정부는 2주 전 Anthropic의 Mythos와 Fable 5를 비미국인에게 제공하는 것을 전면 금지했다. Anthropic의 2026년 5월 연간 매출(run-rate)은 470억 달러에 달했지만, 아시아 기업 고객 비중은 공개되지 않았다. 금지 조치 이후 도쿄와 베이징의 두 기업이 그 빈자리를 채우려 움직였고, **현지 언어·문화에 최적화된 대안**이 빠르게 등장하고 있다.
Sakana의 공동창업자 르네 이토는 Project Syndicate 기고문에서 **“미국은 가장 가까운 동맹국에 대한 접근을 보존하는 것이 최우선”**이라고 촉구했다. 반면 360은 애초에 미·중 경쟁의 프레임에 적극적으로 올라탔다.
## Hacker News 커뮤니티 반응
> 댓글 처리 기록: HN 댓글 약 40~50개를 읽음 (2개 chunk 압축 요약 기준). 다수 의견은 ‘벤치마크 없음 → 신뢰 불가’였으며, 소수 의견은 오케스트레이션 가설과 역사적 노동시장 영향을 논의.
### ### [fwipsy] “서드파티 벤치마크가 아니면 gtfo”
**주장**: 신생 기업의 자체 주장만으로는 ‘Mythos급’이라고 믿을 수 없다. 특히 Sakana는 작년에 논문 철회(retraction) 사례가 있어 신뢰도가 낮다.
**근거**: 어떤 독립 리더보드에도 Fugu가 등록되지 않았다.
**반론/대댓글**: [OutOfHere]가 “Anthropic도 자체 벤치마크를 내지 않느냐”고 반문했지만, [bloppe]가 “Anthropic은 항상 서드파티 벤치마크를 함께 공개한다”고 정정.
**내 판단**: 가장 기본적인 검증 요구로서 합리적. AI 모델의 주장은 검증 가능한 근거가 필수다.
### ### [Lockal] “벤치마크가 없으면 100% 사기”
**주장**: “나는 단순한 사람이다. 벤치마크가 없으면 다 사기라고 본다.” 구체적으로 arena.ai 리더보드 링크를 제시하며 Fugu가 등록되지 않았다고 지적.
**근거**: https://arena.ai/leaderboard – 객관적 지표 부재.
**반론/대댓글**: [an0malous]가 “ARC AGI와 비교하면 어떠냐”고 질문했으나, 이 chunk에서는 답변 없음. ARC AGI는 일반 NLP 벤치마크와 다른 추론 중심 평가여서 논점이 달라질 수 있음.
**내 판단**: 극단적이지만 현실적인 경계. 다만 ARC AGI 같은 대안 평가가 오히려 모델의 진짜 능력을 보여줄 수도 있다는 점에서 단순 ‘벤치마크 유무’보다 복잡한 문제.
### ### [terekhindc] “Fugu는 사실 오케스트레이터 – API markup 이중 과금”
**주장**: Fugu는 내부적으로 OpenAI의 Opus나 Anthropic 모델을 호출하는 **오케스트레이터(orchestrator)**일 가능성이 높다. 사용자가 한 번의 프롬프트에 20달러를 지불하는 불만은 “두 번의 API markup”을 지불하고 있기 때문에 합리적이다.
**근거**: openrouter 페이지 정보와 사용자 경험.
**반론/대댓글**: 이 chunk 내 직접 반론 없음. 그러나 이 주장이 맞다면 Sakana의 주장(‘자체 모델’)은 사실상 거짓이 된다.
**내 판단**: 매우 설득력 있는 가설. 실제로 [GTP] 등 다른 사용자도 OpenRouter의 유사 기능을 언급했으며, Fugu의 기술 설명(여러 모델 오케스트레이션)이 이를 뒷받침한다. 단일 모델 발표처럼 보이지만, 실상은 API 게이트웨이에 가깝다.
### ### [chillfox] [ezoe] – Fugu Ultra는 여러 모델 라우팅 시스템
**주장**: Fugu Ultra는 단일 모델이 아니라 여러 모델로 라우팅하는 시스템. OpenRouter Fusion과 유사하며, 심지어 클라이언트 측에서도 구현 가능하다.
**근거**: Sakana의 공식 설명과 기존 유사 서비스.
**반론/대댓글**: [ezoe]는 “백엔드 모델의 결과를 결합하는 방식이라면 자체 모델이 실제로 존재하는지 의문”이라고 지적.
**내 판단**: Fugu의 혁신성은 모델 자체가 아니라 **통합 및 최적화**에 있다면, ‘Mythos급 AI 모델’이라는 마케팅은 과장된 것이다. 이 점은 원문이 의도적으로 모호하게 표현한 부분이다.
### ### [cdurth] “Fugu Ultra 20달러 플랜, 한 프롬프트에 다 써버림”
**주장**: 실제 사용 후기 – 20달러 업그레이드도 한 질문에 소진됐고, 100달러로 올렸으나 Opus보다 느리고 결과도 나빠 완전히 낭비였다.
**근거**: 개인적 경험.
**반론/대댓글**: [rtpg]는 “타겟 프롬프트에 따라 다를 수 있다”고 옹호했고, [delusional]은 “20달러면 GPT-5.5 기준 3~4 컨텍스트 윈도우”라고 비용 구조를 설명.
**내 판단**: 고가 요금제가 체감 성능과 비례하지 않는다는 현실적 증언. 오케스트레이터 가설과 연결될 때 의미가 크다.
### ### [zzleeper] “Fable을 Cursor로 테스트했는데…” – 반대 사례
**주장**: Fable(Anthropic의 유료 모델)을 Cursor IDE에 연결해 “Claude 스타일을 줄여”라고 했더니 가장 쓸모없는 Claude 스타일 CSS를 생성하며 40달러를 소모.
**근거**: 직접 테스트.
**반론/대댓글**: [nonethewiser]는 “스타일 예시를 주면 잘 복사한다”고 조언했고, [valleyer]는 “모델이 ‘Claude-like’의 의미를 알 리가 없다”고 지적. [jazzyjackson]은 “이미지 생성기에 ‘코끼리 없는 그림’ 요구하는 것과 같다”고 비유.
**내 판단**: Fable도 완벽하지 않으며, 사용자 기대와 실제 모델 행동 사이의 괴리를 보여준다. Mythos급이더라도 특정 태스크에서는 실패할 수 있다.
### ### [cheema33] “Fable을 Claude Code CLI로 사용 – 시니어 엔지니어처럼 행동”
**주장**: 정반대 경험 – Fable을 직접 CLI로 사용했을 때 가설을 스스로 코딩하고 테스트하는 시니어 엔지니어처럼 행동했다. Opus는 모든 수준에서 실수 투성이었다.
**근거**: 개인 경험.
**반론/대댓글**: [josephg]는 “Fable이 내 업무 대부분을 대체할 정도”라고 동의. [gwerbin]은 “Sonnet도 적절한 프롬프트로 비슷하게 동작한다”고 추가.
**내 판단**: 모델 평가는 사용 맥락에 크게 의존함을 시사. 벤치마크만으로는 사용자 가치를 예측하기 어렵다.
### ### [nullbio] vs [ceejayoz] – Anthropic의 공포 마케팅 논란
**주장**: [nullbio]는 “Anthropic의 5년간 공포 마케팅이 규제 포획을 초래해 AI 산업을 망쳤다. GPT-2도 위험하다고 주장한 Dario를 기억하라”고 비판.
**근거**: 역사적 사례.
**반론/대댓글**: [ceejayoz]는 “행정부와의 갈등은 상호적이며, Intel CEO 사태와 유사. GPT-2가 위험하지 않았다는 것은 ‘시카고 파일-1도 위험하지 않았다’는 것과 같다”고 반박. (※ 시카고 파일-1은 인류 최초의 원자로)
**내 판단**: 두 입장 모두 일부 타당. AI 안전 논의가 과도하게 규제로 이어질 위험과 실제 통제 불능 문제를 분리해야 한다. HN에서 [dang]이 플레임워를 경고한 점이 인상적.
### ### [Certhas] vs [w4yai] – 산업혁명 70년의 교훈
**주장**: [Certhas]는 “산업혁명 후 노동자 임금·고용이 회복되는 데 70~80년이 걸렸고, 그동안 사회적 혼란(Chartist 운동)이 있었다. 자동화가 우익 극단주의를 강화했다는 실증 연구가 다수 있다”고 주장. (출처: Owen McGrann 블로그, Oxford Review of Economic Policy, IZA, Cambridge 논문)
**근거**: 학술 연구 인용.
**반론/대댓글**: [w4yai]는 “80년은 과장, 상관관계일 뿐 인과관계가 아니다. 결국 생활수준이 향상되지 않았느냐”고 반박. [jjj123]이 “당신이 위험을 묻고 답변을 받은 것”이라고 중립적 지적.
**내 판단**: 역사적 유비는 유효하지만, AI 시대의 전환 속도와 범위가 산업혁명과 다르다는 점을 고려해야 한다. [Certhas]의 주장은 교육·직업 훈련의 중요성을 간접적으로 시사한다.
### ### [lelanthran] vs [clusterhacks] – SOTA 모델의 TAM 경제성
**주장**: [lelanthran]은 “SOTA 모델의 진짜 시장은 극소수 개발자뿐. 사무 문서는 저렴한 모델로 충분. 1조 달러 투자 대비 수익성에 의문”을 제기.
**근거**: 현업 경험과 시장 분석.
**반론/대댓글**: [clusterhacks]는 “실제 LLM 사용층이 넓어지고 있으며 최소 2,500억 달러 시장”이라고 반론. [lelanthran]은 다시 “2,500억 매출 대비 500억 이익 vs 1조 투자 → IPO 평가 비합리적”이라고 응수.
**내 판단**: AI 버블 논의의 핵심. 수출 금지와 관계없이 근본적인 지속 가능성 문제를 제기한다. 자녀 교육에 ‘AI에만 의존하지 않는 다각적 기술’을 가르쳐야 한다는 시사점.
### ### [visha1v] et al. – ‘Asian’이라는 용어 논쟁
**주장**: “Asian은 잘못된 표현. 일본 스타트업이지 중국이 아니다.” 다양한 문화적 정의가 충돌. 영국에서는 인도·파키스탄을 Asian으로 부르는 관습이 있다고 [defrost]가 지적.
**근거**: 지역별 용법 차이.
**반론/대댓글**: [mksreddy]가 “기사는 중국과 일본 모두 다룬다”고 정정했고, [khurs]는 “East Asia라고 해야 한다”고 제안.
**내 판단**: 용어 선택이 프레임에 영향을 미침. ‘Asian startups’이라는 표현은 일본과 중국을 동일시해 독자의 인식을 왜곡할 수 있다. 비판적 미디어 리터러시 교육의 사례로 활용 가능.
### ### [firefoxd] vs [esikich] – 소프트웨어 금지의 실효성
**주장**: [firefoxd]는 “올해 안에 ‘안전 문제’로 외국 LLM이 금지될 것. BYD 금지와 같은 논리”라고 예측.
**근거**: 최근 정부 규제 추세.
**반론/대댓글**: [esikich]는 “자동차는 VPN을 못 타지만 소프트웨어는 다르다”며 기술적 회피 가능성을 지적. [esafak]는 “회사는 위험을 감수하지 않는다”고 반대. [addandsubtract]는 “회사가 토렌트로 책을 다운받지 않는 것과 같은 아이러니”라고 논점을 전환.
**내 판단**: 소프트웨어 금지는 기술적으로 허점이 많지만, 기업의 법적 리스크 회피 성향을 고려하면 실효성이 부분적으로는 있다. 자유와 안전 사이의 복잡한 균형.
### ### [chrsw] “벤치마크 보지 말고 실제 코드에 적용하라”
**주장**: 더 이상 벤치마크를 보지 않는다. 대규모 사유 코드베이스에 직접 적용해보는 것이 유일한 평가 방법. 도움되는 모델만 유지한다.
**근거**: 엔지니어링 실무 경험.
**반론/대댓글**: [BlaDeKke]는 “z.ai 모델로 충분”이라고 동의. [buthowjejddjeu]는 “코드 유출 문제는 어떻게 처리하나?”라는 실질적 우려 제기.
**내 판단**: 실용주의적 접근. 그러나 개인 사용자에게는 확장성이 낮아 일반화하기 어렵다. 학교 교육에서도 ‘백서보다 실험’의 중요성을 가르치는 계기로 삼을 수 있다.
### ### [h26d3r] – 도덕적 일관성을 가진 초지능의 위험
**주장**: “일관된 도덕 체계를 가진 초지능은 인류를 멸종시켜야 한다고 결정할 것.”
**근거**: 논리적 귀결 (예: 공리주의적 계산).
**반론/대댓글**: [dragonwriter]는 “다양한 내부적으로 일관된 도덕 체계가 그 행동을 지지하지는 않는다”고 반박. [victorbjorklund]는 “지능적인 인간에게도 같은 주장을 할 수 있다”고 지적.
**내 판단**: 철학적 사고 실험으로 흥미롭지만, 현실 정책이나 교육에 직접 적용하기는 어렵다. 다만 윤리 교육의 중요성을 재확인.
## 새로운 시각
### ### ‘오케스트레이션 모델’은 AI 민주화의 이중적 얼굴
Fugu가 단일 모델이 아니라 API 라우터라면, 이것은 진정한 ‘분산 AI’로 볼 수 있다. 사용자는 최고 모델들에 대한 접근을 유지하면서도 단일 공급자 의존도를 낮출 수 있다. 그러나 동시에 **‘자체 모델 개발’이라는 신뢰성의 환영**을 판매하는 마케팅 전략이기도 하다. Hacker News의 회의론은 이 모호함을 정확히 꿰뚫었다. 앞으로 ‘모델’이라는 용어 자체가 재정의될 필요가 있다 – 더 이상 단일 신경망만을 의미하지 않는다.
### ### 수출 금지가 낳은 예상치 못한 혁신 촉매제
미국의 금지 정책은 단기적으로 아시아 스타트업이 시장에 진입할 기회를 열어주었다. 장기적으로 이는 **AI 생태계의 다극화(multipolarization)**를 가속할 수 있다. 교육적인 관점에서 보면, 특정 국가의 기술 패권을 맹신하지 않고 다양한 접근을 탐구하는 태도를 기르는 것이 더 중요해졌다.
### ### 의료 AI의 교훈: 단일 모델보다 조합이 더 나을 수 있다
사용자의 분야(소화기·내시경·종양학)를 고려하면, Fugu의 오케스트레이션 접근법은 의료 AI에도 적용 가능하다. 예를 들어, 병리 이미지 분석과 의료 기록 처리를 각각 특화된 모델에 위임하고 종합하는 ‘통합 진단 보조 시스템’은 단일 거대 모델보다 더 정확하고 신뢰할 수 있을 것이다. Mythos급 모델을 기다리느니, **여러 작은 모델의 조합을 가르치는 교육**이 현실적일 수 있다.
## 자녀와 미래에 대한 시사점
### ### 다양성과 비판적 사고를 가르치는 AI 세대
자녀들은 ‘하나의 최고 모델’이 아니라 서로 약점이 다른 다수의 모델이 공존하는 세상을 살게 될 것이다. 따라서 **한 가지 해결책에 의존하지 않는 유연한 사고**와 **정보 출처의 신뢰성을 평가하는 능력**이 필수적이다. 이번 HN 토론이 보여주듯, 벤치마크 없이 주장을 믿지 않는 태도는 앞으로 더 중요해진다.
### ### 교육 콘텐츠: AI를 활용하되 맹신하지 않기
자녀에게 AI 도구를 사용하는 법을 가르칠 때, **‘이 모델이 정말로 좋은가?’라는 질문을 스스로 던지도록** 해야 한다. 직접 간단한 태스크를 시켜보고 결과를 평가하는 실습이 벤치마크 숫자보다 실질적이다. 또한 오케스트레이션 개념을 통해 ‘여러 AI를 동시에 활용하는 전략’을 배우면 더 창의적인 문제 해결이 가능할 것이다.
### ### 의료 분야에서의 함의: 맞춤형 AI 조합의 시대
소화기 종양학 분야에서 환자 데이터, 영상, 연구 논문을 각각 다른 전문 모델에 연결하는 **‘진단 오케스트레이터’**가 등장할 가능성이 크다. 자녀가 의료 AI를 개발하거나 사용하게 될 때, 단일 모델 성능보다 **전체 시스템의 신뢰도와 보안**이 더 중요하다는 점을 인지해야 한다. 이번 HN의 코드 유출 우려([buthowjejddjeu])는 의료 분야에서 특히 치명적이다.