AI 추론 시대를 위해 만들어진 칩 — Google TPU (The chip made for the AI inference era – the Google TPU)

2026-06-04 · 2026-06-04_google-tpu-ai-inference-chip.md

#semiconductor #ai-inference #google-tpu #nvidia #cuda #ocs-interconnect #cowos #vertical-integration #hyperscaler #paywalled-source

원문 출처

https://www.uncoveralpha.com/p/the-chip-made-for-the-ai-inference

AI 추론 시대를 위해 만들어진 칩 — Google TPU (The chip made for the AI inference era – the Google TPU)

Rihard Jarc, 2025-11-24, UncoverAlpha (Substack). 좋아요 153, 댓글 3. 같은 글이 2025-11-27 Hacker News에 "TPUs vs. GPUs and why Google is positioned to win AI race in the long term" 제목으로 재게재되어 431점·댓글 320개를 기록했다.

원문 본문 상당 부분이 페이월 뒤에 있다. 이 분석은 무료 공개분을 토대로 하되, 막힌 부분을 HN 320개 댓글·업계 보도·1차 스펙 문서로 다방면 보강했다. 외부 출처에서 끌어온 사실은 본문에 그 출처를 표기한다. 페이월 전용인 ⑦ Gemini 3 관련 절은 확인하지 못했다.

§1. 한 줄 요약과 핵심 논지

AI 칩의 무게중심이 학습(training)에서 추론(inference)으로 이동하면서, NVIDIA GPU가 아니라 Google이 2013년부터 키워온 맞춤형 ASIC인 TPU가 추론 시대의 칩으로 부상하고 있다 — 최신 TPUv7(Ironwood)은 칩당 4,614 TFLOPS(FP8)·HBM 192GB에, 광학 스위치로 9,216개를 한 덩어리(1.77 PB 공유 메모리)로 묶어 비교 GPU 대비 추론에서 4배 가까운 달러당 성능을 주장하며, Anthropic(최대 100만 개)·Meta가 잇따라 채택을 추진하고 있다. 그러나 이 글과 그 주변 논의를 종합해서 얻는 더 깊은 통찰은, Google의 진짜 해자가 칩 그 자체가 아니라 OCS 광학 인터커넥트로 가능해진 랙스케일 병렬 확장이며(단일 칩에서는 NVIDIA가 여전히 앞선다), TPU는 NVIDIA의 대체재라기보다 클라우드 마진이 50-70%에서 20-35%로 무너지는 시대에 Google이 풀스택 경제를 포획해 마진을 방어하는 무기라는 점이다. 그리고 이 경쟁의 진짜 천장은 칩 성능이 아니라 TSMC의 CoWoS 패키징 용량이다.

표면적으로 이 글의 주장은 "추론에는 TPU가 GPU보다 낫다"이다. 그러나 진짜 질문은 칩 스펙 비교 아래에 깔려 있다. AI 경제가 학습에서 추론으로 이동할 때, 자기 칩을 자기 소프트웨어·네트워크·데이터센터에 맞춰 직접 설계하는 수직 통합 모델이 NVIDIA를 사다 쓰는 상인-실리콘(merchant silicon) 모델을 이기는가, Google의 10년 선행과 광학 인터커넥트가 만든 격차는 NVIDIA가 모방할 수 있는 종류인가, 그리고 그 성장을 실제로 가로막는 것은 무엇인가. 이 글은 TPU 한 칩의 소개가 아니라 AI 인프라의 마진이 어느 레이어로 모이는가에 대한 투자 명제다.

전체 내용 정리

공개분은 일곱 갈래 구성을 예고하며, 그중 앞부분(①~⑥의 무료 노출분)을 다음과 같이 풀어낸다. ⑦(Gemini 3와 칩 산업 영향)은 페이월 뒤라 확인되지 않는다.

① 기원. 2013년경 Google은 Android 사용자가 음성 검색을 하루 3분씩만 써도 데이터센터 용량을 두 배로 늘려야 한다는 전망에 직면했다. 기존 CPU/GPU 확장 대신 TensorFlow 신경망에 최적화한 커스텀 ASIC을 새로 설계해 15개월 만에 배치했고, 2015년부터 Maps·Photos·Translate 같은 실서비스에 투입했다.

② TPU와 GPU의 구조적 차이. GPU는 그래픽·과학 연산 등 범용성을 떠안느라 캐싱·분기 예측 같은 "아키텍처 짐"을 지고 있다. TPU는 Systolic Array 구조로 데이터를 연산 격자 사이로 순차 흘려보내, 메모리와 연산 유닛 사이를 끊임없이 왕복시키는 Von Neumann 병목을 제거한다.

③ TPUv7(Ironwood) 스펙. 칩당 4,614 TFLOPS, HBM 192GB, 메모리 대역폭 7.37 TB/s. 직전 세대 TPUv5p(459 TFLOPS, 2,765 GB/s) 대비 약 10배. 임베딩·집합 연산을 가속하는 4세대 SparseCore가 추가됐고, 랙을 잇는 광학 회로 스위치(OCS) 네트워킹으로 한 포드에 최대 9,216칩·1.77 PB 공유 메모리·42.5 엑사플롭스를 묶는다(1차 스펙 보도: TechRadar·Tom's Hardware·ServeTheHome).

④ 경제성. TPUv6은 GPU 대비 에너지 효율 60-65% 우위, TPUv7은 TPUv6e 대비 성능/와트 2배. 전직 Google Cloud 직원은 "적합한 애플리케이션에서 GPU 대비 달러당 1.4배 성능"이라 증언한다. NVIDIA CEO 젠슨 황조차 TPU 경쟁을 의식한 발언을 내놓았다.

⑤ 약점. CUDA 생태계에 비해 JAX/XLA 생태계가 훨씬 작고 PyTorch 호환이 약하다. 공급도 제약이다 — TSMC의 CoWoS 패키징 용량 한계로 Google의 2026년 TPU 목표가 약 400만 개에서 300만 개로 깎였고, NVIDIA가 CoWoS 용량의 절반 이상을 선점한 상태다(업계 보도).

⑥ GCP의 경쟁 우위. AI 클라우드 마진이 50-70%에서 20-35%로 추락하는 국면에서 자체 ASIC이 사실상 유일한 탈출구이며, TPU는 Google Cloud의 향후 10년 최대 경쟁력으로 제시된다.

§2. 등장 용어 미리 풀이

💡 학습(training) vs 추론(inference): 학습은 데이터로 모델 가중치를 만드는 일회성 대규모 연산, 추론은 완성된 모델을 사용자 질의에 돌려 답을 내는 상시 연산이다. 모델 배포 후 비용 대부분은 추론에서 나오며, 2030년이면 추론이 AI 연산의 약 75%를 차지할 것으로 전망된다(longyield 분석).

💡 ASIC (Application-Specific Integrated Circuit): 특정 용도 하나만을 위해 설계한 맞춤 칩. 그 용도에서는 범용 칩(GPU)보다 훨씬 효율적이지만 유연성이 없다. TPU가 대표적 사례다.

💡 Systolic Array / Von Neumann 병목: 폰 노이만 구조에서는 데이터를 메모리에서 연산 유닛으로 가져오고 결과를 다시 메모리에 쓰는 왕복이 병목이다. Systolic Array는 데이터를 연산 셀 격자 사이로 박동(systole)처럼 순차 흘려보내 이 왕복을 없앤다.

💡 HBM (High Bandwidth Memory): 칩 위에 메모리를 수직으로 쌓아 대역폭을 극대화한 고성능 메모리. AI 가속기의 핵심 병목인 "메모리에서 데이터를 얼마나 빨리 끌어오느냐"를 좌우한다.

💡 OCS (Optical Circuit Switch, 광학 회로 스위치): 전기 대신 빛으로 칩·랙을 연결·재구성하는 스위칭. Google은 이것으로 수천 개 TPU를 한 포드처럼 묶어, 개별 칩 성능이 아니라 랙·데이터센터 규모의 병렬 확장에서 우위를 가진다.

💡 CoWoS (Chip-on-Wafer-on-Substrate): TSMC의 첨단 패키징 기술. 연산 칩과 HBM을 한 기판에 고밀도로 붙인다. AI 가속기 생산의 실질적 병목이며, 이 용량을 누가 확보하느냐가 출하량을 결정한다.

💡 CUDA / JAX: CUDA는 NVIDIA GPU용 범용 연산 플랫폼으로 십수 년간 업계·학계 사실상 표준이다. JAX는 Google이 만든 대안 프레임워크로 컴파일 최적화(XLA)를 통해 TPU에서 높은 효율을 낸다.

💡 하이퍼스케일러(hyperscaler): Google·Amazon·Microsoft처럼 초대형 데이터센터를 직접 운영하는 클라우드 사업자. AI 추론 수요와 칩 구매 의사결정이 이 소수에게 집중돼 있다.

§3. 핵심 수치 (공개분 + 외부 검증, 출처 표기)

기원 — 2013년경 착수, 음성 검색 하루 3분 → 데이터센터 2배 전망, 15개월 만에 배치, 2015년 실서비스 투입. (원문)
TPUv7 칩 스펙 — 4,614 TFLOPS, HBM3e 192GB, 7.37 TB/s. 다만 1차 스펙 보도는 4,614를 FP8 기준으로 명시한다(원문은 BF16으로 표기 — §5 참조). (원문 + TechRadar·Tom's·ServeTheHome)
포드 규모 — 최대 9,216칩, 공유 HBM 1.77 PB(공유 메모리 세계 기록), 42.5 엑사플롭스, 3D 토러스 인터커넥트, OCS로 랙 연결. (1차 스펙 보도)
효율 — TPUv6 에너지 효율 GPU 대비 60-65% 우위; TPUv7 성능/와트 TPUv6e 대비 2배; 추론 달러당 성능 GPU 대비 1.4배(전직 직원 증언)~4배(2차 분석). (원문 + ainewshub/longyield)
채택 계약 — Anthropic: 최대 100만 개 TPU, 1 GW+ 용량 2026년 가동, "수백억 달러", 2025-10-23 발표. Meta: 2026년 GCP TPU 임차, 2027년 직접 구매 협상(수십억 달러 규모). (DCD·CNBC·The Information/Tom's)
공급 병목 — Google 2026년 목표 약 400만→300만 개(약 25% 감축), 원인은 CoWoS 용량. NVIDIA가 CoWoS의 약 60%(~595,000 웨이퍼) 선점, Google은 Broadcom 경유 약 90,000 웨이퍼. (업계 보도·Morgan Stanley)
시장 규모(추정) — 2025년 TPU 출하 약 250만 개, ASP 약 $4,500 → 매출 약 $112.5억 추정(업계 전문가 인터뷰 기반 추정치이므로 신뢰도 보통). Q3 2025 누적 180만 개(목표의 72%). Fortune은 Alphabet TPU를 잠재 가치 $9,000억 "secret sauce"로 표현. (globalsemiresearch·Omdia·Fortune)
분업·경쟁 ASIC — 프런트엔드 설계 사내, 백엔드 물리 설계 Broadcom 위탁(약 50%p gross margin 추정). 경쟁: AWS Trainium, Microsoft MAIA. (원문)

§4. 댓글에서 드러난 합의 (HN 320개)

HN 스레드에서 가장 많은 호응을 모은 합의는 하나로 수렴한다 — Google의 진짜 해자는 TPU 실리콘이 아니라 OCS 광학 인터커넥트가 만드는 대규모 병렬 확장성이다. (앞서 다른 분석이 "431포인트 댓글"로 인용한 수치는 사실 글 자체의 추천 점수 431점·댓글 수 320개였다. HN은 개별 댓글 점수를 공개하지 않는다.)

(C1) m4r1k — 스레드 최다 호응 댓글. "Google의 진짜 해자는 TPU 실리콘 자체도, 냉각이나 개별 성능, 초전문화도 아니다 — OCS 인터커넥트가 가능케 한 대규모 병렬 스케일이다." The Next Platform을 인용해, OCS로 묶은 Ironwood 9,216개(합계 1.77 PB HBM)가 144개 Blackwell 칩렛 기반 NVIDIA 랙(20.7 TB)을 "농담처럼 보이게" 만든다고 못 박는다. 단일 칩에서는 NVIDIA가 우수함을 인정하면서도, 분산 학습·추론의 스케일에서는 버틸 것이 없다는 것이다.

(C2) 1980phipsi — 원문을 인용하며 핵심을 짚는다. "학습에서는 CUDA가 매우 중요하지만 추론에서는, 추론형 추론(reasoning inference)에서조차 CUDA가 그렇게 중요하지 않다. 그래서 추론에서 TPU 입지를 넓힐 가능성이 학습에서보다 훨씬 높다." 추론으로의 이동이 곧 CUDA 해자의 약화라는 합의를 대표한다.

(C3) 공급·생태계 회의 (Reddit ML 커뮤니티 포함) — 합의된 양대 약점은 "공급 부족 + 생태계 부족"이다. JAX는 빠르지만 주류는 PyTorch이고, TPU로 옮기려면 코드 리팩토링이 필요하며, CoWoS 제약으로 외부 고객 확보 자체가 어렵다는 것이다.

§5. 약점·문제점

첫째, 생태계 성숙도. 글과 댓글이 일관되게 지목한다. 공학 교육이 CUDA 중심으로 돌아가고 주류가 PyTorch인 한, 칩이 효율적이어도 다룰 엔지니어 풀이 얇다. JAX/XLA는 빠르지만 생태계가 작고 이식 비용이 든다.

둘째, 공급이 성능보다 더 큰 제약이다. CoWoS 패키징 용량 한계로 2026년 목표가 400만→300만 개로 깎였고 NVIDIA가 용량의 60%를 선점했다. 즉 Google의 성장 속도를 정하는 것은 설계 역량이 아니라 TSMC의 패키징 라인이다.

셋째, 수치의 정밀도 혼용. "TPUv7 4,614 vs TPUv5p 459 → 약 10배"라는 헤드라인은 주의가 필요하다. 1차 스펙 보도는 4,614를 FP8 기준으로 명시하는데, 비교 대상 459는 v5p의 BF16 피크다. 서로 다른 정밀도를 맞비교하면 세대 향상이 과장될 수 있다. 효율 수치도 60-65%는 TPUv6 대 GPU, 성능/와트 2배는 v7 대 v6e로 기준이 다르며, 달러당 성능 1.4~4배는 워크로드·비교 세대에 따라 폭이 크다.

넷째, 반대편의 반론 — 젠슨 황. NVIDIA CEO는 2025년 11월 "ASIC과는 오래 경쟁해왔다", TPU는 "더 좁고 특화된 워크로드"용이며 CUDA·GPU 범용성은 "ASIC에는 없어 NVIDIA는 챗봇만이 아니라 훨씬 넓은 시장을 다룬다"고 받아쳤다. 다만 "Anthropic이 없었다면 TPU 성장이 왜 있겠나, 100% Anthropic"이라는 발언은 역설적으로 TPU 채택이 실재함을 인정한 자책골로 읽힌다(NVIDIA는 이 시기 X에 직접 방어 글을 올릴 만큼 동요했다 — Fortune).

다섯째, 이 분석 자체의 한계. 본문 다수가 페이월 뒤에 있어 §7(투자 명제 핵심)·⑦(Gemini 3)은 외부 보강으로 추정했다. §3-7의 시장 규모는 전문가 인터뷰 기반 추정치다.

§6. 주목할 만한 댓글

합의(OCS 우위)에서 벗어나거나 더 날카롭게 찌른 댓글들이 있다.

"하드웨어가 비결이면 Google이 이미 압도했어야 한다" (bastawhiz). 가장 근본적인 반론이었다. Gemini 3 Pro가 이미 최고 모델도 아니고 출시된 지 몇 주밖에 안 됐는데, 하드웨어가 진짜 비밀병기라면 Google이 모두를 압도하고 있어야 한다는 것이다. 하드웨어를 실제로 잘 쓰는 것 자체가 어렵고, 최적화를 마칠 즈음이면 이미 다음 세대로 넘어가 있다고 지적한다.

"LLM은 계속 바뀌는데 ASIC은 고정 아키텍처에 묶인다" (zenoprax). 암호화폐 채굴 ASIC은 해시 알고리즘이 고정이라 단순하지만, LLM은 아키텍처가 끊임없이 변한다. 특정 구조에 커밋하는 ASIC이 이 변화를 따라갈 수 있느냐는 의문은 TPU 베팅의 근본 리스크를 건드린다.

"NVIDIA가 똑같이 못 할 이유가 뭔가" (sbarre). 시장이 정말 TPU형 칩을 원한다면 NVIDIA가 범용 GPU를 더 특화된 칩으로 좁혀 따라오지 못할 이유가 무엇이냐는 해자 지속성에 대한 도발이었다.

지정학과 "killed by Google" (qwertox, villgax, siliconc0w). 중국이 경쟁력 있는 칩을 만드는 순간 대만을 침공해 서방의 연산 능력을 끊고 대만 팹을 독점하려 하지 않겠냐는 시나리오, killedbygoogle.com을 들이밀며 Google이 제품을 끝까지 끌고 가지 못한다는 회의, "Google은 늘 기술은 좋았지만 사람들이 원하는 것을 만드는 끈기·감각이 문제"라는 냉소가 묶여 나왔다.

§7. 이 글과 그 주변 논의를 종합해 LLM이 얻은 새로운 시각

7-1. 진짜 해자는 칩이 아니라 OCS로 묶은 랙스케일이다 — 단일 칩은 따라잡혀도 광학 인터커넥트는 못 따라잡는다

원문은 Systolic Array와 HBM 192GB를 우위의 근거로 들지만, 커뮤니티 합의와 1차 스펙은 더 날카롭다. 단일 칩에서는 NVIDIA가 여전히 앞선다(황의 반론도 그 지점을 친다). 격차는 한 포드에 9,216칩·1.77 PB를 한 메모리 공간처럼 묶는 OCS 광학 인터커넥트에서 나온다 — 144개 Blackwell 랙을 "농담처럼" 만든다는 표현이 과장이 아니다.

함의는 분명하다. NVIDIA가 더 좋은 칩을 만들어도 그것은 따라잡을 수 있는 종류의 우위지만, 데이터센터 네트워크 토폴로지를 10년간 자사 워크로드에 맞춰 공진화시킨 것은 칩 한 장을 사 와서 복제할 수 없다. 추론 시대의 해자는 트랜지스터가 아니라 수천 칩을 손실 없이 한 덩어리로 묶는 시스템 설계에 있다.

7-2. NVIDIA의 해자 CUDA는 다수 앞에서 강하고, 시장을 움직이는 소수 앞에서 약하다 — 추론에서는 CUDA 자체가 덜 중요하다

CUDA의 장벽은 수백만 개인·소규모 개발자(long tail)에게는 절대적이다. 그러나 추론 규모를 실제로 결정하는 것은 소수의 하이퍼스케일러와 거대 AI 랩이고, 그들은 엔지니어를 재교육하고 자체 커널을 짤 자원이 충분하다. 게다가 C2가 짚었듯 추론에서는 CUDA 자체가 학습만큼 중요하지 않다. 두 가지가 겹치면 NVIDIA의 해자는 시장의 무게중심이 추론으로, 소수 거대 구매자로 옮겨갈수록 얇아진다.

황의 "100% Anthropic" 발언은 이 구도를 의도치 않게 증언한다. 그가 위협을 축소하려고 든 사실(Anthropic이 TPU 성장을 견인한다)이야말로, 가장 까다로운 고객이 이미 CUDA를 떠날 수 있음을 보여주는 자책골이다.

7-3. TPU는 NVIDIA의 대체재가 아니라 Google의 풀스택 마진 포획 장치다 — 'GCP 전용·비매각'은 약점이 아니라 설계다

TPU를 "NVIDIA 킬러"로 보는 시각은 초점을 빗나간다. 클라우드 마진이 50-70%에서 20-35%로 무너지고 NVIDIA가 GPU 공급의 86%·마진 73%로 그 비용을 떠넘기는 국면에서, 자체 ASIC은 클라우드 사업자가 유틸리티 기업으로 추락하지 않을 유일한 탈출구다.

핵심은 Google이 칩·인터커넥트·소프트웨어(JAX/TF)·데이터센터·고객 관계를 모두 소유한다는 점이다. 그래서 풀스택의 경제를 통째로 포획한다. TPU를 외부에 팔지 않고 GCP 구독으로만 제공하는 것은 분배의 약점이 아니라, egress 비용과 결합해 워크로드가 떠나지 않게 만드는 록인 설계다. NVIDIA가 칩 판매로 마진을 얻는다면 Google은 그 위에서 도는 연산의 체류로 마진을 얻는다. 동시에 모델이 상품화될수록 가치는 모델 레이어가 아니라 이 풀스택 인프라로 흘러간다 — 모델은 상품, 인프라가 마진이다.

7-4. 이 경쟁의 진짜 천장은 성능이 아니라 TSMC의 CoWoS다 — 그래서 결국 지정학이다

성능 곡선이 아무리 가팔라도 Google의 성장 속도를 정하는 것은 따로 있다. CoWoS 패키징 용량이다. 2026년 목표가 400만→300만 개로 깎이고 NVIDIA가 용량의 60%를 선점한 사실은, 칩 설계 경쟁의 승부가 정작 TSMC의 라인 배분에서 결정된다는 뜻이다.

이는 권력의 중심을 한 단계 위로 끌어올린다. 진짜 협상력은 칩 설계사가 아니라 패키징을 쥔 파운드리(TSMC)에 있고, TSMC가 대만에 집중돼 있는 한 이 모든 경쟁은 대만 해협의 지정학 위에 얹혀 있다(HN의 대만 침공 시나리오가 가리키는 지점이다). AI 칩 전쟁의 최종 병목은 실리콘이 아니라 지리다.

§8. 저와 아이들의 관계와 미래에 미치는 영향

직접적 영향 (앞으로 1~2년, 작업·생활)

제 작업은 클라우드 LLM에 의존하는데, 이 글은 "어떤 모델이 좋은가"보다 "그 모델을 누가 어떤 칩·네트워크 위에서 얼마에 돌리는가"가 결국 제가 내는 비용과 모델의 지속 가능성을 결정한다는 점을 분명히 합니다. 특정 클라우드에 데이터와 워크플로우를 쌓을 때 egress 비용과 풀스택 록인이 만드는 고착을 의식하고, 한 공급자에 모든 것을 묶지 않는 설계를 기본값으로 두려 합니다. (§7-3의 직접 적용)

양육 관점 (앞으로 3~5년, 자녀 교육)

아이들에게 가르칠 가치는 화려한 표면(어떤 모델, 어떤 칩)이 아니라 부품들이 어떻게 맞물려 시스템이 되는지를 보는 사고입니다. TPU의 우위가 한 칩이 아니라 광학 인터커넥트와 10년의 수직 통합에서 나왔다는 사실은, 진짜 경쟁력이 단일 부품이 아니라 연결 설계에 있다는 교훈입니다. 동시에 CUDA 대 JAX 사례는 하나의 생태계 표준에 일찍 올라타는 힘과, 거기에만 갇히는 위험을 함께 보여줍니다 — PyTorch를 배우되 프레임워크에 독립적인 사고를, 그리고 에너지 효율 최적화처럼 수요가 길게 가는 분야의 가치를 알려주려 합니다. (§7-1·§7-2의 직접 적용)

장기적 시사점 (5년 이상)

아이들이 자랄 세계에서 AI의 경제적 권력은 모델을 만드는 회사가 아니라 풀스택 인프라를 통제하는 소수의 수직 통합 거인에게 집중될 가능성이 높고, 그 모든 것이 다시 대만의 한 파운드리라는 단일 병목 위에 얹혀 있습니다. 그 세대가 마주할 질문은 "AI를 돌리는 연산 능력이 소수에게, 그리고 한 지리적 급소에 얼마나 집중되는가, 그 집중이 가격·접근·표현의 자유와 국제 안보에 무엇을 의미하는가"입니다. 이는 §7-4의 지정학적 급소가 산업을 넘어 사회 구조의 문제로 커지는 지점이며, 로컬·오픈 인프라의 가치를 다시 보게 만듭니다. (§7-4의 직접 적용)

외부 근거 (다출처 보강)

원문: UncoverAlpha, "The chip made for the AI inference era – the Google TPU" — https://www.uncoveralpha.com/p/the-chip-made-for-the-ai-inference
HN 스레드(431점·320댓글): https://news.ycombinator.com/item?id=46069048
Ironwood 스펙: TechRadar / Tom's Hardware / ServeTheHome (9,216칩·1.77 PB·42.5 엑사플롭스·FP8 4,614 TFLOPS)
Anthropic 계약: DataCenterDynamics / CNBC (최대 100만 TPU, 1 GW+, 2025-10-23)
Meta 협상: Tom's Hardware / The Information (2026 임차·2027 구매)
CoWoS 공급: Astute Group / Morgan Stanley (NVIDIA 60% 선점, Google 목표 4M→3M)
황 CEO 발언: CNBC(2025-11-21) / Fortune(2025-11-25)
마진·시장: longyield(The AI Profit Map) / globalsemiresearch / Omdia

한 줄 요약 (재등장)

AI 칩의 무게중심이 학습에서 추론으로 옮겨가며 Google TPU가 추론 시대의 칩으로 부상하지만, 그 우위의 본질은 더 좋은 트랜지스터가 아니라 OCS 광학 인터커넥트로 9,216칩을 한 덩어리로 묶는 랙스케일 설계다(단일 칩은 NVIDIA가 앞선다). TPU는 NVIDIA의 대체재라기보다, 클라우드 마진이 50-70%에서 20-35%로 무너지는 시대에 Google이 칩·네트워크·소프트웨어·데이터센터를 모두 소유해 풀스택 경제를 포획하는 마진 방어 무기이며, 'GCP 전용·비매각'은 약점이 아니라 록인 설계다. 그리고 이 경쟁의 진짜 천장은 성능이 아니라 TSMC의 CoWoS 패키징 — 결국 대만의 지정학이다.

AI 추론 시대를 위해 만들어진 칩 — Google TPU (The chip made for the AI inference era – the Google TPU)

§1. 한 줄 요약과 핵심 논지

전체 내용 정리

§2. 등장 용어 미리 풀이

§3. 핵심 수치 (공개분 + 외부 검증, 출처 표기)

§4. 댓글에서 드러난 합의 (HN 320개)

§5. 약점·문제점

§6. 주목할 만한 댓글

§7. 이 글과 그 주변 논의를 종합해 LLM이 얻은 새로운 시각

7-1. 진짜 해자는 칩이 아니라 OCS로 묶은 랙스케일이다 — 단일 칩은 따라잡혀도 광학 인터커넥트는 못 따라잡는다

7-2. NVIDIA의 해자 CUDA는 다수 앞에서 강하고, 시장을 움직이는 소수 앞에서 약하다 — 추론에서는 CUDA 자체가 덜 중요하다

7-3. TPU는 NVIDIA의 대체재가 아니라 Google의 풀스택 마진 포획 장치다 — 'GCP 전용·비매각'은 약점이 아니라 설계다

7-4. 이 경쟁의 진짜 천장은 성능이 아니라 TSMC의 CoWoS다 — 그래서 결국 지정학이다

§8. 저와 아이들의 관계와 미래에 미치는 영향

직접적 영향 (앞으로 1~2년, 작업·생활)

양육 관점 (앞으로 3~5년, 자녀 교육)

장기적 시사점 (5년 이상)

외부 근거 (다출처 보강)

관련 노트

한 줄 요약 (재등장)