소프트웨어 이후 AI — Tomasz Tunguz (Theory Ventures)
소프트웨어 이후 AI — Tomasz Tunguz (Theory Ventures)
개요
- 출처: tomtunguz.com, 2026.05.27
- 저자: Tomasz Tunguz — Theory Ventures VC, 15만+ 창업가 구독, Bloomberg/WSJ/Economist 인용
- 주제: AI 시대의 에이전트 아키텍처 — 7가지 하니스 구성 요소
- 분류: AI 아키텍처, 소프트웨어 공학, 조직 설계
내용 분석
서론: 소프트웨어 시대의 끝, 하니스 시대의 시작
Tomasz Tunguz는 AI가 SaaS, 관리형 데이터베이스, 고정 워크플로우를 outdated하게 만들었다고 진단합니다. 핵심 메타포: AI는 머스탱(야생마)처럼 강력하지만 야생적이다. Harnessing(마구장 장비 장착) = 가축화.
과거 소프트웨어는 "인간의 작업을 코드로 정의"했지만, AI 시대는 "AI를 제어하는 시스템을 정의"해야 합니다. 이것이 하니스(Harness)의 본질입니다.
7가지 AI 에이전트 하니스 구성 요소
① 컨텍스트 & 메모리
일반 목적 LLM은 모든 분야에 대해 평균적인 지식을 가지고 있지만, 전문 분야에서는 맞춤형 컨텍스트가 필요합니다.
예시: 방사선과 의사가 폐 CT 영상을 분석할 때 필요한 컨텍스트(폐암 분류 기준, 이전 검사 결과, 약물 이력)와 법률 보조원이 계약서를 검토할 때 필요한 컨텍스트(관련 판례, 계약 조항, 당사자 이력)은 완전히 다릅니다.
핵심: 도메인별 맞춤형 검색 시스템이 필요합니다. 단순히 "더 많은 데이터"가 아니라 "올바른 데이터"를 올바른 시점에 제공해야 합니다.
구현 예:
- 의사의 경우: 전자 건강 기록(EHR)과 연계된 벡터 데이터베이스
- 법률의 경우: 판례 데이터베이스와 계약 템플릿 라이브러리
- 공통: 사용자의 이전 세션, 선호도, 작업 이력을 메모리로 유지
② 도구 & 행동
도구는 에이전트가 외부 세계에 실제로 영향을 미치는 수단입니다. 컨텍스트 데이터베이스의 레시피가 "무엇을 할지"를 정의한다면, 도구는 "실제로 그것을 수행하는 재료와 용기"입니다.
구체적 예시:
- 코드 생성 에이전트: 파일 읽기/쓰기, 터미널 명령어 실행, git 커밋
- 고객 서비스 에이전트: 티켓 생성, 이메일 발송, 데이터베이스 조회
- 연구 에이전트: 논문 검색, 데이터 다운로드, 차트 생성
핵심: 도구의 설계가 에이전트의 능력을 결정. 잘못된 도구를 제공하면 LLM이 아무리 뛰어나도 결과를 내지 못합니다.
③ 오케스트레이션 & 루프
에이전트 루프의 기본 구조: 생각 → 행동 → 관찰 → 반복.
구체적 작동 방식:
- 계획: 복잡한 작업을 작은 단계로 분해
- 실행: 각 단계를 순차적으로 또는 병렬로 수행
- 관찰: 결과 확인, 오류 감지
- 재시도: 실패 시 다른 전략으로 재도전
- 종료: 목표 달성 또는 최대 시도 횟수 도달 시 종료
예시: "논문 10개 요약하고 비교 보고서 작성" 작업
- 계획: 논문 검색 → 다운로드 → 각 논문 요약 → 공통점/차이점 추출 → 보고서 작성
- 서브 에이전트: 검색 에이전트, 요약 에이전트, 분석 에이전트 분리
- 종료 조건: 10개 논문 모두 처리 완료 또는 시간 초과
핵심: 오케스트레이션이 에이전트의 지능을 결정. 단순히 LLM을 호출하는 것과 복잡한 작업을 성공적으로 완료하는 것의 차이는 오케스트레이션 설계에 있습니다.
④ 상태 & 지속성
대규모 기업 시스템에서 가장 중요한 요소 중 하나. 10단계 작업 중 7단계에서 충돌 시, 8단계에서 재개해야 하지 0에서 재시작하면 안 됩니다.
구체적 메커니즘:
- 체크포인트: 각 단계 완료 시 상태 저장
- 세션 스레드: 대화 이력 유지
- 아티팩트 저장소: 생성된 파일, 코드, 데이터 보관
- 파일 시스템: 중간 결과물 영구 저장
실제 시나리오:
- 에이전트가 5시간 동안 실행 중인 데이터 분석 작업 중 서버 다운
- 체크포인트가 있으면: 마지막 완료 단계(예: 7/10)에서 재개 → 3시간 추가 소요
- 체크포인트가 없으면: 0부터 재시작 → 5시간 다시 소요
핵심: 지속성이 없으면 AI 에이전트는 프로덕션에서 사용 불가. 데모는 5분이지만 실제 작업은 5시간일 수 있습니다.
⑤ 샌드박스 & 컴퓨트
각 에이전트는 격리된 작업 공간이 필요합니다. 왜냐하면:
- 보안: 에이전트가 악의적 코드를 실행하거나 민감한 데이터에 접근하는 것을 방지
- 기밀: 고객 A의 데이터가 고객 B의 에이전트에게 노출되지 않도록 격리
- 확장성: 수백 개의 에이전트가 동시에 실행되도 서로 간섭하지 않음
구체적 구현:
- 격리된 Unix 워크스페이스: 각 에이전트별 별도 컨테이너 또는 가상 환경
- 제어된 네트워크出口: 외부 통신 허용/차단 정책
- 자격 증명 분리: API 키, 비밀번호를 모델 외부에 저장하고 필요시만 제공
예시: 코드 생성 에이전트가 rm -rf / 명령어를 실행하려고 해도 샌드박스 내부에서만 실행되므로 실제 시스템에는 영향 없음.
핵심: 샌드박스 없이는 대규모 AI 에이전트 운영이 불가능. 보안 리스크가 너무 큽니다.
⑥ 관찰성 & 거버넌스
"볼 수 없는 것은 신뢰할 수 없음". 데모와 프로덕션의 차이는 관찰성에 있습니다.
구체적 요구사항:
- 모든 단계 추적: 에이전트가 어떤 생각을 했고, 어떤 도구를 호출했는지 기록
- 모든 도구 호출 로깅: 입력, 출력, 실행 시간, 오류 메시지 저장
- Evals를 회귀 테스트로 실행: 새로운 버전이 이전 버전보다 성능이 떨어지지 않았는지 확인
- 최고위험 결정에 인간 투입: 자동화된 결정이 실패할 경우 인간이 개입
예시: 의료 진단 보조 에이전트
- 관찰성: 어떤 증상을 어떤 진단과 연결했는지 전체 이력 추적
- 거버넌스: 최종 진단은 의사가 확인해야 함
- Evals: 새로운 모델 버전이 기존 버전보다 진단 정확도가 떨어지지 않았는지 테스트
핵심: 관찰성이 없으면 AI 시스템은 블랙박스. 오류 발생 시 원인을 추적할 수 없고, 규제 승인을 받을 수 없습니다.
⑦ 비용 & 워크플로우 최적화
7가지 дисциплина = 아키텍처 판단. 가장 중요한 설계 결정입니다.
핵심 질문:
- 결정론적 vs 비결정론적: 어떤 부분은 LLM에 맡기고, 어떤 부분은 규칙 기반 코드로 처리할 것인가?
- 예: 이메일 분류는 규칙 기반(결정론적), 이메일 응답 작성은 LLM(비결정론적)
- 모델 선택: 각 단계에 어떤 모델을 사용할 것인가?
- 최신 모델: 복잡한 추론, 창의적 작업
- 중형 모델: 일반적 텍스트 처리, 분류
- 소형 모델: 단순 분류, 포맷 변환
- 파인튜닝 모델: 도메인 특화 작업
- 지식 저장 위치: 스킬에 넣을 것인가, 메모리에 넣을 것인가?
- 스킬: 재사용 가능한 절차, 워크플로우
- 메모리: 사용자 선호도, 작업 이력, 개인화된 정보
예시: 고객 서비스 에이전트
- 티켓 분류: 소형 모델 (비용 절감)
- 응답 초안 작성: 중형 모델
- 복잡한 문제 해결: 최신 모델 + 인간 에스컬레이션
핵심: 비용 최적화가 AI 시스템의 생존을 결정. 모든 작업에 최신 모델을 사용하면 비용이 감당할 수 없습니다.
새로운 시각
"하니스" 메타포의 깊이
Tomasz가 "하니스"를 사용한 것은 단순한 비유가 아닙니다. 머스탱을驾驭하려면:
- 배ridge(안장): AI가 작동할 프레임워크
- 줄: AI의 행동을 제어하는 메커니즘
- 마구: AI의 출력을 방향지을 도구
이 세 가지가 없으면 머스탱은 탈출합니다. AI도 동일합니다.
7가지 구성 요소의 상호 의존성
각 구성 요소가 독립적으로 작동하지 않습니다:
- 컨텍스트가 잘못되면 도구 호출이 잘못됨
- 관찰성이 없으면 비용 최적화가 불가능 (어디가 비싼지 모름)
- 샌드박스가 없으면 거버넌스가 무의미 (보안 위반을 감지할 수 없음)
"프로덕션 준비"의 기준
데모 vs 프로덕션의 차이:
- 데모: 5분 실행, 단일 작업, 관찰성 없음
- 프로덕션: 5시간 실행, 다중 작업, 완전한 관찰성, 지속성, 샌드박스
대부분의 AI 데모가 프로덕션에서 실패하는 이유: 지속성과 관찰성 부재.
미래 영향
개발 조직에 주는 교훈
- AI 에이전트 개발자는 아키텍트가 되어야 함: 단순히 LLM API를 호출하는 것이 아니라, 7가지 구성 요소를 설계해야 함
- 관찰성이 먼저: 기능 개발 전에 로깅, 추적, evals 인프라 구축
- 비용 최적화가 설계의 일부: 모델 선택, 결정론적/비결정론적 분리가 초기 설계 결정
자녀 교육 시사점
- 시스템 사고 능력: 개별 구성 요소가 아니라 전체 시스템을 이해하는 능력
- 비용 의식: 기술 선택이 비용에 미치는 영향 이해
- 보안 사고: 샌드박스, 격리, 자격 증명 관리의 중요성
의료 AI 연결
- 컨텍스트 & 메모리: 환자의 이전 검사 결과, 약물 이력, 가족력 통합
- 관찰성 & 거버넌스: 진단 결정의 전체 이력 추적, 규제 승인 필요
- 샌드박스: 환자 데이터 격리, HIPAA 준수
관련 링크
키워드
#AI아키텍처 #에이전트하니스 #소프트웨어공학 #AI시대의개발 #관찰성 #샌드박스 #비용최적화