소프트웨어 이후 AI — Tomasz Tunguz (Theory Ventures)

2026-06-01 · 2026-06-01_software-after-ai-tunguz.md

#reflection #ai #software-engineering #ai-agents

원문 출처

소프트웨어 이후 AI — Tomasz Tunguz (Theory Ventures)

개요

  • 출처: tomtunguz.com, 2026.05.27
  • 저자: Tomasz Tunguz — Theory Ventures VC, 15만+ 창업가 구독, Bloomberg/WSJ/Economist 인용
  • 주제: AI 시대의 에이전트 아키텍처 — 7가지 하니스 구성 요소
  • 분류: AI 아키텍처, 소프트웨어 공학, 조직 설계

내용 분석

서론: 소프트웨어 시대의 끝, 하니스 시대의 시작

Tomasz Tunguz는 AI가 SaaS, 관리형 데이터베이스, 고정 워크플로우를 outdated하게 만들었다고 진단합니다. 핵심 메타포: AI는 머스탱(야생마)처럼 강력하지만 야생적이다. Harnessing(마구장 장비 장착) = 가축화.

과거 소프트웨어는 "인간의 작업을 코드로 정의"했지만, AI 시대는 "AI를 제어하는 시스템을 정의"해야 합니다. 이것이 하니스(Harness)의 본질입니다.

7가지 AI 에이전트 하니스 구성 요소

① 컨텍스트 & 메모리

일반 목적 LLM은 모든 분야에 대해 평균적인 지식을 가지고 있지만, 전문 분야에서는 맞춤형 컨텍스트가 필요합니다.

예시: 방사선과 의사가 폐 CT 영상을 분석할 때 필요한 컨텍스트(폐암 분류 기준, 이전 검사 결과, 약물 이력)와 법률 보조원이 계약서를 검토할 때 필요한 컨텍스트(관련 판례, 계약 조항, 당사자 이력)은 완전히 다릅니다.

핵심: 도메인별 맞춤형 검색 시스템이 필요합니다. 단순히 "더 많은 데이터"가 아니라 "올바른 데이터"를 올바른 시점에 제공해야 합니다.

구현 예:

  • 의사의 경우: 전자 건강 기록(EHR)과 연계된 벡터 데이터베이스
  • 법률의 경우: 판례 데이터베이스와 계약 템플릿 라이브러리
  • 공통: 사용자의 이전 세션, 선호도, 작업 이력을 메모리로 유지

② 도구 & 행동

도구는 에이전트가 외부 세계에 실제로 영향을 미치는 수단입니다. 컨텍스트 데이터베이스의 레시피가 "무엇을 할지"를 정의한다면, 도구는 "실제로 그것을 수행하는 재료와 용기"입니다.

구체적 예시:

  • 코드 생성 에이전트: 파일 읽기/쓰기, 터미널 명령어 실행, git 커밋
  • 고객 서비스 에이전트: 티켓 생성, 이메일 발송, 데이터베이스 조회
  • 연구 에이전트: 논문 검색, 데이터 다운로드, 차트 생성

핵심: 도구의 설계가 에이전트의 능력을 결정. 잘못된 도구를 제공하면 LLM이 아무리 뛰어나도 결과를 내지 못합니다.

③ 오케스트레이션 & 루프

에이전트 루프의 기본 구조: 생각 → 행동 → 관찰 → 반복.

구체적 작동 방식:

  1. 계획: 복잡한 작업을 작은 단계로 분해
  2. 실행: 각 단계를 순차적으로 또는 병렬로 수행
  3. 관찰: 결과 확인, 오류 감지
  4. 재시도: 실패 시 다른 전략으로 재도전
  5. 종료: 목표 달성 또는 최대 시도 횟수 도달 시 종료

예시: "논문 10개 요약하고 비교 보고서 작성" 작업

  • 계획: 논문 검색 → 다운로드 → 각 논문 요약 → 공통점/차이점 추출 → 보고서 작성
  • 서브 에이전트: 검색 에이전트, 요약 에이전트, 분석 에이전트 분리
  • 종료 조건: 10개 논문 모두 처리 완료 또는 시간 초과

핵심: 오케스트레이션이 에이전트의 지능을 결정. 단순히 LLM을 호출하는 것과 복잡한 작업을 성공적으로 완료하는 것의 차이는 오케스트레이션 설계에 있습니다.

④ 상태 & 지속성

대규모 기업 시스템에서 가장 중요한 요소 중 하나. 10단계 작업 중 7단계에서 충돌 시, 8단계에서 재개해야 하지 0에서 재시작하면 안 됩니다.

구체적 메커니즘:

  • 체크포인트: 각 단계 완료 시 상태 저장
  • 세션 스레드: 대화 이력 유지
  • 아티팩트 저장소: 생성된 파일, 코드, 데이터 보관
  • 파일 시스템: 중간 결과물 영구 저장

실제 시나리오:

  • 에이전트가 5시간 동안 실행 중인 데이터 분석 작업 중 서버 다운
  • 체크포인트가 있으면: 마지막 완료 단계(예: 7/10)에서 재개 → 3시간 추가 소요
  • 체크포인트가 없으면: 0부터 재시작 → 5시간 다시 소요

핵심: 지속성이 없으면 AI 에이전트는 프로덕션에서 사용 불가. 데모는 5분이지만 실제 작업은 5시간일 수 있습니다.

⑤ 샌드박스 & 컴퓨트

각 에이전트는 격리된 작업 공간이 필요합니다. 왜냐하면:

  1. 보안: 에이전트가 악의적 코드를 실행하거나 민감한 데이터에 접근하는 것을 방지
  2. 기밀: 고객 A의 데이터가 고객 B의 에이전트에게 노출되지 않도록 격리
  3. 확장성: 수백 개의 에이전트가 동시에 실행되도 서로 간섭하지 않음

구체적 구현:

  • 격리된 Unix 워크스페이스: 각 에이전트별 별도 컨테이너 또는 가상 환경
  • 제어된 네트워크出口: 외부 통신 허용/차단 정책
  • 자격 증명 분리: API 키, 비밀번호를 모델 외부에 저장하고 필요시만 제공

예시: 코드 생성 에이전트가 rm -rf / 명령어를 실행하려고 해도 샌드박스 내부에서만 실행되므로 실제 시스템에는 영향 없음.

핵심: 샌드박스 없이는 대규모 AI 에이전트 운영이 불가능. 보안 리스크가 너무 큽니다.

⑥ 관찰성 & 거버넌스

"볼 수 없는 것은 신뢰할 수 없음". 데모와 프로덕션의 차이는 관찰성에 있습니다.

구체적 요구사항:

  • 모든 단계 추적: 에이전트가 어떤 생각을 했고, 어떤 도구를 호출했는지 기록
  • 모든 도구 호출 로깅: 입력, 출력, 실행 시간, 오류 메시지 저장
  • Evals를 회귀 테스트로 실행: 새로운 버전이 이전 버전보다 성능이 떨어지지 않았는지 확인
  • 최고위험 결정에 인간 투입: 자동화된 결정이 실패할 경우 인간이 개입

예시: 의료 진단 보조 에이전트

  • 관찰성: 어떤 증상을 어떤 진단과 연결했는지 전체 이력 추적
  • 거버넌스: 최종 진단은 의사가 확인해야 함
  • Evals: 새로운 모델 버전이 기존 버전보다 진단 정확도가 떨어지지 않았는지 테스트

핵심: 관찰성이 없으면 AI 시스템은 블랙박스. 오류 발생 시 원인을 추적할 수 없고, 규제 승인을 받을 수 없습니다.

⑦ 비용 & 워크플로우 최적화

7가지 дисциплина = 아키텍처 판단. 가장 중요한 설계 결정입니다.

핵심 질문:

  1. 결정론적 vs 비결정론적: 어떤 부분은 LLM에 맡기고, 어떤 부분은 규칙 기반 코드로 처리할 것인가?
  • 예: 이메일 분류는 규칙 기반(결정론적), 이메일 응답 작성은 LLM(비결정론적)
  1. 모델 선택: 각 단계에 어떤 모델을 사용할 것인가?
  • 최신 모델: 복잡한 추론, 창의적 작업
  • 중형 모델: 일반적 텍스트 처리, 분류
  • 소형 모델: 단순 분류, 포맷 변환
  • 파인튜닝 모델: 도메인 특화 작업
  1. 지식 저장 위치: 스킬에 넣을 것인가, 메모리에 넣을 것인가?
  • 스킬: 재사용 가능한 절차, 워크플로우
  • 메모리: 사용자 선호도, 작업 이력, 개인화된 정보

예시: 고객 서비스 에이전트

  • 티켓 분류: 소형 모델 (비용 절감)
  • 응답 초안 작성: 중형 모델
  • 복잡한 문제 해결: 최신 모델 + 인간 에스컬레이션

핵심: 비용 최적화가 AI 시스템의 생존을 결정. 모든 작업에 최신 모델을 사용하면 비용이 감당할 수 없습니다.

새로운 시각

"하니스" 메타포의 깊이

Tomasz가 "하니스"를 사용한 것은 단순한 비유가 아닙니다. 머스탱을驾驭하려면:

  1. 배ridge(안장): AI가 작동할 프레임워크
  2. : AI의 행동을 제어하는 메커니즘
  3. 마구: AI의 출력을 방향지을 도구

이 세 가지가 없으면 머스탱은 탈출합니다. AI도 동일합니다.

7가지 구성 요소의 상호 의존성

각 구성 요소가 독립적으로 작동하지 않습니다:

  • 컨텍스트가 잘못되면 도구 호출이 잘못됨
  • 관찰성이 없으면 비용 최적화가 불가능 (어디가 비싼지 모름)
  • 샌드박스가 없으면 거버넌스가 무의미 (보안 위반을 감지할 수 없음)

"프로덕션 준비"의 기준

데모 vs 프로덕션의 차이:

  • 데모: 5분 실행, 단일 작업, 관찰성 없음
  • 프로덕션: 5시간 실행, 다중 작업, 완전한 관찰성, 지속성, 샌드박스

대부분의 AI 데모가 프로덕션에서 실패하는 이유: 지속성과 관찰성 부재.

미래 영향

개발 조직에 주는 교훈

  1. AI 에이전트 개발자는 아키텍트가 되어야 함: 단순히 LLM API를 호출하는 것이 아니라, 7가지 구성 요소를 설계해야 함
  2. 관찰성이 먼저: 기능 개발 전에 로깅, 추적, evals 인프라 구축
  3. 비용 최적화가 설계의 일부: 모델 선택, 결정론적/비결정론적 분리가 초기 설계 결정

자녀 교육 시사점

  • 시스템 사고 능력: 개별 구성 요소가 아니라 전체 시스템을 이해하는 능력
  • 비용 의식: 기술 선택이 비용에 미치는 영향 이해
  • 보안 사고: 샌드박스, 격리, 자격 증명 관리의 중요성

의료 AI 연결

  • 컨텍스트 & 메모리: 환자의 이전 검사 결과, 약물 이력, 가족력 통합
  • 관찰성 & 거버넌스: 진단 결정의 전체 이력 추적, 규제 승인 필요
  • 샌드박스: 환자 데이터 격리, HIPAA 준수

관련 링크

키워드

#AI아키텍처 #에이전트하니스 #소프트웨어공학 #AI시대의개발 #관찰성 #샌드박스 #비용최적화

관련 노트