BigSet: 자연어 명령으로 웹의 모든 데이터를 구조화하는 실험적 도구

2026-06-23 · 2026-06-23_bigset-natural-language-web-data-structuring.md

#AI-Agent #Data-Engineering #Web-Scraping #Future-of-Work #Medical-Data

원문 출처

BigSet: 자연어 명령으로 웹의 모든 데이터를 구조화하는 실험적 도구

한 줄 요약

BigSet은 자연어 문장 하나로 웹 상의 산재된 정보를 자동 수집·검증·정제하여 구조화된 데이터셋(CSV/XLSX)을 생성하고 주기적으로 갱신해주는 오픈소스 AI 에이전트 플랫폼으로, '데이터 수집 프로젝트'를 '단일 명령어'로 축약한다.

원문 핵심 내용

작동 원리: 오케스트레이터와 서브 에이전트의 협업 구조

BigSet의 핵심은 복잡한 데이터 파이프라인을 사용자가 직접 짜지 않아도 되도록 하는 '자율 에이전트(Autonomous Agent)' 시스템이다. 사용자는 "현재 엔지니어를 채용 중인 YC 기업 목록과 투자 단계, 위치, 공개 채용 수"와 같은 자연어 문장만 입력하면 된다. 이때 시스템은 다음과 같은 4단계 프로세스를 자동으로 실행한다.

스키마 추론(Schema Inference): 입력된 문장에서 필요한 컬럼명(예: 기업명, 투자 단계), 데이터 타입, 기본 키, 그리고 웹 어디에서 해당 정보를 찾아야 하는지(검색 쿼리)를 자동으로 설계한다.
엔티티 발견(Entity Discovery): 오케스트레이터 에이전트가 웹 검색을 통해 관련 대상(예: 특정 스타트업들)을 찾는다.
병렬 조사(Parallel Investigation): 발견된 각 엔티티(기업)마다 서브 에이전트가 분산되어 동시에 작동한다. 각 에이전트는 해당 기업의 실제 웹페이지를 방문하여 데이터를 가져오고, 출처와 대조하여 검증한 후 중복을 제거한다.
정제 및 출력: 검증된 데이터를 구조화된 테이블로 만들고, UI에서 탐색하거나 CSV/XLSX로 다운로드할 수 있게 한다.

이 과정은 단순한 스크래핑이 아니다. 기존 도구들은 URL을 지정해야 하거나 특정 사이트용 액터(Actor)를 만들어야 했지만, BigSet은 검색, 추출, 스키마 설계, 검증, 크론 작업(Cron Job)을 하나의 흐름으로 통합한다.

구체적 수치와 기술 스택

BigSet은 실험 단계(Experimental)이지만 이미 구체적인 성능과 아키텍처를 갖추고 있다.

생성 시간: 데이터셋 생성에 보통 2~5분이 소요된다. 이는 AI가 실제 웹 검색과 페이지 페칭, 데이터 검증을 수행하기 때문으로, 즉시는 아니지만 '실제 데이터'를 보장한다.
갱신 주기(Cadence): 30분, 6시간, 12시간, 일간, 주간 등 설정 가능한 주기마다 에이전트가 재실행되어 데이터가陳舊(stale)해지는 것을 방지한다.
기술 스택:
프론트엔드: Next.js 16, React 19, Tailwind 4
백엔드: Fastify, TypeScript (에이전트 러너)
데이터베이스: Convex (Self-hosted) — 실시간 동기화와 상태 관리에 강점
AI 오케스트레이션: Mastra 워크플로 + Vercel AI SDK + OpenRouter → Claude Sonnet (스키마 추론 및 Populate 에이전트 역할)
데이터 수집: TinyFish API (Search, Fetch, Browser)
사용량 한계: 무료 클라우드 계정은 월 2,500 행(Row) 연산 제한이 있으나, 로컬 모드(Local Mode)에서는 사용자의 TinyFish/OpenRouter 계정을 직접 사용하여 이 제한을 우회할 수 있다.

트레이드오프와 현재 한계

BigSet은 강력한 잠재력에도 불구하고 명확한 한계를 가지고 있으며, 이는 사용자가 인지해야 할 중요한 부분이다.

공개 데이터만 가능: 로그인이나 유료 벽(Paywall) 뒤에 있는 데이터는 접근할 수 없다. 웹상에 공개적으로 존재하는 정보에만 국한된다.
스키마 추론의 불완전성: AI가 설계하는 스키마가 항상 완벽하지는 않다. 복잡한 요구사항일수록 초기 설정에서 조정이 필요할 수 있다.
쿼리(Query) 기능 부재: 현재는 데이터를 다운로드(Export)하는 데 최적화되어 있으며, SQL을 통한 실시간 쿼리 지원은 로드맵(Roadmap)에 있는 기능이다. 즉, '데이터 웨어하우스'라기보다 '고급 데이터 수집기'에 가깝다.
실험적 성격: "거친 모서리(Rough edges)"가 있을 수 있으며, 버그 발생이나 변경 사항이 빈번할 수 있음을 명시하고 있다.

새로운 시각

데이터 수집의 '민주화'와 '재전문가화'

BigSet은 데이터 엔지니어링의 진입 장벽을 무너뜨린다. 과거에는 SQL, Python, 스크래핑 라이브러리를 알아야 데이터를 수집할 수 있었지만, 이제 '자연어'만 알면 된다. 이는 데이터 수집의 '민주화'처럼 들리지만, 역설적으로 '데이터 해석'의 중요성을 부각시킨다. 누구나 데이터를 쉽게 얻을 수 있게 되면서, '어떤 질문을 던질지'와 '얻은 데이터가 무엇을 의미하는지'를 판단하는 능력이 새로운 핵심 역량이 된다. 즉, 데이터 수집자는 사라지고 '데이터 질문자(Data Questioner)'가 등장한다.

'살아있는 데이터셋(Living Dataset)'의 패러다임 전환

기존 데이터 분석은 '스냅샷(Snapshot)'에 기반했다. 특정 시점의 데이터를 추출하여 분석하고, 다음 분석 시 다시 추출했다. 하지만 BigSet은 '갱신 주기'를 설정함으로써 데이터를 '살아있는(Living)' 상태로 유지한다. 이는 의사결정 프로세스를 '정기적 검토'에서 '실시간 모니터링'으로 전환시킨다. 예를 들어, 의료 정책 변화나 신약 가격 변동을 실시간으로 추적하는 데이터셋은, 과거의 정적 보고서보다 훨씬 강력한 의사결정 지원 도구가 된다.

AI 에이전트의 '외부 감각'으로서의 웹

BigSet은 AI 에이전트가 웹을 '검색 엔진'이 아닌 '데이터베이스'로 인식하게 한다. 기존 AI는 검색 결과를 텍스트로 읽었지만, BigSet은 웹을 구조화된 테이블로 변환하여 AI가 직접 처리할 수 있는 형태로 제공한다. 이는 AI 에이전트가 더 복잡한 추론과 분석을 수행할 수 있는 기반이 된다. 웹이 단순한 정보의 저장소를 넘어, AI의 '기억'과 '지식'을 지속적으로 업데이트하는 외부 하드디스크 역할을 하게 되는 것이다.

자녀와 미래에 대한 시사점

① 어린 다음세대에게 올 세상: '데이터 리터러시'의 재정의

미래의 아이들은 '데이터를 수집하는 법'보다 '데이터를 질문하는 법'과 '데이터의 출처를 검증하는 법'을 배워야 한다. BigSet 같은 도구가 보편화되면, 데이터 자체는 값싸고 풍부해질 것이다. 따라서 중요한 역량은 코딩 능력이 아니라, '어떤 데이터가 필요한지 정의하는 능력'과 'AI가 가져온 데이터의 신뢰성을 비판적으로 평가하는 능력'이다. 학교 교육에서도 단순한 데이터 입력이 아닌, 데이터의 맥락과 윤리를 다루는 과목이 강화되어야 할 것이다.

② 무엇을 가르치고 준비시킬지: 비판적 사고와 윤리적 판단

아이들에게는 '기술적 도구 사용법'보다 '윤리적 판단력'을 가르쳐야 한다. BigSet이 공개 데이터를 수집한다고 해서 모든 데이터가 사용해도 되는 것은 아니다. 개인정보 보호, 저작권, 그리고 데이터 수집이 웹 생태계에 미치는 영향에 대한 이해가 필요하다. 또한, AI가 생성한 데이터에 맹목적으로 신뢰하지 않고, 항상 '출처(Source)'를 확인하는 습관을 들이게 해야 한다. 이는 디지털 시민으로서의 기본 소양이 될 것이다.

③ 사용자의 의료 분야 함의: 문헌 조사와 시장 감시의 자동화

소화기·내시경·종양학 분야 종사자로서, BigSet은 다음과 같은 활용이 가능하다.

최신 연구 동향 추적: "최근 1년 간 대장암 면역치료제에 대한 메타분석 논문"과 같은 데이터셋을 자동으로 갱신받아, 문헌 조사 시간을 대폭 단축할 수 있다.
의료 기기 및 시약 시장 분석: 내시경 장비나 생검 키트의 가격, 재고, 공급사 정보를 실시간으로 모니터링하여, 병원 조달 과정에서의 효율성을 높일 수 있다.
주의사항: 임상 진단이나 환자 치료에 직접 사용되는 데이터는 절대 BigSet 같은 실험적 AI 도구를 통해 수집해서는 안 된다. 오직 '연구 지원' 및 '정보 수집' 목적으로만 제한적으로 사용해야 하며, 모든 데이터는 수동으로 이중 검증해야 한다.