Unlimited OCR — Baidu의 원샷 장문 파싱 모델

2026-06-24 · 2026-06-24_unlimited-ocr-baidu-reference-sliding-window-attention.md

#AI #OCR #Computer Vision #Baidu #DeepSeek #Attention Mechanism #Medical Records #Education

원문 출처

Unlimited OCR — Baidu의 원샷 장문 파싱 모델

한 줄 요약

바이두(Baidu)가 제안한 'Unlimited OCR'은 인간의 작업 기억(Working Memory)을 모사한 '참조 슬라이딩 윈도우 어텐션(R-SWA)'을 통해, 수십 페이지의 문서를 메모리 과부하 없이 단 한 번의 순전파로 정밀하게 파싱하는 혁신적인 아키텍처입니다.

원문 핵심 내용

작동 원리: 인간의 '작업 기억'을 모사한 R-SWA

기존의 대형 언어 모델(LLM) 기반 OCR은 문서를 읽을수록 '기억(KV 캐시)'이 무한히 늘어나 GPU 메모리를 폭발시키고 속도를 저하시킵니다. 바이두의 Unlimited OCR은 이를 해결하기 위해 Reference Sliding Window Attention (R-SWA, 참조 슬라이딩 윈도우 어텐션)이라는 새로운 메커니즘을 도입했습니다.

이 개념은 인간이 책을 베껴 쓸 때의 모습과 유사합니다. 인간은 이미 쓴 전체 텍스트를 매 순간 다시 훑어보지 않습니다. 대신, 현재 보고 있는 그림(시각 토큰)과 직전 몇 단어(인접 문맥)만 집중적으로 참조하며 글을 씁니다.

전체 참조(Global Reference): 모델은 이미지 전체의 시각적 특징(시각 토큰)과 프롬프트는 항상 참조할 수 있습니다.
슬라이딩 윈도우(Local Context): 생성되는 텍스트(출력)는 직전 128개 토큰(ngram_window)만 기억합니다. 더 오래된 텍스트는 '잊혀집니다'.

이처럼 '고정된 참조 대상'과 '유동적인 최근 기억'을 분리함으로써, 문서가 10페이지든 100페이지든 GPU 메모리 사용량은 일정하게 유지됩니다. 이는 기존 방식의 선형 증가($O(T)$)를 상수 시간($O(1)$)으로 낮춘 혁명적인 효율성 개선입니다.

아키텍처: DeepEncoder와 MoE의 결합

Unlimited OCR은 단순히 어텐션 메커니즘만 바꾼 것이 아니라, 효율적인 인코딩 구조를 갖추고 있습니다.

DeepEncoder: SAM-ViT와 CLIP-ViT를 결합한 인코더로, 고해상도 이미지를 효율적으로 처리합니다. 특히 '16배 토큰 압축' 기술을 통해 1024x1024 크기의 PDF 이미지를 단 256개의 토큰으로 압축합니다. 이는 GPU 메모리를 크게 절약하면서도 세부 정보를 잃지 않는 핵심 기술입니다.
MoE 디코더: 총 30억 개의 파라미터 중 실제 추론 시에는 5억 개(500M)만 활성화되는 혼합 전문가(Mixture of Experts) 모델을 사용합니다. 이는 빠른 추론 속도와 낮은 연산 비용을 동시에 달성하게 합니다.
두 가지 모드:

Gundam Mode: 단일 페이지용. 동적 해상도와 크롭(Crop) 모드를 사용해 정밀도를 높입니다.
Base Mode: 멀티 페이지/PDF용. 고정된 1024x1024 해상도로 일관된 파싱을 수행합니다.

성능과 효율성: '공짜 점심' 같은 개선

OmniDocBench v1.6 벤치마크에서 Unlimited OCR은 93.92%의 점수로 기존 최첨단(SOTA) 모델을 압도했습니다. DeepSeek OCR 대비 텍스트 편집 거리(오류율)가 0.035 감소하고, 표 구조 인식(TEDS)이 5.96% 향상되었습니다.

가장 인상적인 것은 추론 속도의 안정성입니다.

기존 DeepSeek OCR은 출력 길이가 늘어날수록 생성 속도(TPS)가 급격히 떨어집니다(6,000 토큰에서 35% 느려짐).
Unlimited OCR은 R-SWA 덕분에 출력 길이에 관계없이 5,580 TPS의 일정한 속도를 유지합니다.
메모리 사용량 또한 고정되어 있어, 40페이지 이상의 장문에서도 시스템이 멈추지 않고 안정적으로 동작합니다.

한계와 미래 방향

현재 Unlimited OCR은 최대 32,768개의 토큰(약 40~50페이지 수준)까지 한 번에 처리할 수 있습니다. 이는 진정한 '무제한'은 아닙니다. 연구진은 장기적으로 'Prefill Pool'을 구축하여, 인간이 페이지를 넘기듯 모델이 필요한 부분의 기억(KV 청크)만 자동으로 불러오도록 하는 방향으로 진화할 계획입니다. 또한 이 R-SWA 기술은 음성 인식(ASR)이나 번역 등 다른 장문 참조 작업에도 적용될 수 있는 범용 솔루션으로 평가받습니다.

Hacker News 커뮤니티 반응

댓글 처리 기록: HN 댓글 1chunks를 읽음. 기술적 검증, 실무痛点, 윤리적 함의, 부수적 논쟁 포함.

① "OCR은 이미 해결됐다"는 신화 vs 비영어권의 현실

주장: 전통적인 OCR 엔진(Tesseract 등)은 인쇄된 영문 문서에서는 이미 충분히 정확하며, LLM을 사용해 OCR을 재구축하는 것은 과잉 투자라는 의견이 있었습니다.
근거: [Oras]는 "OCR은 오래전에 해결된 문제"라고 주장하며, 신뢰성과 일관성 측면에서 전통적 도구가 우수함을 강조했습니다.
반론/대댓글: [ta988]과 [j16sdiz]는 비영어권(CJK, 아랍어, 태국어 등)이나 복잡한 레이아웃(신문, 잡지)에서는 전통적 OCR이 실패함을 지적했습니다. 특히 [j16sdiz]는 "고혼동률(High confusion rate)과 복잡한 형태소 문제로 인해 LLM 기반의 문맥 이해력이 필수적"이라고 반박했습니다.
내 판단: 'OCR이 해결됐다'는 주장은 서구 중심의 시각입니다. 한국어, 일본어, 중국어처럼 자음-모음 결합이나 한자 혼용이 복잡한 언어, 그리고 표나 수식이 섞인 학술/의료 문서에서는 여전히 LLM 기반 파싱이 우위입니다.

② 환각(Hallucination)과 역사적 정확성의 충돌

주장: AI가 문맥을 이해하다 보니, 실제 텍스트가 아닌 '추측'을 추가하거나 철자를 수정하여 원본의 가치를 훼손할 수 있다는 우려입니다.
근거: [pmarreck]은 AI가 존재하지 않는 아티팩트를 생성하거나 다른 언어를 영어로 자동 번역해 문맥을 망가뜨린 사례를 들었습니다. [pbhjpbhj]는 인구 조사 문서에서 "Josepth"를 "Joseph"으로, "Joh"를 "John"으로 수정하는 것이 역사적 변형 철자를 파괴할 수 있다고 경고했습니다.
반론/대댓글: [SyneRyder]는 Claude Sonnet 4.x가 아버지의 필기 원고를 완벽하게 전사했을 뿐만 아니라, 스토리의 연속성 오류(Continuity error)까지 지적해준 사례를 들어 AI의 문맥 이해력이 오히려 정확도를 높일 수 있음을 보였습니다.
내 판단: 의료 기록이나 법적 문서에서는 '원문 충실도'가 생명입니다. AI가 '의미'를 이해하려다 오히려 '사실'을 왜곡하면 치명적입니다. 따라서 Unlimited OCR처럼 '참조'에 집중하고 '추측'을 최소화하는 R-SWA 방식은 환각 위험을 줄이는 구조적 장점이 있습니다.

③ 실무자의 도구 비교와 '슬라이싱' 전략

주장: 실제 업무에서는 단일 모델보다 여러 도구를 조합하거나 이미지를 잘라내는(Slicing) 전략이 더 효과적일 수 있습니다.
근거: [ljouhet]은 Marker, Mistral OCR, Azure Textract 등을 비교하며, Textract는 비싸고 실패 모드가 예측 불가능하다고 비판했습니다. [MattRogish]는 큰 이미지를 작은 조각으로 나누어 LLM에 전송한 후 JSON으로 재구성하는 워크플로우가 "매번 완벽하다"고 증언했습니다.
반론/대댓글: [freefaler]는 스캔 품질이 나쁘거나 라벨/값 쌍이 복잡한 문서에서는 슬라이싱 방식이 문맥을 잃어 실패할 수 있다고 반박했습니다.
내 판단: Unlimited OCR의 강점은 '단일 패스'로 장문을 처리한다는 점입니다. 슬라이싱은 전처리 비용이 들고 문맥 단절 위험이 있지만, Unlimited OCR은 R-SWA로 인해 문맥을 유지하면서도 메모리를 절약하므로, 슬라이싱 없이 원본 PDF를 그대로 넣어도 효율적입니다.

④ 오픈소스 공개의 전략적 동기

주장: 바이두와 같은 중국 기업이 고성능 모델을 오픈소스화하는 것은 단순한 이타심이 아닌 전략적 목적입니다.
근거: [SirYandi]는 내부 직원의 이상주의, 고용 파이프라인 명성, 경쟁사 교란 전략을 꼽았습니다. [jerrygenser]는 "미국 AI 연구소의 수익을 잠식하여 중국의 장기적 AI 경쟁 우위를 확보하려는 것"이라고 분석했습니다.
내 판단: 기술적 우위를 오픈소스로 퍼뜨려 표준을 선점하는 전략입니다. 개발자들이 Unlimited OCR을 채택하면, 바이두의 생태계(예: PaddleOCR 기반 데이터 파이프라인)에 의존도가 높아질 수 있습니다.

⑤ 광학 악보 인식(OMR)의 초록빛(Greenfield) 시장

주장: OCR 기술이 발전했음에도 악보 인식(OMR)은 여전히 미개척 분야입니다.
근거: [peatmoss]는 악보 인식에서 MIDI는 연주용이고, MusicXML은 악기 표기 정보가 부족하며, Lilypond는 사용자층이 적다고 지적했습니다. [kwon-young]은 MEI 형식과 Verovio를 사용해 SVG 기반 데이터셋을 생성해야 한다고 제안했습니다.
내 판단: 의료 분야에서도 악보 인식과 유사한 '구조화된 시각 정보'(예: 방사선 사진, 내시경 이미지)의 텍스트화 문제는 여전히 난제입니다. R-SWA가 OMR에도 적용된다면, 의료 이미지의 정밀한 구조적 파싱에도 영감을 줄 수 있습니다.

⑥ R-SWA의 장기 대화(Long-running Conversation) 적용 가능성

주장: R-SWA 기법은 LLM의 장기 기억 관리에도 적용될 수 있습니다.
근거: [_puk]은 R-SWA가 장기 사실과 단기 사실을 구분하는 데 유용할 수 있다고 제안했습니다.
반론/대댓글: [ewild]는 이는 Transformer에 LSTM을 추가하는 것과 유사하다고 비판했고, [dominotw]는 표준 컴팩션(Compaction)이 장기/단기 사실을 구분하지 못한다는 점을 지적하며 R-SWA의 차별성을 인정했습니다.
내 판단: 의료 기록처럼 수십 년간 축적되는 환자 데이터에서 '최근 증상'과 '과거 병력'을 효율적으로 참조하는 데 R-SWA 아이디어가 활용될 수 있습니다.

새로운 시각

1. '기억의 경제학': 잊어야 하는 이유

기존 AI 연구는 '기억을 더 많이, 더 오래' 유지하는 것을 목표로 했습니다. 하지만 Unlimited OCR은 '战略性遗忘(Strategic Forgetting, 전략적 망각)'이 효율성의 핵심임을 보여줍니다. 인간이 모든 과거를 기억하지 않고도 복잡한 작업을 수행할 수 있는 것처럼, AI도 불필요한 과거 컨텍스트를 과감히 버림으로써 실시간 성능을 확보할 수 있습니다. 이는 단순한 최적화를 넘어, 지능의 본질에 대한 새로운 정의(기억의 질 > 양)를 제시합니다.

2. 의료 기록의 '실시간 파싱' 가능성

현재 의료 AI는 대부분의 경우 '사후 분석'에 그칩니다. 하지만 R-SWA와 같은 효율적 아키텍처가 보편화되면, 수술 중 내시경 영상이나 실시간 생체 신호를 텍스트/구조화된 데이터로 즉시 변환하는 것이 가능해질 수 있습니다. 예를 들어, 위내시경 중 발견된 병변의 위치, 크기, 형태를 실시간으로 구조화하여 기록에 반영한다면, 의사의 업무 부담이 크게 줄어들고 진단의 정확도가 높아질 것입니다.

3. 오픈소스의 '표준화' 힘

바이두가 Unlimited OCR을 오픈소스화한 것은 단순한 기술 공유가 아닙니다. 이는 장문 파싱의 새로운 표준(R-SWA)을 제시하여, 향후 OCR 관련 벤치마크와 평가 지표가 이 구조에 맞춰 재편되도록 유도하는 전략입니다. 서구의 폐쇄적 모델들과 달리, 중국 기업들이 오픈소스를 통해 기술적 패러다임을 주도하려는 시도는 주목할 만합니다.

자녀와 미래에 대한 시사점

1. '기억'보다 '참조'가 중요한 시대가 온다

미래의 교육은 '많은 것을 암기하는 것'보다 '필요한 정보를 빠르게 찾고 참조하는 능력'이 더 중요해질 것입니다. Unlimited OCR이 보여주듯, 인간의 인지 능력도 '모든 것을 기억'하려 애쓰기보다 '필요할 때만 참조'하는 전략을 훈련시켜야 합니다. 자녀들에게는 정보의 홍수 속에서 핵심을 빠르게 찾아내고, 불필요한 정보는 과감히 잊는 '인지적 효율성'을 기르는 것이 중요합니다.

2. 구조화된 데이터의 가치 재발견

AI가 문서를 쉽게 파싱할 수 있게 되면서, 비정형 데이터(이미지, PDF)와 정형 데이터(텍스트, 코드)의 경계가 무너집니다. 미래의 인재는 단순히 글을 읽는 것을 넘어, 다양한 형식의 정보를 구조화하고 연결하는 능력을 가져야 합니다. 예를 들어, 의료 기록, 연구 논문, 법적 문서 등을 하나의 통합된 지식 그래프로 연결하는 능력이 경쟁력이 될 것입니다.

3. 의료 분야의 함의: 정밀함과 인간성

의료 종사자로서, AI가 문서를 완벽하게 파싱할 수 있게 되면, 의사의 역할은 '기록'에서 '판단'과 '공감'으로 이동할 것입니다. Unlimited OCR처럼 정확하고 빠른 도구들을 활용하여 번거로운 문서 작업을 자동화하고, 대신 환자과의 소통과 진단의 질에 더 많은 시간을 할애하는 것이 미래 의료의 핵심 가치입니다. 자녀들에게도 기술의 효율성을 인정하되, 그 기술이 인간의 공감과 윤리적 판단을 대체할 수 없다는 점을 강조해야 합니다.