제주 방언 ↔ 표준어 번역 모델 (88M 파라미터) — 저자원 방언 보존의 기초 인프라

2026-06-08 · 2026-06-08_jeju-dialect-translator-88m.md

#jeju-dialect #NLP #low-resource-language #translation #AI #cultural-preservation #LLM

원문 출처

제주 방언 ↔ 표준어 번역 모델 (88M 파라미터) — 풀 분석

작성자: PCN R&S LLM 팀 (PyTorchKR 커뮤니티) 게재일: 2026-06-08 출처: discuss.pytorch.kr 모델: HuggingFace postcn/Jeju-Standard_Korean_Translator

이 글이 나온 배경

제주어(Jejueo)는 2010년 유네스코가 지정한 "심각한 소멸 위기 언어(critically endangered)"입니다. 인도 남부 코로어와 함께 등록되었습니다. 제주어는 표준 한국어와 뿌리가 같지만, 서로 통하지 않을 정도로 다른 언어입니다. 즉 "방언"이라고 부르기보다 별개의 언어에 가깝습니다.

이 글은 PyTorchKR 커뮤니티에서 PCN R&S LLM 팀이 147만 쌍의 제주 방언-표준어 평행 코퍼스(Parallel Corpus)를 NVIDIA H100 GPU 한 장으로 약 4시간 동안 학습한 88.79M 파라미터 모델을 공개하고 소개한 글입니다. 단순한 번역 도구를 넘어, 저자원 방언 보존(Low-Resource Dialect Preservation)의 기초 인프라를 만드는 시도입니다.

---

1. 모델 기술 스펙

모델 크기: 88.79M 파라미터 (safetensors 파일 178MB)

이건 굉장히 작은 모델입니다. 비교하자면:

  • GPT-2 small: 124M
  • 이 모델: 88M

소비자용 GPU에서도 동작할 수 있는 크기입니다.

아키텍처: Qwen3 스타일의 Decoder-only Transformer

  • Hidden size: 640
  • 레이어: 18개
  • 어텐션 헤드: Query 10 / Key-Value 2 (GQA 5:1 비율)
  • 어휘 크기: 16,000 (커스텀 SentencePiece BPE)
  • 최대 시퀀스: 1,024 토큰
  • 정밀도: bfloat16

특별한 토크나이저: 제주어에 필수적인 고전 음절 (아래아)를 보존하도록 NFC 정규화를 적용했습니다. 아래아는 현대 한글에는 없는 자모로, 제주어 발음을 표기하는 데 핵심적입니다. 일반 토크나이저는 이 글자를 처리하지 못해서 정보가 손실되는데, 이 모델은 그 부분을 특별히 고려했습니다.

학습 방식: 사전 학습된 모델을 파인튜닝한 게 아니라, 완전히 처음부터(from scratch) 학습했습니다. H100 한 장으로 4시간 — 저자원 언어 보존 프로젝트의 전형적인 접근법입니다.

라이선스: Apache 2.0 (모델 가중치), 데이터는 AIHUB 이용약관 적용

---

2. 양방향 번역 메커니즘

단일 체크포인트 하나로 두 방향을 모두 처리합니다. 방향은 프롬프트 앞에 붙이는 prefix token으로 제어합니다.

프롬프트 형식:

<bos><d2s>{ 제주 방언 텍스트 }<sep>    # 방언 → 표준어
<bos><s2d>{ 표준어 텍스트 }<sep>       # 표준어 → 방언

특수 토큰 설명:

토큰 용도
<bos> 시퀀스 시작 (항상 맨 앞)
<d2s> 방향: 방언에서 표준어로
<s2d> 방향: 표준어에서 방언으로
<sep> 구분자
<eos> 종료
<copy> 학습용 보조 작업(셀프 복사)

사용 예시:

방언 → 표준어:

  • 입력: 글로 죽 가당 보믄 큰큰헌 소낭이 나옵니다게.
  • 출력: 그리로 쭉 가다 보면 큰 소나무가 나옵니다.

표준어 → 방언:

  • 입력: 제주도에는 수많은 관광지가 있습니다.
  • 출력: 제주도엔 하영헌 관광지가 잇수다.

---

3. 성능 평가

sacreBLEU, CHRF++, Exact Match 지표로 평가했습니다.

방향 BLEU CHRF++ Exact Match
방언 → 표준어 77.67 84.19 51.0%
표준어 → 방언 60.97 70.02 30.0%

핵심 인사이트: 방언에서 표준어로 가는 방향(<d2s>)이 훨씬 잘 나옵니다. 그 이유는:

방언 → 표준어는 "여러 개에서 하나로의 매핑(many-to-one)"입니다. 다양한 제주어 표현이 표준어의 하나의 표현으로 수렴하면 되기 때문에 상대적으로 쉽습니다.

표준어 → 방언은 "하나에서 여러 개로의 매핑(one-to-many)"입니다. 표준어 하나의 표현이 어떤 제주어 표현으로 번역될지 여러 가능성이 있고, 어휘와 형태론적 범위가 더 넓어야 하므로 본질적으로 더 어렵습니다.

이 현상은 저자원 번역에서 흔히 보이는 패턴입니다.

---

4. 실제 사용 방법

HuggingFace Transformers로 직접 실행:

별도 코드 없이 표준 Qwen3ForCausalLM 클래스로 로드 가능합니다. GPU가 없어도 CPU에서 동작하지만 느립니다.

vLLM으로 고성능 서빙:

vllm serve postcn/Jeju-Standard_Korean_Translator \
--host 0.0.0.0 --port 8001 \
--max-model-len 1024 \
--dtype bfloat16

OpenAI 호환 API로 접속할 수 있어서 기존 시스템에 쉽게 통합 가능합니다.

---

5. 기존 연구와의 연결

이 프로젝트가 처음 시도하는 건 아닙니다. 이전 연구들을 이어받는 것입니다:

카카오브레인의 JIT/JSS 데이터셋 (2020):

  • 17만 쌍 이상의 제주어-한국어 평행 코퍼스(JIT)
  • 10,000개 고품질 오디오 파일(JSS)
  • LREC 학회에 게재된 최초의 제주어 전산학 연구
  • 이 데이터는 현재 AIHUB에서 공개됨

PCN 팀의 모델은 이 데이터를 확장하여 147만 쌍으로 늘리고, H100으로 학습한 다음 세대 모델입니다.

KakaoBrain의 이전 번역 모델: 카카오브레인 연구팀도 이전에 제주어 번역 모델을 선보인 바 있습니다. 당시 국제공인 자동 번역 평가 지표에서 의미 있는 결과를 냈습니다.

---

6. 같은 데이터로 만들 수 있는 의미 있는 앱과 모델 아이디어

이 147만 쌍의 평행 코퍼스와 88M 모델을 기반으로 확장할 수 있는 아이디어를 구체적으로 제시합니다.

아이디어 1: 제주어 음성 번역 앱 (Speech-to-Speech Translator)

개념: 카카오브레인의 JSS 오디오 데이터(10,000개) + 이 번역 모델을 결합하여, 제주어를 말하면 표준어로 번역되고, 표준어를 말하면 제주어로 번역되는 실시간 음성 번역 앱을 만듭니다.

왜 의미 있는가:

  • 제주어를 실제로 사용하는 사람들은 대부분 고령층으로, 텍스트보다 음성에 익숙합니다
  • 관광객이 제주어 구절을 말해보고 싶은 경우에도 유용
  • 기존 '제주어모바일사전'(jejudic.kr)은 텍스트 검색만 가능한데, 음성 인터페이스는 완전히 다른 사용자 경험을 만듭니다

기술 스택: Whisper(음성 인식) → 이 번역 모델 → TTS(음성 합성) 파이프라인. 88M 모델은 모바일에서도 실행 가능한 크기입니다.

아이디어 2: 세대 간 소통 브릿지 — "할머니와 이야기하기"

개념: 제주에 사는 젊은 세대가 할아버지/할머니의 제주어 대화를 실시간으로 표준어 자막으로 보여주는 앱. 반대로 젊은이가 한 말을 제주어로 번역해서 어르신에게 전달.

왜 의미 있는가:

  • 제주어 기능 보유자의 평균 연령은 70대 이상입니다. 세대 간 언어 장벽이 실제 가정 내에서 존재합니다
  • 이 앱은 단순 번역 도구가 아니라 "가족 간 소통 도구"로 포지셔닝하면 감정적 공감이 큽니다
  • 채팅 앱 라인/카카오톡의 플러그인 형태로도 제공 가능

아이디어 3: 제주어 학습 게임 — "제주어 마스터"

개념: 듀오링고 스타일의 제주어 학습 앱. 번역 모델을 평가 엔진으로 활용합니다. 사용자가 제주어를 입력하면 모델이 표준어로 번역하고, 정답과 비교해서 점수를 줍니다.

왜 의미 있는가:

  • 현재 제주어 학습 자료는 사전(jejudic.kr)과 모바일 사전뿐입니다. 대화형 학습 도구는 없습니다
  • 147만 쌍의 데이터는 학습 문제집을 무한정 생성할 수 있는 원천입니다
  • MZ세대를 겨냥한 게이미피케이션으로 제주어 교육의 진입 장벽을 낮춥니다

아이디어 4: 제주어 문화 콘텐츠 자동 자막화

개념: 제주 방언으로 된 영상(제주도민 인터뷰, 제주어 노래, 지역 드라마)에 표준어 자막을 자동으로 생성하는 도구. 번역 모델을 비디오 파이프라인에 통합.

왜 의미 있는가:

  • 제주도의 문화 콘텐츠를 전국민이 접할 수 있게 만듭니다
  • 유튜브 크리에이터, 제주도청, KBS 제주방송 등이 즉시 활용할 수 있습니다
  • UNESCO 무형문화유산 등재 추진과 시너지 — 디지털 아카이브의 핵심 인프라

아이디어 5: 다중 방언 확장 모델 — "한국 방언 번역 허브"

개념: 이 88M 아키텍처와 학습 파이프라인을 다른 한국어 방언(전라도, 경상도, 강원도, 충청도)으로 확장합니다. 각 방언별 100만 쌍 정도의 데이터를 모으면 동일한 방식으로 학습 가능.

왜 의미 있는가:

  • 제주어만 특수한 게 아닙니다. 전라도 방언, 경상도 방언도 표준어와 큰 차이가 있습니다
  • 한 번 구축한 파이프라인을 여러 방언에 재사용하면 효율이 극대화됩니다
  • "한국 방언 번역 허브"라는 단일 플랫폼으로 통합하면 연구적·상업적 가치 모두 큽니다

아이디어 6: 제주어 LLM 어시스턴트 — "제줏이"

개념: 이 번역 모델을 어댑터로 붙여서, 대형 언어 모델(Gemma, Qwen 등)이 제주어를 이해하고 제주어로 답변할 수 있게 만듭니다. LoRA 파인튜닝으로 88M 모델을 어댑터로 사용.

왜 의미 있는가:

  • 현재 대형 언어 모델들은 제주어를 거의 지원하지 않습니다
  • 제주어로 질문하면 "제주어는 이해하지 못합니다"라고 답합니다
  • 이 어댑터를 붙이면 제주어 사용자도 AI 시대의 혜택을 받을 수 있습니다. 디지털 포용(digital inclusion)의 관점에서 중요합니다

아이디어 7: 관광 안내 제주어 번역기

개념: 제주도를 방문하는 관광객에게 제주어 인사말, 주문 문장, 길 찾기 등을 실시간으로 번역해주는 관광 앱. 반대로 제주어 화자의 식당 사장님이 관광객의 표준어를 제주어로 이해할 수 있게.

왜 의미 있는가:

  • 제주도 연 1,500만 명 이상의 관광객이 방문합니다
  • "제주어로 주문해보기" 같은 체험형 기능은 관광 상품으로도 판매 가능
  • 지역 경제와 언어 보존이 동시에 이루어지는 모델

아이디어 8: 학술 연구용 제주어 분석 도구

개념: 언어학자가 제주어 문헌을 분석할 때 사용할 수 있는 도구 모음. 형태소 분석기, 품사 태거, 문장 구조 분석기 등을 이 모델의 임베딩 층을 기반으로 개발.

왜 의미 있는가:

  • 제주어 연구는 전 세계적으로도 주목받는 분야입니다 (Hawaii University의 Jejueo 연구소 등)
  • 88M 모델의 내부 표현(embedding) 자체가 제주어의 언어학적 특징을 담고 있습니다
  • 이 임베딩을 활용하면 기존에 수작업으로 하던 언어 분석을 자동화할 수 있습니다

---

커뮤니티 반응

이 글은 PyTorchKR 커뮤니티의 "읽을거리&정보공유" 섹션에 게시되었습니다. PyTorchKR은 한국 최대의 머신러닝 커뮤니티로, 한국어 NLP 연구자들과 엔지니어들이 활발히 활동합니다.

카카오브레인의 초기 연구(2020)는 LREC(Language Resources and Evaluation Conference)라는 국제 학술 대회에 게재되어 학계에서 인정받은 바 있습니다. 또한 Hawaii University에 전문적인 제주어 연구소(Jejueo Project)가 운영 중이며, "제주어는 방언이 아닌 별개의 언어인가"라는 논의도 오랫동안 이어져 왔습니다.

---

새로운 시각

1. "소멸 위기 언어"의 역설 — 디지털화 자체가 보존인가?

이 모델은 제주어를 "디지털 자산"으로 만듭니다. 하지만 디지털화된 언어와 실제로 사용되는 언어는 다릅니다. 제주어 모델이 아무리 정확해도, 제주어를 일상에서 사용하는 사람이 계속 줄어든다면 진정한 보존은 아닙니다. 디지털 아카이브와 실제 언어 생태계 복원을 함께 고려해야 합니다.

2. 88M 모델의 한계 — 번역은 가능하지만 "이해"는 아님

이 모델은 문장 수준의 번역을 하지만, 제주어의 문화적 맥락, 유머, 속담, 감정 뉘앙스를 전달하지는 못합니다. "큰큰헌 소낭이"를 "큰 소나무"로 번역하는 건 기술적으로 성공이지만, 제주어에서 '큰큰헌'이 담고 있는 정서적 무게는 사라집니다. 번역 모델과 문화 해설 모델을 분리해서 설계해야 합니다.

3. 저자원 언어 모델의 보편화 가능성

이 프로젝트가 보여주는 가장 큰 교훈은 "H100 한 장 + 4시간 + 88M 파라미터"로 의미 있는 저자원 언어 모델을 만들 수 있다는 점입니다. 이 파이프라인은 세계적으로 2,000개 이상 존재하는 소멸 위기 언어에 모두 적용 가능합니다. 언어 보존이 AI의 가장 의미 있는 사용 사례 중 하나가 될 수 있습니다.

---

자녀와 미래에 대한 시사점

아인, 석현, 은한에게 적용할 수 있는 교훈:

소멸하는 것의 가치를 알아야 보존할 수 있다 제주어는 한 세대가 사라지면 돌아오지 않는 것입니다. 언어는 단순히 의사소통 도구가 아니라, 그 언어를 사용하는 사람들이 세계를 바라보는 방식을 담고 있습니다. 제주어가 사라지면 제주 특유의 세계관도 함께 사라집니다. 아이들이 "왜 중요한 건가?"라고 물을 때, "돌아오지 않는 것"이라고 설명해주세요.

기술은 보존의 도구가 될 수 있다 88M 모델은 H100 한 장으로 4시간 만에 만들었습니다. 아이들의 세대에 들어오면 훨씬 더 쉽게, 더 정확하게 소멸 위기 문화를 디지털화할 수 있습니다. 기술과 인문학이 만나는 지점에서 가장 의미 있는 일이 일어납니다.

작은 모델도 큰 일을 할 수 있다 88M은 거대 모델의 100분의 1도 안 되는 크기입니다. 하지만 제주어 번역이라는 구체적인 문제에서는 충분히 잘 작동합니다. "작은 게 항상 약한 게 아니다" — 아이들에게 이 점을 보여주세요.

자신의 뿌리를 아는 것의 중요성 제주어가 아니더라도, 가족의 방언, 지역 말투, 할머니의 표현은 그 가족만의 문화적 자산입니다. 아이들에게 "할머니가 하신 말씀, 뭐라고 하셨어요?"라고 물어보는 것부터 시작해보세요.

관련 노트