Claude Code로 내 MRI 2차 소견을 받아봄 — 분석 노트

2026-06-29 · 2026-06-29_claude-code-mri-second-opinion-analysis.md

#AI #의료 #MRI #Hacker News 분석 #교육 #미래 준비

원문 출처

Claude Code로 내 MRI 2차 소견을 받아봄 — 분석 노트

한 줄 요약

한 정형외과 환자가 자신의 어깨 MRI를 Claude Code(Opus 4.8)로 분석해 병원의 Grade III 부분층 파열 진단과 대비되는 “파열 없음” 판정을 받았고, 이 경험을 통해 AI가 의료 2차 소견 도구로 가진 가능성과 한계를 동시에 드러냈다.

원문 핵심 내용

배경: 갑자기 내려진 수술급 진단

원글 작성자는 몇 주간 오른쪽 어깨 통증을 겪다 정형외과를 방문했다. MRI 촬영 직후 의사는 “견갑하근 힘줄 apical insertion 부위에서 Grade III(너비 50% 초과) 부분층 파열”이라고 진단했고, 당일 충격파 치료(Shockwave therapy)와 트라우밀(Traumeel, 독일에서 무효증(homeopathic)으로 등록된 주사)을 시행했다. 작성자는 치료가 성급하다고 느껴 MRI 원본(DICOM 파일, 약 266MB, 확장자 없는 수백 개 파일)과 치료 기록 사본을 요청했다.

AI 분석 설정: Claude Code vs ChatGPT

  • ChatGPT 5.5 Pro가 먼저 두 가지 문제점을 지적했다.
  1. 충격파 치료는 2020년대 임상 가이드라인에서 석회화 없는 회전근개 건병증에 사용을 금지한다. 초음파 검사에서 석회화가 없다고 명시되었음에도 치료가 이루어졌다.
  2. 트라우밀은 독일에서 ‘치료적 적응증 없음’으로 등록된 호메오파티 약물이다.
  • 이후 Claude Code(Opus 4.8, xhigh 모드)를 사용해 MRI를 직접 분석했다. Claude Code는 일반 Claude.ai 채팅과 달리 패키지 설치, 코드 실행, 장시간 독립 작업이 가능하다. 작성자는 “오른쪽 어깨 통증 2-3주”라는 최소한의 단서만 주고 분석을 위임했다. 약 1시간 후 Claude는 하나의 보고서를 생성했는데, 인간 의사가 Grade III 파열을 보았다고 한 부위를 ‘온전한 힘줄(intact tendon)’로 판독했다. 이는 작성자의 기대보다도 훨씬 극단적인 차이였다.

중재 분석: 두 보고서의 대결

작성자는 ChatGPT와의 대화(증상으로 진단을 유추하는 운동·자세 질문) 기록을 추가로 Claude에 제공하고, “두 보고서를 비교·중재하라”는 명령을 내렸다. Claude는 여러 하위 에이전트(subagent)를 동원해 편향 없는 분석을 시도했다. 약 1시간 후 최종 중재 보고서가 나왔다.

중재 판정:

“판독자 A(Claude 4.8)에 유리함(중등도~높은 신뢰도). 경도 삽입부 건증(Mild insertional tendinosis) 소견 있으나, apical insertion을 포함한 명확한 부분층 또는 전층 파열은 확인되지 않음.”

Claude는 해결 불가능한 몇몇 논점도 있었으나, 이 판정에 대해서는 매우 단호했다.

결론: 불확실성 속에서의 선택

AI 2차 소견을 받은 후 작성자는 두 가지 선택지에 놓였다: 다른 의사를 찾거나, 현재 진행 중인 재활 치료로 호전을 기다리는 것. 그는 “AI가 MRI 판독을 이메일 맞춤법 검사처럼 신뢰할 수 있는 날이 오길 바란다”고 말하며, 자신의 경험이 의학적 조언이 아님을 명시했다.

Hacker News 커뮤니티 반응

댓글 처리 기록: HN 댓글 5개 chunk를 읽음. 총 수백 개 댓글 중 핵심 논점을 압축하여 아래 정리.

### “LLM은 MRI를 제대로 읽지 못한다” — 다수 전문가의 경고

주장: 현재 LLM 비전 모델은 MRI 같은 3D 의료 영상을 이해하는 능력이 매우 부족하다.

근거:

  • lostlogin: “MRI의 2D 스캔은 슬라이스 사이 10% 갭이 있고, 복셀(voxel)이 0.5×0.5×3mm 같은 비등방성(anisotropic)이다. 3D 스캔은 등방성이지만 느리고 환자 움직임에 취약하다. LLM은 이런 복잡한 공간 관계를 모델링하지 못한다.”
  • nostrebored: “Claude는 이미지 이해력이 가장 나쁜 모델이다. GPT-5.4 이전에는 Gemini나 Qwen만 쓸 만했다. 체스보드 사진을 넣으면 말 위치를 완전히 틀린다.”
  • themantalope (방사선과 전문의): “공개 의료 영상 데이터셋은 방사선사가 임상에서 보는 양에 비해 극히 적으며, 최신 연구용 VLM도 1~2년차 레지던트 수준에 불과하다. 현재 모델은 일반적으로 의료 이미지 판독에 형편없다(terrible).”

반론/대댓글:

  • aspenmartin: “환각률(hallucination rate)은 모델 버전마다 꾸준히 감소하고 있다. 1년 전 코딩 에이전트도 엉망이었지만 지금은 쓸 만해졌다.”
  • anon291: “ChatGPT가 의사보다 훨씬 나은 진단을 내린 구체적 사례가 있다. 나의 동상(Chillblains)을 여러 GP가 오진했으나 GPT가 정확히 맞혔다.”

내 판단: 의료 영상의 복잡성과 LLM의 공간 인식 한계는 명백하지만, 1~2년 안에 전용 모델이 등장하면 상황이 바뀔 가능성이 높다. 현재로서는 전문가의 경고를 무시해서는 안 된다.

### “AI는 자신 있게 틀린다” — 확신 오정보(overconfident error)의 위험

주장: LLM은 높은 신뢰도로 틀린 답을 내놓아 비전문가가 분별하기 어렵다.

근거:

  • Aurornis: “전문가가 보면 AI 출력이 부족해 보이지만, 동일한 자신감으로 옳은 것과 틀린 것을 모두 제시한다. 비전문가에게는 모든 것이 옳아 보인다.”
  • kierangill (원격의료 회사 경험): “고품질 귀내시경 이미지 데이터로 벤치마크했을 때, 모델의 확신(confidence)과 실제 정확도 사이에 상관관계가 거의 없었다. 이진 분류 모델이 LLM 진단을 강하게 왜곡했다.”
  • marcus_holmes: “신용 평가 도구를 LLM으로 만들었는데, 같은 데이터로 10번 돌리면 10가지 전혀 다른 결과가 나왔다. LLM은 사실(factual)이 아니라 ‘그럴듯한 결과(plausible results)’를 내도록 설계되었다.”

반론/대댓글:

  • anon291: “의사도 자신 있게 틀린다. 차이는 AI의 오류는 수정이 쉽다는 점이다. ‘너 바보야’라고 말하는 사람이 없으니 고치기만 하면 된다.”

내 판단: ‘확신 오정보’ 문제는 인간 의사에게도 존재한다. 하지만 인간은 면허·소송·동료 검토 시스템으로 제어된다. AI에는 이 시스템이 아직 없다.

### Mirage Reasoning: 이미지 없이도 그럴듯한 소견을 생성

주장: LLM은 실제 영상을 보지 않아도 ‘환각 미라지’ 임상 소견을 만들어낸다.

근거:

  • TSiege: “스탠퍼드 연구(아직 동료 검토 전)에 따르면, LLM은 이미지를 전혀 주지 않았는데도 병리학적 편향이 있는 소견을 생성했다. 이를 ‘mirage reasoning’이라고 부른다.”
  • appplication: “이 연구는 LLM 전능 신화를 억제하는 데 중요하다.”

반론/대댓글:

  • consensus1: “모델이 의사보다 더 정확한 진단을 내릴 수 있다면, 이미지 없이 이상한 행동을 보이는 것이 무슨 문제인가? 1/10000 확률로 무시해도 실제 리스크는 적다.”
  • nostrebored: “이진 분류를 삼진 체계로 바꾸고 RL + 오진 패널티를 주면 이 문제는 해결 가능하다.”

내 판단: Mirage reasoning은 매우 위험한 현상이다. 환자가 “AI가 이미지를 분석했다”고 믿지만 실제로는 텍스트 패턴만 생성한 것일 수 있다. 작성자의 경우 Opus가 실제 DICOM을 처리했지만, 일반 사용자가 이를 검증할 방법은 없다.

### 전문가 vs 비전문가 인식 격차 — Gell-Mann Amnesia

주장: 자신이 아는 분야에서 AI의 오류를 쉽게 발견하지만, 모르는 분야에서는 AI를 과신한다.

근거:

  • pwg: “기자가 특정 분야에서 실수하는 것을 알면서도 다른 분야 기사는 믿는 현상(Gell-Mann Amnesia)이 AI에서도 똑같이 일어난다.”
  • cityofdelusion: “자신이 잘 아는 분야(코드 리뷰, 건축)에서 LLM이 실망스러운 성능을 보인다. 의료에서도 같은 실수를 반복해서는 안 된다.”

반론/대댓글:

  • sxg (영상의학과 의사): “전문가가 도구의 결함을 찾는 것은 새삼스럽지 않다. 위키피디아도 마찬가지지만 비전문가에게 가치를 준다. 아예 없는 것보다 낫다.”

내 판단: 이 인식 격차는 교육으로 해결해야 한다. 다음 세대에게는 “AI가 말하는 모든 것을 의심하라”는 비판적 사고가 필수적이다.

### 의료 시스템의 실패: AI가 환자를 구한 사례들

주장: 의사들도 실수하고, 시스템이 환자를 보호하지 못할 때 AI가 유용할 수 있다.

근거:

  • b800h: “영국 GP는 정말 형편없었다. 어머니의 여러 질환을 조정하지 못했다. AI로 NICE 가이드라인을 근거로 20개 문항을 만들어 대응하니 GP가 당황하며 개입을 시작했다. 진단용이 아니라 프로토콜 위반 탐지에는 절대 신뢰한다.”
  • mettamage: “네덜란드 의료 시스템은 복잡한 케이스에서 5/10 수준. 다른 사람은 LLM 덕분에 완화 치료 대신 독일·벨기에에서 추가 치료를 받아 3~5년 더 살게 되었다.”
  • madrox: “10년 전 어깨 MRI에서 파열 진단을 받았지만 스포츠 의학 의사가 오십견이라고 진단해 PT로 호전되었다. ‘깔때기(funnel) 안에 들어가면 아무도 비판적으로 생각하지 않는다.’ AI는 그 깔때기를 깨는 도구가 될 수 있다.”

반론/대댓글:

  • resonious: “내 어머니도 의사마다 진단이 달랐다. 암만은 체계적으로 잘 다뤘다.”

내 판단: 의료 시스템의 실패는 현실이다. AI가 2차 소견 도구로 기능할 여지는 충분하지만, 환자가 맹신하지 않도록 병원과의 협력이 필요하다.

### 호메오파티 주사와 충격파 — 의료계의 비과학성 지적

주장: 원글에서 의사가 무효증(homeopathic) 약물을 사용한 사실은 의료진의 질을 의심하게 만든다.

근거:

  • Aurornis: “이 글의 진짜 교훈은 ‘ChatGPT가 의사보다 낫다’가 아니라 ‘LLM이 환자가 나쁜 의료팀에 있음을 식별했다’는 점이다.”
  • GuestFAUniverse: “독일 대학병원에서 간호사가 환자의 테이프 색깔을 논쟁했고, 의사 절반이 호메오파티를 추천한다. 의료계의 비과학성은 심각하다.”

반론/대댓글:

  • 별다른 반론 없음. 대부분 동의.

내 판단: 비과학적 치료를 권하는 의사는 환자의 신뢰를 잃는다. AI는 환자에게 “이 치료는 근거 기반 의학에 부합하는가?”라는 질문을 할 용기를 준다.

### 책임 소재: AI는 누가 책임지는가?

주장: AI 진단의 가장 큰 걸림돌은 책임 소재(liability)가 없다는 점이다.

근거:

  • xivzgrev: “AI는 책임이 없다. 진짜 의사는 책임을 질 수 있다. AI 회사가 특정 용도로 면허를 받고 과실로 소송당할 수 있게 되기 전까지는 신뢰도가 높아지지 않을 것이다.”
  • motbus3: “멀티 에이전트 시스템(두 에이전트가 서로 반박)을 제안하지만, 근본적으로 책임 부재 문제는 해결되지 않는다.”

반론/대댓글:

  • wwweston: “인간 의사도 면허·규제·소송 시스템 덕분에 신뢰한다. LLM에는 이 시스템을 적용하기 어렵다.”

내 판단: 기술 발전만으로 해결되지 않는 제도적 과제다. 2026년 현재 일부 국가에서 AI 의료기기 규제가 시작되었지만, 일반 LLM을 진단에 사용하는 것은 여전히 규제 사각지대이다.

### 앙상블과 기술적 해결책 제안

주장: 여러 LLM을 앙상블하거나, 이진 분류 모델과 결합하면 정확도를 높일 수 있다.

근거:

  • skeptrune: “MRI를 여러 LLM 앙상블에 돌려 수렴하는지 확인하라.”
  • nostrebored: “이진 분류를 삼진 체계(ternary)로 바꾸고 강화학습(RL)으로 오진 패널티를 주면 좋은 결과를 얻는다.”

반론/대댓글:

  • themantalope: “앙상블도 데이터 부족 문제를 해결하지 못한다. 공개 데이터셋의 규모가 너무 작다.”

내 판단: 기술적 개선은 분명 필요하지만, 현재로선 ‘더 많은 모델’보다 ‘더 좋은 데이터’가 우선이다.

### ‘AI psychosis’ 논쟁 — 신앙 vs 회의

주장: AI 지지자와 반대자 사이에 사실 논쟁 이상의 문화 전쟁이 벌어지고 있다.

근거:

  • appplication: “AI 사이코시스는 증거가 아닌 신앙에 기반한다.”
  • jstummbillig: “전문가가 AI를 비판할 때는 신뢰하고, ‘도움이 된다’고 할 때는 AI 사이코시스라고 무시하는 것은 모순이다.”

반론/대댓글:

  • perching_aix: “상대를 정신병 취급하는 건 ‘AI 반대파의 문화전쟁 라벨’에 불과하다.”

내 판단: 이 논쟁은 감정적 대립으로 번질 위험이 크다. 실질적인 대화를 위해서는 구체적인 실패/성공 사례와 수치에 집중해야 한다.

### 국가별 의료 인센티브 차이

주장: AI의 역할은 의료 시스템 구조에 따라 달라진다.

근거:

  • jongjong: “GP를 거쳐야만 전문의를 볼 수 있는 국가는 과소진단 경향이 있고, 직접 전문의를 방문할 수 있는 국가는 과잉 진단 경향이 있다. AI는 이 균형을 어떻게 바꿀까?”

반론/대댓글:

  • 딱히 반론 없음. 중요한 시스템적 분석.

내 판단: 의료 시스템의 인센티브는 AI 도입 방향을 결정한다. 예를 들어, 과잉 진단이 문제인 한국에서는 AI가 불필요한 치료를 줄이는 방향으로 쓰일 수 있다.

### 개인 경험: AI가 내 진단을 바꿨다

주장: AI가 의사보다 정확한 진단을 내린 구체적 사례들이 있다.

근거:

  • anon291: “겨울마다 가려운 발가락 증상 → GPT가 ‘Chillblains(동상)’ 진단. 이후 여러 GP에게 물어봤지만 질병명조차 몰랐다. 당뇨병 이모의 경우 병원이 정상 식이를 제공하고 메트포르민을 누락했다. ChatGPT가 지적해 수정되었다.”
  • mettamage: “친구 의사가 개입해서 잠을 고쳤고, 다른 사람은 LLM 덕분에 추가 치료를 받아 수명이 연장되었다.”

반론/대댓글:

  • neves: “지인이 AI로 영상 분석해 ‘문제 없음’ → 이후 공식 진단에서 심각한 퇴행성 질환 발견. AI를 믿으면 안 된다.”

내 판단: 성공 사례와 실패 사례가 공존한다. 중요한 것은 AI를 ‘절대적 진단 도구’가 아니라 ‘의심을 위한 도구’로 사용하는 태도다.

### MRI 대기 시간과 접근성

주장: AI는 MRI 접근성이 낮은 지역에서 더 가치 있을 수 있다.

근거:

  • hmokiguess: “좋다. Claude는 있는데 MRI가 필요하다.” (대기 시간이 긴 국가의 현실을 풍자)

반론/대댓글:

  • parsabg: “우리는 공인된 인간 방사선사가 제공하는 2차 소견 서비스를 운영한다.” (링크 제공)

내 판단: AI가 의료 접근성을 높일 가능성은 크지만, 현실적으로 ‘AI + 원격 인간 전문가’ 하이브리드 모델이 당분간 주류가 될 것이다.

새로운 시각

### 진단의 권력 이동: 환자가 ‘전문가’의 자리를 위협하다

원문과 댓글에서 공통으로 드러난 가장 큰 변화는 진단 권력의 이동이다. 과거에는 의사가 절대적인 정보 독점자였으나, 이제 환자는 AI를 통해 자신의 MRI를 검토하고 의사의 판단에 이의를 제기할 수 있다. 이는 단순한 ‘2차 소견’ 이상으로, 의료계의 위계 질서에 근본적인 균열을 내고 있다. 예를 들어 의사가 ‘충격파 치료’를 권했을 때 환자가 “최신 가이드라인은 금지한다”고 반박할 수 있는 시대가 왔다. 앞으로 의사는 권위가 아니라 데이터와 추론으로 자신의 판단을 증명해야 할 것이다.

### 확률적 사고(Probabilistic Literacy)의 필요성

의료 AI가 가져올 가장 중요한 변화는 확률적 사고의 대중화다. 현재 인간은 ‘예/아니오’ 이분법적 진단에 익숙하지만, AI는 확률과 신뢰 구간으로 결과를 제시한다. 예를 들어 “파열 가능성 73%”라는 결과를 환자가 어떻게 해석할지가 관건이다. 댓글에서도 ‘확신도 보정(confidence calibration)’이 자주 논의되었다. 다음 세대는 ‘의사가 100% 확신한다’는 말 자체를 의심하고, “그 확신의 근거는 무엇이며, 오진 확률은 얼마인가?”라고 질문하는 법을 배워야 한다. 이는 수학·통계 교육의 새로운 방향을 제시한다.

### AI는 의사의 ‘신뢰’를 깨뜨리지만, 더 건강한 신뢰로 대체할 수 있다

Aurornis와 madrox의 댓글에서 공통으로 지적된 것은 맹목적 신뢰보다 비판적 신뢰의 필요성이다. ‘믿음’은 환자에게 심리적 안정감을 주지만, 동시에 오진의 가능성을 은폐한다. AI의 역할은 이 ‘편안한 신뢰’를 깨뜨리는 것이다. 단기적으로는 불안을 키우지만, 장기적으로는 환자가 자신의 건강에 대해 더 능동적으로 참여하게 만든다. 의료계도 이 점을 인식해 ‘환자와의 협력적 진단(co-diagnosis)’ 모델을 발전시킬 필요가 있다.

### 데이터셋 오염: 미래 AI 발전의 장애물

여러 댓글이 공개 의료 데이터의 부족과 품질 문제를 지적했다(themantalope, rapatel0). 앞으로 2~3년 안에 인터넷상의 공개 텍스트 데이터는 고갈될 것이며, 의료 영상 데이터는 더욱 그렇다(aspenmartin). 이는 AI 회사들이 합성 데이터(synthetic data)나 병원과의 직접 제휴를 통해 데이터를 확보해야 함을 의미한다. 그러나 합성 데이터의 검증 가능성(verifiable traces) 문제가 새로운 걸림돌이 될 것이다.

자녀와 미래에 대한 시사점

### 다음 세대에게 필요한 역량

자녀가 자라는 세상에서는 의료 AI와 대화하는 능력이 기본 소양이 될 것이다. 단순히 AI에게 질문하는 것이 아니라, 올바른 프롬프트를 작성하고, 결과의 신뢰도를 평가하며, 필요하면 전문가에게 재확인하는 과정을 가르쳐야 한다. 예를 들어 초등학생도 알 수 있는 비유: “AI는 친구가 보물지도를 그려주는 것과 같다. 정확할 수도 있고, 엉터리일 수도 있다. 네가 직접 확인해야 한다.” 교육 과정에는 비판적 사고, 통계적 추론, 디지털 리터러시 외에도 의사소통 능력이 포함되어야 한다. 의사와 AI의 의견이 다를 때 어떻게 질문할지, 자신의 건강을 어떻게 옹호할지를 배워야 한다.

### 의료 분야 종사자로서의 함의

사용자는 소화기·내시경·종양학 분야 의료 전문가다. AI가 MRI 판독에서 보인 한계는 내시경 영상 분석에도 적용된다. 예를 들어, 용종 검출 보조 AI(computer-aided detection)는 이미 상용화되었지만, 환자가 직접 분석하는 경우는 아직 드물다. 그러나 2~3년 내에 환자가 자신의 위내시경 영상을 AI에 넣고 “이 용종은 암인가요?”라고 묻는 시대가 올 것이다. 사용자는 두 가지 준비가 필요하다:

  1. 환자 교육: AI 결과를 맹신하지 말고 소화기내과 전문의의 판단을 우선시하도록 안내하는 언어와 자료 개발.
  2. 도구로서 AI 수용: 자신의 진단에 AI를 2차 검증 수단으로 활용해 오진율을 낮추는 방법 연구. 예를 들어, 병리 슬라이드의 AI 1차 스크리닝 후 인간이 확진하는 워크플로우 도입.
  3. 제도적 참여: 의료 AI 규제와 보험 수가 책정에 전문가 의견을 개진해, AI가 환자 안전을 해치지 않도록 방어 장치 마련.

### 진로 선택의 변화

자녀가 의사를 꿈꾼다면, AI 시대의 의사에게는 공감 능력, 윤리적 판단, 복잡한 상황에서의 의사결정이 더 중요해질 것이다. 단순 판독과 같은 반복 업무는 AI가 대체하므로, 의사는 ‘환자와 인간적 관계를 맺고, AI가 제공하는 수많은 데이터 중에서 최선의 선택을 안내하는 조정자(coordinator)’ 역할로 진화할 것이다. 반대로, 자녀가 AI 개발자를 꿈꾼다면 의료 지식과 소프트웨어 공학의 교차점에서 일할 기회가 많아질 것이다.

---