AI로 MRI 두 번째 의견 구하기: 신뢰, 오진, 그리고 의료 시스템의 딜레마

2026-06-29 · 2026-06-29_ai-mri-second-opinion-analysis.md

#AI #Claude Code #MRI #의료 #두 번째 의견 #오진 #HackerNews #교육 #미래

원문 출처

AI로 MRI 두 번째 의견 구하기: 신뢰, 오진, 그리고 의료 시스템의 딜레마

한 줄 요약

한 환자가 Claude Code(Opus 4.8)로 자신의 어깨 MRI 영상을 분석해 정형외과 의사의 Grade III 부분파열 진단과 상반된 “파열 없음” 결과를 얻었고, 추가 중재(arbitration)를 통해 AI 쪽에 무게를 두게 되면서 인간 의사와 AI 사이의 신뢰 딜레마에 빠진 경험을 공유한 글. Hacker News 커뮤니티는 AI의 영상 판독 능력에 대해 강한 회의론(전문가 중심)과 일부 긍정 사례(환자 경험)로 나뉘었으며, 의료 시스템의 구조적 문제와 환자 교육의 중요성이 부각됨.

---

원문 핵심 내용

### 작성자의 배경과 문제 제기

원문 작성자는 오른쪽 어깨 통증으로 정형외과를 방문, MRI를 촬영했다. 의사는 견갑하건(Subscapularis tendon)의 Grade III 부분파열(>50% 두께)을 진단하고 바로 충격파 치료(Shockwave therapy)와 동종요법 주사(Traumeel)를 시행했다. 작성자는 “너무 성급한 처치”라는 느낌을 받았고, MRI 결과와 치료 내역을 복사해 달라고 요청했다.

### ChatGPT 5.5 Pro로 첫 번째 정황 점검

MRI 분석 전, 작성자는 먼저 ChatGPT 5.5 Pro에 치료 기록을 보냈다. ChatGPT는 다음 두 가지를 지적했다:

  • 충격파 치료는 석회화가 없는 회전근개 힘줄병증에 대한 최신 임상 가이드라인에서 권장되지 않음.
  • Traumeel은 독일에서 '치료 적응증이 없는' 동종요법 의약품으로 등록되어 있음.

이를 통해 작성자는 의사의 치료 판단에 대한 신뢰가 더 흔들렸다.

### Opus 4.8을 이용한 MRI 분석 과정

작성자는 Claude Code(Opus 4.8, xhigh)를 사용해 DICOM 형식의 MRI 파일(약 266MB, 수백 개 파일)을 분석했다. Claude Code는 필요한 Python 패키지를 설치한 뒤 약 1시간 동안 작업해 최종 보고서를 생성했다. 작성자가 “우측 어깨 통증 2~3주”라는 간단한 임상 정보만 제공했을 뿐, 별도의 전문 용어나 방사선 보고서는 주지 않았다.

첫 번째 보고서 결론: “힘줄 온전함(intact tendon) – Grade III 파열 없음.” 이는 의사의 Grade III 진단과 정면으로 충돌했다.

### 중재(Arbitration) 과정과 결론

두 진단 사이에서 혼란을 느낀 작성자는 Claude Code에게 다시 두 분석(인간 방사선 보고서 + AI 분석)을 비교하도록 시켰다. 이번에는 추가 맥락(이전에 ChatGPT 5.5 Pro와 나눈 자가 진단 대화)까지 제공했다. Claude는 여러 하위 에이전트(subagent)를 사용해 편향을 줄인 ‘중재 보고서’를 약 1시간 만에 생성했다.

중재의 최종 결론:

“Reader A(인간 의사)보다 AI 쪽 증거가 유리함(중간~높은 신뢰도). 경미한 부착부 힘줄병증(mild insertional tendinosis)은 있으나, 부분/전층 파열은 없음.”

AI는 일부 비교 불가능한 지점도 인정했지만, 이 특정 쟁점(파열 여부)에 대해서는 분명한 판단을 내렸다.

### 작성자의 딜레마와 시사점

작성자는 AI 덕분에 과잉 치료의 가능성을 발견했지만, AI를 완전히 신뢰할 수도 없어 “리허브(rehab)를 하면서 지켜보거나 다른 의사를 찾거나” 하는 상태에 머물렀다. 그는 “앞으로 몇 세대의 모델이 지나면 AI MRI 판독을 이메일 교정처럼 신뢰하게 될 것”이라는 희망을 밝혔다. 단, 원문에는 의사/병원 이름이 공개되지 않았으며 “이 글은 의학적 조언이 아니다”는 면책 조항이 포함된다.

---

Hacker News 커뮤니티 반응

댓글 처리 기록: HN 댓글 약 200여 개(5개 chunk)를 읽었으며, 주요 논점을 14개 세부 주제로 정리함.

### [themantalope] 방사선과 전문의: “AI는 아직 1~2년차 레지던트 수준”

  • 핵심 주장: 공개된 MRI 훈련 데이터셋은 방사선과 전공의가 1년간 읽는 양의 극히 일부에 불과하다. 따라서 현재 VLM(Visual Language Model)은 최고 수준의 모델이라도 1~2년차 레지던트 수준을 넘지 못한다.
  • 근거/사례: 실제 연구실 벤치마크에서도 영상 판독 정확도가 낮으며 “이게 AI의 최악(worst) 상태이며 앞으로 나아질 것”이라고 인정하면서도, 현재로서는 신뢰 불가.
  • 반론/대댓글: 일부는 “모델 발전 속도가 빠르므로 5년 안에 방사선사 수준에 도달할 것”이라고 주장(aspenmartin). 하지만 대다수 전문가 댓글은 themantalope에 동조.
  • 내 판단: 매우 현실적인 지적. 원문 작성자가 사용한 Opus 4.8이 아직 상용화 단계가 아님을 감안하면, AI의 “파열 없음” 결론이 과연 옳은지 확신할 수 없음.

### [sxg] 석회화 유무: “초음파에서 안 보인다고 없는 게 아니다”

  • 핵심 주장: 정형외과에서 초음파로 석회화가 없다고 한 것은 ‘초음파의 해상도 한계 내에서’ 관찰되지 않았다는 뜻일 뿐, X-ray나 CT에서는 발견될 수 있다.
  • 근거/사례: 원문에서 충격파 치료가 금기인 이유가 ‘석회화 없음’인데, 초음파로 완전히 배제한 것은 성급하다고 지적.
  • 반론/대댓글: 다른 댓글(tiahura, bflesch)은 초음파의 비표준화와 기술자 의존성을 지적하며 MRI가 더 정확하다고 반박. scrollop(의사)은 무릎 등 관절에서는 MRI가 더 좋지만 비용 문제가 있다고 덧붙임.
  • 내 판단: 이 부분은 원문의 약점이다. 작성자가 초음파 결과를 ‘절대적 사실’로 받아들인 듯하나, 의학에서는 absence of evidence ≠ evidence of absence라는 원칙이 적용된다.

### [TSiege] ‘Mirage reasoning’ 현상: 이미지를 무시하고 텍스트만 생성

  • 핵심 주장: 스탠포드 미발표 논문에 따르면, LLM에 MRI 이미지를 주지 않아도 마치 본 것처럼 상세한 판독문을 생성하는 ‘환영 추론(mirage reasoning)’이 발생한다. 모델이 “pathology-biased clinical findings”를 내뱉는다는 점이 문제.
  • 근거/사례: 실제로 원문 작성자가 첫 번째 분석에서 Claude에게 이미지 외에도 이전 대화 등을 제공했기 때문에, AI가 이미지를 제대로 봤는지 확인할 방법이 없다.
  • 반론/대댓글: consensus1은 “모델이 이미지를 무시하는 확률이 1/10000에 불과하고 출력이 명백히 터무니없지 않다면 앙상블로 해결 가능”이라고 반박. swiftcoder는 “모델이 자신이 무엇을 봤는지 설명할 수 없다”고 재반박.
  • 내 판단: mirage reasoning은 AI의 치명적 한계다. 원문에서 AI가 “파열 없음”을 정확히 맞췄다고 단정할 수 없는 이유가 여기에 있다.

### [cityofdelusion] Gell-Mann Amnesia: 모르는 분야일수록 AI를 과신

  • 핵심 주장: 자신이 아는 분야(코드 리뷰, 조경 등)에서 LLM이 자주 실수하는 것을 목격했지만, 모르는 분야(의료)에서는 그럴듯하게 들리기 때문에 과신하게 되는 전형적인 겔만 망각 증후군(Gell-Mann amnesia).
  • 근거/사례: 여러 댓글(rafterydj, sbarre, parineum)이 동일한 비유를 반복하며 “전문가가 보면 AI 출력의 오류가 명백하다”고 주장.
  • 반론/대댓글: Aurornis, jrockway는 “전문가가 감독하면 매우 유용한 도구”라고 반박. 하지만 주류는 cityofdelusion 쪽.
  • 내 판단: 이 효과는 AI 시대에 더욱 위험해졌다. 원문 작성자는 분명 비전문가이므로, AI의 “정확하다”는 인상에 쉽게 휩쓸렸을 가능성이 높다.

### [madrox] 의료 시스템의 ‘깔때기’ 현상

  • 핵심 주장: “일단 MRI에서 tear가 발견되면, 그 이후로는 아무도 당신의 문제를 비판적으로 생각하지 않는다.” 즉, 진단이 한 번 내려지면 의사들은 그 방향으로만 치료를 진행한다는 것.
  • 근거/사례: 본인 경험 – 어깨 통증 MRI → tear 진단 → 수술 권유 → 다른 의사(스포츠 전문의)가 frozen shoulder 진단 → 물리치료로 완치. 이후에도 여러 의료 실수를 경험.
  • 반론/대댓글: 딱히 반론 없음. 많은 댓글(mixologic, dheera)이 비슷한 경험담을 공유하며 madrox의 주장을 지지.
  • 내 판단: 이 깔때기 현상은 원문 작성자가 느낀 ‘성급한 치료’와 정확히 일치한다. AI가 두 번째 의견을 주는 유일한 이유는 이런 시스템적 편향을 깨기 위해서일 수 있다.

### [anon291] AI가 의사보다 나은 구체적 사례: 동창(Chillblains) 진단

  • 핵심 주장: 매년 겨울 발가락 가려움·부종·통증으로 2~3명의 GP를 방문했으나 통풍, 습진 등 오진만 받았다. ChatGPT에 증상을 설명하자 ‘Chillblains(동창)’을 정확히 맞추고 양말 착용으로 해결됨.
  • 근거/사례: 면역질환 치료 중인 당뇨병 이모에게 의사가 메트포르민을 빼먹는 실수도 언급하며 “인간 의사도 오류를 저지른다”고 강조. ChatGPT가 멍청할 수 있음을 지적해도 아무도 불쾌해하지 않고 고쳐준다는 점에서 투명성도 장점.
  • 반론/대댓글: 비판자들은 이 사례가 영상 판독이 아닌 증상 기반 진단이므로 MRI 분석 사례와 직접 비교할 수 없다고 지적.
  • 내 판단: 증상 판단에서 AI가 상당히 유용할 수 있음을 보여주지만, 이는 원문의 MRI 해석과는 차원이 다른 문제. 영상 판독은 시각적 패턴 인식이므로 LLM의 약점이 더 두드러진다.

### [light_hue_1] 가족 암 치료에서 AI를 ‘팀원’으로 활용

  • 핵심 주장: 가족의 암 치료 과정에서 ChatGPT를 팀의 일부로 사용. 의사 본인이 “에이전트를 팀원처럼 대하자”고 제안했고, 실제로 AI가 약물 오류와 돌연변이 표기 실수를 두 번이나 잡아냄.
  • 근거/사례: 구체적 수치나 약물명은 없지만, “의사가 직접 AI를 인정했다”는 점에서 신뢰도가 높음.
  • 반론/대댓글: 없음. 다만 이 사례는 의사가 감독하는 상황에서 AI를 보조 도구로 쓴 경우이며, 원문처럼 환자 혼자 분석한 것과 조건이 다르다는 지적이 따를 수 있음.
  • 내 판단: 이상적인 사용 시나리오다. 환자(또는 가족)가 AI를 중립적인 점검 도구로 활용하고 의사와 협업하는 모델은 미래에 표준이 될 가능성이 높다.

### [idopmstuff] Claude Code vs Claude.ai 성능 차이

  • 핵심 주장: Claude Code와 Claude.ai는 같은 모델(Opus)을 써도 태스크에 따라 완전히 다른 성능을 보인다. Code는 코딩·파일 처리·반복 작업에 강하고, ai는 추론·분석에 더 낫다. 이 차이를 아는 사람이 거의 없다.
  • 근거/사례: 원문 작성자는 Claude Code를 사용했는데, MRI 파일을 다루는 코딩 작업에는 적합했지만 의학적 추론에는 부적합했을 수 있다.
  • 반론/대댓글: 없음. 다만 몇몇 댓글(Aurornis)은 “같은 모델이라도 설정에 따라 결과가 달라진다”고 일반화.
  • 내 판단: 중요한 통찰이다. 원문에서 Claude Code의 강점(파일 처리, 패키지 설치)이 MRI 분석의 정확성을 보장하지는 않는다. 오히려 Claude.ai의 대화형 분석이 더 나았을 수도 있다.

### [john-tells-all] vs [mrlongroots] 퍼즐과 미스터리 논쟁

  • 핵심 주장: john-tells-all은 Malcom Gladwell의 개념을 인용해 “MRI 진단은 목표(파열 여부)가 명확한 퍼즐(puzzle)”이며 데이터가 쌓일수록 정답에 가까워진다고 주장. 반면 mrlongroots는 “모든 의학적 문제는 하나의 진실(One Truth)이 존재하며 LLM을 교차 검증하면 수렴할 수 있다”고 반박.
  • 반론/대댓글: Paracompact는 “LLM 교차 검증은 ELIZA를 심문하는 것과 같다”며 회의적. exmadscientist는 정신의학(DSM-5)을 예로 들어 “하나의 진단”이 실제로는 애매하다고 지적.
  • 내 판단: MRI 판독은 명백히 퍼즐에 가깝다(구조물의 유무). 따라서 여러 AI 모델이 같은 결론을 내리면 신뢰도를 높일 수 있다. 하지만 원문처럼 하나의 모델만 사용한 경우 위험하다.

### [bilsbie] 의사들의 전문직주의(professionalism) 비판

  • 핵심 주장: 다른 직종(정비공)은 고객이 자가 진단을 해도 쉽게 받아들이는데, 의사들은 신성시되어 환자의 자기 도움을 ‘악몽’이라 부른다. 이는 의료계의 위계적 문화 때문.
  • 근거/사례: ricardobayes, vimda 등이 “환자들이 LLM 결과를 가져와 시간을 낭비하게 한다”고 불평한 데 대한 반박.
  • 반론/대댓글: tsoukase(의사 본인)는 오히려 AI 의견을 가져오면 반겨서 설명해주며 의사-환자 관계에 도움된다고 말함.
  • 내 판단: 문화적 차이가 크다. 일부 의사는 환자의 참여를 환영하지만, 대부분의 HN 의료인 댓글은 방어적 태도를 보였다. 이는 향후 의료 교육에서 바뀌어야 할 부분이다.

### [jongjong] 의료 시스템의 인센티브와 의뢰 체계

  • 핵심 주장: 전문의에게 직접 갈 수 있는 나라(미국 등)에서는 과잉 진단(trigger-happy) 경향이 있고, 전문의 의뢰가 필요한 나라(영국 등)에서는 과소 진단(false negative)이 많다.
  • 근거/사례: 국가별 의료 시스템 차이. “referral system의 유무가 오진율에 큰 영향을 준다.”
  • 반론/대댓글: 없음. 다만 madrox의 ‘깔때기’ 논쟁과 연결되어 의료의 구조적 문제를 강조.
  • 내 판단: 원문의 독일 의사 사례(동종요법, 충격파)와도 연결된다. 국가별 인센티브와 문화가 진단의 질을 결정하므로, AI는 지역에 관계없이 일관된 두 번째 의견을 제공할 수 있다는 점에서 가치가 있다.

### [lazide] 데이터 중독(poisoning) 위험

  • 핵심 주장: 앞으로 AI 훈련 데이터는 악의적 콘텐츠로 오염될 것이며, ‘pre-SEO 인터넷’ 시절의 고품질 데이터는 더 이상 얻을 수 없다. 이는 모델 성능 향상을 막을 것.
  • 근거/사례: 현재 인터넷은 SEO 최적화 콘텐츠와 가짜 정보로 넘쳐나며, 의료 영상 데이터 역시 라벨 노이즈가 심각.
  • 반론/대댓글: aetherson은 “LLM은 훈련 과정에서 지식을 내재화하므로 데이터 중독이 심각한 영향을 미치지 않을 것”이라고 반박. operatingthetan은 “LLM은 훈련 후 새로운 경험을 통해 배우지 않으므로 데이터 중독이 치명적”이라고 재반박.
  • 내 판단: 이 논쟁은 AI 발전의 근본적 한계를 건드린다. 의료 영상 데이터는 특히 라벨링이 어렵고 비용이 많이 들어, 데이터 중독이 실제 문제가 될 가능성이 크다.

### [GuestFAUniverse] 독일 의료계의 ‘quackery’

  • 핵심 주장: 독일 대학병원에서도 간호사가 환자 테이프 색깔을 논쟁하고, 의사 절반이 동종요법을 권장하는 등 비과학적 관행이 만연하다.
  • 근거/사례: 원문에서 Traumeel 주사가 동종요법임을 지적한 것과 일치.
  • 반론/대댓글: 없음. 다만 다른 댓글에서는 이런 현상이 독일만의 문제가 아니라는 지적도 있음.
  • 내 판단: 원문 작성자가 선택한 정형외과가 과잉 치료 성향일 가능성을 높여준다. AI의 두 번째 의견이 더 가치 있어지는 상황.

### [skeptrune] LLM 앙상블 접근법 제안

  • 핵심 주장: 여러 LLM(Claude, GPT, Gemini)에 동일한 MRI를 돌려서 결과가 수렴하는지 확인하면 신뢰도를 높일 수 있다.
  • 근거/사례: “if they converge on similar findings, you can be more confident.”
  • 반론/대댓글: Paracompact는 “수렴을 보장할 수 없으며, 모든 모델이 동일한 오류를 공유할 수 있다”고 반박. 하지만 consensus1은 “앙상블이 그럴듯한 해결책”이라고 지지.
  • 내 판단: 현실적인 절충안이다. 하지만 비용(토큰)과 시간이 많이 들고, 환자 혼자 하기에는 부담이 크다. 의료 시스템 내에서 공식적인 앙상블 서비스가 나오길 기대함.

---

새로운 시각

### 신뢰 역설: 전문성의 정도와 AI 신뢰의 반비례 관계

원문과 댓글을 종합하면 한 가지 역설이 드러난다. 해당 분야에 대한 지식이 많을수록 AI에 대한 신뢰는 낮아지고, 지식이 적을수록 AI를 더 신뢰한다. 방사선과 의사(themantalope, sxg)는 AI의 오류를 쉽게 찾아내므로 불신하는 반면, 비전문가 환자(anon291, thewanderer1983)는 AI가 자신을 ‘구원했다’고 느낀다. 이는 Gell-Mann Amnesia 효과의 정반대이지만 같은 원리다. 결국 AI가 유용해지려면 전문가와 비전문가 모두에게 투명한 오류율과 한계를 명확히 알려야 한다. 현재는 그렇지 못하다.

### ‘깔때기’를 깨는 AI: 시스템적 편향에 대한 카운터웨이트

madrox의 ‘깔때기(funnel)’ 개념은 의료 시스템의 숨은 위험을 드러낸다. 한 번 특정 진단이 내려지면 모든 후속 결정이 그 방향으로 고정된다. AI는 이 편향을 깨는 역할을 할 수 있다. 하지만 동시에 AI도 훈련 데이터의 편향(예: 특정 인종·성별의 진단 패턴)을 답습할 위험이 있다. 원문의 사례에서 AI가 “파열 없음”을 주장한 것은 인간 의사의 과잉 진단에 대한 카운터웨이트로 기능했지만, 만약 AI가 인간과 동일한 편향을 가졌다면 오히려 위험을 증폭시켰을 것이다. 따라서 AI를 단순한 ‘제2의 의견’이 아니라 시스템적 편향을 검증하는 제3의 독립 감사자(auditor)로 보는 시각이 필요하다.

### 퍼즐과 미스터리의 경계 – 그리고 AI의 적합 영역

의료 진단은 대부분 퍼즐(명확한 정답이 있는 문제)과 미스터리(정답이 모호하거나 맥락 의존적인 문제)가 섞여 있다. MRI 판독은 상대적으로 퍼즐에 가깝지만(파열 유무, 종양 크기 등), 치료 계획은 미스터리(환자의 생활 방식, 선호도, 위험 감수성)에 더 가깝다. 원문의 LLM은 퍼즐(파열 유무)에 대해 자신 있게 답했지만, 인간 의사는 퍼즐을 오판하거나(과잉 진단) 미스터리(치료 선택)에서 부적절한 결정(동종요법)을 내렸다. 앞으로 AI가 퍼즐 영역을 완전히 대체하고 인간은 미스터리 영역(공감, 윤리, 환자 맞춤형 결정)에 집중하는 분업이 이상적이다. 하지만 현재 AI는 퍼즐도 불완전하고, 인간은 미스터리조차 제대로 못 하는 경우가 많다는 게 현실의 딜레마다.

---

자녀와 미래에 대한 시사점

### 다음 세대에게 필요한 ‘의료 리터러시’

자녀들이 성인이 될 2030~2040년대에는 AI 기반 건강 관리 도우미가 일상화될 가능성이 높다. 이때 중요한 것은 AI를 맹신하지도, 무조건 배척하지도 않는 비판적 사고력이다. 현재 학교 교육에서는 건강 정보를 평가하는 방법(출처 확인, 통계 이해, 오류 인식)을 거의 가르치지 않는다. 예를 들어 “초음파에서 석회화가 없다고 해서 절대 없다고 단정할 수 없다”는 식의 의학적 불확실성 교육이 필요하다. 또한 AI 출력의 확률적 성격(할루시네이션 가능성)을 이해하도록 가르쳐야 한다.

### 교육적 함의: AI를 ‘공동 학습 파트너’로 삼는 법

의료 정보 검색에서 AI는 구글보다 훨씬 강력한 도구다. 하지만 자녀들이 “ChatGPT가 이렇게 말했어요”라고만 주장하는 태도는 위험하다. 교육 현장에서는 AI 출력을 항상 교차 검증하고, 그 근거를 질문하며, 자신의 판단을 내리는 훈련이 필요하다. 예를 들어 학교 과학 시간에 AI에게 증상을 설명하고 나온 진단 후보들을 직접 교과서나 신뢰할 수 있는 의학 사이트와 비교해보는 활동을 할 수 있다. 이는 ‘정보 활용 능력(information literacy)’의 확장판이다.

### 의료 종사자로서의 함의: AI 보조 도구 도입의 핵심

사용자는 소화기·내시경·종양학 분야 종사자다. 이 분야에서 AI는 이미 내시경 영상의 병변 검출(예: 폴립 탐지)에서 인간을 능가하는 성과를 내고 있다. 하지만 원문과 HN 토론이 보여주듯, AI를 진단의 최종 판단자로 삼기에는 아직 한계가 명확하다. 의료 종사자로서 다음 세대를 위해 중요한 것은 AI를 ‘공동 판독자’(co-reader)로 도입하되, 그 한계와 오류 패턴을 교육 과정에 포함시키는 것이다. 특히 내시경에서 AI가 ‘절대 놓치지 말아야 할 병변’과 ‘과잉 검출로 인한 불필요한 생검’ 사이의 균형을 어떻게 가르칠지가 관건이다. 원문의 충격파 치료 사례처럼, 의료 현장에서는 가이드라인을 위반하는 비과학적 관행이 여전히 존재한다. AI는 이런 관행을 감시하는 감사 도구로도 활용될 수 있다는 점을 주목해야 한다.

---