Brown 시험에서 AI 부정행위 고발: 교육의 신뢰를 되찾을 수 있을까

2026-06-29 · 2026-06-29_brown-ai-cheating-professor-exam.md

#AI #education #academic-integrity #higher-education #cheating #future-of-work

원문 출처

Brown 시험에서 AI 부정행위 고발: 교육의 신뢰를 되찾을 수 있을까

한 줄 요약

Brown 대학 수리경제학 교수가 재택시험에서 최소 50명의 AI 부정행위를 적발했고, 대면 기말고사로 전환하자 평균이 96점→48점으로 폭락하면서 고등교육 평가 체계의 근본적 위기가 드러났다.

원문 핵심 내용

사건의 발단: 비정상적으로 높은 중간고사 성적

Brown 대학 경제학과 로베르토 세라노(Roberto Serrano) 교수는 2026년 3월 5일 ECON 1170(고급 수리경제학) 중간고사를 take-home(재택), closed-book(참고자료 금지) 방식으로 치렀다. 평소 수강생이 30명 이하, 때로는 8명뿐이던 이 과목에 그 학기엔 86명이 등록했는데, 처음으로 take-home 시험을 도입한 결과였다. 중간고사 결과는 이례적이었다. 100점 만점에 평균 96점, 만점자가 40명이나 나왔다. 채점자들은 답안지에서 “문제를 ChatGPT에 넣었을 때 나오는 결과와 일치하는 비정상적 대목”을 발견했다. 세라노 교수는 “부정행위에 대한 압도적 경험적 증거(overwhelming empirical evidence)”가 있다고 말했다.

대면 기말고사로 전환하자 드러난 진실

세라노 교수는 중간고사를 무효 처리하지 않았지만, 기말고사(최종 성적 50% 반영)는 대면 시험으로 바꾸겠다고 공지했다. 또한 “중간고사와 기말고사 점수 분포가 비슷하지 않으면 기말고사만 성적에 반영하겠다”고 덧붙였다. 결과는 충격적이었다. 기말고사 평균은 48점으로 떨어졌고, 중간고사 응시자 89명 중 59명만 기말고사에 출석했다. 결석한 27명 중 22명은 중간고사에서 만점을 받았던 학생들이었다. 이 수치는 부정행위가 체계적으로 이루어졌음을 입증한다.

교수의 고통과 대학의 침묵

세라노 교수는 34년간 Brown에서 재직하며 단 한 번, 아주 정당한 이유로 take-home 시험을 허용했다. 그 이유는 2025년 12월 13일 캠퍼스에서 발생한 총격 사건이었다. 48세 전 박사과정생이 경제학 기말고사 질의응답 세션에 총기를 난사해 2명이 사망하고 9명이 부상했다. 사망자 중 한 명인 엘라 쿡은 사건 발생 전 주 세라노 교수를 찾아와 진로 조언을 구했던 학생이었다. 부상자 중 두 명은 세라노 교수의 수업을 듣던 학생이었다. 교수는 학생들의 트라우마를 고려해 시험을 take-home 방식으로 바꾸기로 결정했다. “정신적으로 매우 힘든 시간을 보냈고, 학생들의 부담을 덜어주고 싶었다”고 회상했다.

그런데 그 결정이 대규모 부정행위로 이어졌다. 세라노 교수는 대학 고위 관계자에게 사건을 보고했지만, 총장은 침묵했고 학장은 사건이 Academic Code Committee로 넘어간 뒤에야 “wake-up call”이라는 메모를 보냈다. 교수는 “이런 규모의 사건에 대해 대학의 입장이 저것일 수 없다”며 분노했다. 또한 부유한 가정의 자녀들이 다니는 아이비리그 특성상 “아이들은 항상 의심의 혜택을 받는다”고 지적했다.

AI가 흔드는 130년 전통

Princeton은 1893년부터 이어진 Honor Code(명예 규약) 기반 무감독 시험을 올해 폐지하고, 교수가 직접 감독하는 대면 시험으로 전환했다. Stanford를 갓 졸업한 22세 기자 테오 베이커는 New York Times에 “나는 대학에서 어떤 과제를 처리하기 위해 AI를 사용하지 않은 사람을 단 한 명도 알지 못한다”고 썼다. 세라노 교수는 “진실, 품위, 정직을 더 이상 지키지 않는다면 학계가 어떤 신뢰성을 가질 수 있겠냐”며 고등교육의 미래를 위한 공개적 토론을 촉구했다.

교수의 후속 조치

다음 학년부터 세라노 교수는 평가 방식을 전면 개편한다. 주간 과제는 AI로 충분히 해결 가능하므로 성적에 반영하지 않는다. take-home 시험은 어떤 경우에도 다시 실시하지 않는다. “학문적 청렴성은 지킬 가치가 있는 가치”라고 그는 강조했다.

Hacker News 커뮤니티 반응

댓글 처리 기록: HN 댓글 4개 chunk(추정 수백 개 댓글)를 읽고, 13개의 세부 논점으로 재구성. 각 논점은 핵심 주장, 근거, 반론, 대표 작성자 순서로 정리.

대면 필기시험 회귀 주장 – recursivedoubts의 경험과 반론

주장: AI 시대에는 시험을 대면·손글씨로 돌려야 한다. 근거: recursivedoubts(작성자 자신의 강의 조정 경험)는 “몬태나 주립대에서 시험 환경을 구축하기 어려웠다”며, 대학이 대형 강의실과 복사기 같은 ‘컴퓨터 이전 인프라’를 갖춘 덕분에 오히려 학위의 신호 가치가 높아질 것이라고 주장했다. 그는 자신의 관련 에세이 링크(htmx.org/essays/universities-and-ai/)를 공유했다. 반론/대댓글: gchallen은 “시간 제한 평가는 단기 암기만 측정할 위험이 있다”고 지적하며, 일리노이대 CBTF(고빈도 컴퓨터 기반 시험) 시스템을 예시로 들었다. walrus01은 손글씨 강제는 불필요하며 “유선 NIC만 연결된 구형 PC + 리브레오피스 + USB 포트 에폭시 처리” 같은 저렴한 락다운 솔루션을 제안했다. 1659447091은 면접형 평가(화이트보드 인터뷰)가 가장 현실적이며, 라즈베리파이 기반 LEAP 프로젝트를 소개했다. 대표 작성자: recursivedoubts, gchallen, walrus01, 1659447091

필기시험 속도 논쟁 – 이해도 vs 타자 속도

주장: 시험에서 필기 속도를 중요시하는 것은 어리석다. 시험은 이해도를 보는 것이지 WPM(분당 단어 수)을 재는 것이 아니다. 근거: forgetfreeman(50대)은 “속도 최적화 시험은 무의미하다”고 주장했다. 반론/대댓글: xp84는 “시간은 유한하고 감독관도 유한하므로 타이핑 속도는 공정성에 영향을 준다”고 반박했다. kalenx는 “이해도가 높은 학생은 더 간결·명확하게 답하므로 시간이 덜 걸린다”는 반론을 펼쳤다. sethammons은 “속도는 유창성(fluency)의 일부이며 이해와 관련된다”고 지적했다. 대표 작성자: forgetfreeman, xp84, dwattttt, sethammons, kalenx

손글씨 강제 논쟁 – 학습 효과 vs 강제의 역효과

주장: 손글씨(특히 필기체)는 운동 능력과 학습에 도움되므로 강제해야 한다. 근거: customguy는 “치아 닦듯 필기체를 강제해야 한다”며 관련 연구를 인용했다. shagie도 치의학 연구 논문을 인용해 필기체의 미세운동 발달 효과를 주장했다. 반론/대댓글: encomiast는 필기체에 대한 혐오를 표현했고, subygan은 “필기체를 배웠지만 손글씨가 형편없어 컴퓨터 시험에 감사한다”고 반박했다. vector_spaces는 “강제 교육이 오히려 트라우마를 유발할 수 있다”(자신의 수학 실패 경험 예시)고 경고했다. 대표 작성자: customguy, encomiast, shagie, subygan, vector_spaces

문화와 제재 회복론 vs 구조적 압박론 – 두 축의 충돌

주장(문화론): 부정행위를 줄이려면 명예 규약 문화와 엄격한 제재(퇴학)를 회복해야 한다. 근거: BinRoo는 UVA(버지니아 대학)의 전통적 Honor Code가 단일 제재(퇴학)로 효과적이었다고 분석했다. lcampbell은 실제 UVA에서 퇴학 사례를 경험했으며, 이후 규약이 완화되면서 부정행위가 늘었다고 증언했다. 반론/대댓글(구조론): willis936은 “교육이 더 이상 호기심 추구가 아니라 재정적 거래로 전락했다. 성인이 만든 시스템의 자연스러운 결과”라고 반박했다. nerdsniper와 thaumasiotes는 “구글 시대 초창기부터 교육은 재정적 투자로 팔렸다”며 구조적 문제가 더 오래되었다고 주장했다. consensus1은 “학점 자체가 무의미해졌다. 학위는 단순한 관문일 뿐”이라고 급진적 주장을 펼쳤다. 대표 작성자: BinRoo, willis936, consensus1, lcampbell

학위의 신호 기능 상실과 학점 인플레이션

주장: 성적은 더 이상 학습 능력을 반영하지 않으며, 학위는 돈과 네트워크로 얻는 상품이 되었다. 근거: yiyingzhang은 “기업들이 학점을 요구하지만 교수들이 무료로 스크리닝을 해줄 이유가 없다”고 주장했다. hazard는 “학부 교육은 순수한 학위 세탁기이며, 졸업 후 성적을 물어본 적은 단 두 번뿐. 학교 이름만 중요하다”는 경험담을 공유했다. Barrin92는 미국 대학을 “유료 탁아소”라고 비판하며, 독일식(숙제 미채점, 필기시험, 70% 탈락)을 대안으로 제시했다. 반론/대댓글: userbinator는 “그런 태도가 대학 평판을 망친다”고 반박했다. rahimnathwani는 “교수는 급여를 받고 일하며, 학위는 고객(학생)이 구매하는 상품”이라고 지적했다. 대표 작성자: yiyingzhang, hazard, Barrin92, rahimnathwani, userbinator

부정행위의 역사적 연속성 – AI는 양적 변화인가 질적 변화인가

주장: AI 이전에도 부정행위는 만연했지만, AI는 그 규모와 쉬움을 극적으로 변화시켰다. 근거: (chunk 1 종합) 다수의 댓글 작성자들은 “컨닝 페이퍼, 숨긴 iPad, 휴대폰, 시험 중 속닥거림 등은 전통적인 부정행위 수단”이라고 인정하면서도, “AI가 복잡한 추론까지 대체할 수 있게 되면서 더 이상 전통적인 탐지 방법이 통하지 않는다”는 차이를 지적했다. tty456은 “교수가 100% 정확하게 적발했다고 볼 수 없으며, 학생들의 인생을 망칠 위험이 있다”고 우려했다. lokar는 “스스로 부정행위를 선택한 것”이라고 반박했다. 반론/대댓글: xp84는 “중간고사에서 AI로 만점을 받고 기말고사에 아예 오지 않은 학생들”을 지목하며 부정행위의 명백함을 강조했다. beloch는 “시험이 너무 어려워 학생들이 AI에 의존할 수밖에 없었다”는 반론을 제기했다. 대표 작성자: tty456, lokar, xp84, beloch

시험 방식 혁신의 실제 사례 – 구술 면접, 고빈도 퀴즈, 프로세스 평가

주장: 1:1 구술면접이나 고빈도 퀴즈가 AI 부정행위를 방지하는 현실적 대안이다. 근거: JoshTriplett와 bkallus는 “1:1 면접이 이상적이지만 대규모 강좌(500명 이상)에서는 확장성이 문제”라고 지적했다. panicinducer는 “학생당 20~30분도 못 내겠다는 건가”라고 반문했다. gchallen은 일리노이대 CBTF 시스템(주당 퀴즈가 성적의 70%)을 소개했다. 반론/대댓글: userbinator는 “의심되는 학생만 인터뷰”하는 절충안을 제시했다. jdshaffer는 일본 시즈오카 대학에서 실제 적용 중인 두 가지 방법을 상세히 공개했다: (1) 강제 기술 습득 목표 – 첫날 필기시험 예고, 숙제는 제출만 만점; (2) 강제 LLM 마찰 – 그림 보고 손글씨로 250자 단편소설 쓰기 과제. LLM을 사용하려면 그림 묘사 → 생성 → 손으로 옮겨쓰는 번거로움이 더 커서 차라리 직접 쓰는 게 쉽다는 원리. 대표 작성자: JoshTriplett, bkallus, gchallen, jdshaffer, panicinducer

AI 탐지의 한계와 거짓 양성 위험

주장: AI 탐지 도구는 신뢰할 수 없으며, 거짓 양성(부정행위를 하지 않은 학생을 부정행위자로 판정)이 용납될 수 없다. 근거: theamk(두 곳에서 언급)는 “1% 거짓 양성도 용납 불가능하며, AI 탐지 도구를 계속 쓰는 교수는 비합리적”이라고 주장했다. 그는 미래는 감독 시험(종이 또는 통제된 기기)으로 갈 것이라고 전망했다. aneesh는 AI 부정행위 대응을 세 가지(처벌·방지·수용)로 정리하고, 기초과목에는 실시간 평가(구술/오프라인)만이 유일한 해결책이라고 봤다. 반론/대댓글: (직접적 반론보다는, theamk의 주장에 동의하는 분위기) 대표 작성자: theamk, aneesh

오프라인 부정행위의 진화 – AR 안경, 이어폰, 블루투스 탐지

주장: AI 부정행위 방지에 기술이 필요한 것은 맞지만, 오프라인 부정행위도 진화하고 있어 기술-대-기술의 무한 경쟁이 우려된다. 근거: bagels는 “증강현실(AR) 안경이 곧 문제가 될 것”이라고 우려했다. sarchertech, walrus01, baby_souffle 등은 “열화상 카메라·비선형 접합 검출기·산업용 CT 등으로 대응 가능하다”고 반론했다. theamk는 블루투스·WiFi 탐지기가 존재하지만 아직 보편화되지 않았다고 지적했다. 반론/대댓글: wombatpm은 80년대 일리노이대 PLATO 시스템(유연하지 않은 시스템) 경험을 언급하며 “유연하지 않은 시스템으로 돌아가지 말라”고 경고했다. 대표 작성자: bagels, sarchertech, walrus01, theamk, wombatpm

Brown 사례에 대한 직접 평가 – 스캔들 규모와 교수 책임

주장: Brown의 50명 부정행위는 아이비리그 최대 스캔들이 아니며, 교수 자신도 시험 설계에 책임이 있다. 근거: tropdrop은 Harvard의 500명 규모 강좌에서 더 큰 사례가 있었을 것이라고 의심했다. (반론: gchallen은 아이비리그 학급 규모가 작다는 점을 들어 50명도 상당한 숫자라고 반박.) beloch는 “교수가 34년 만에 처음으로 재택시험을 냈는데, 시험이 너무 어려워 학생들이 AI에 의존했을 것”이라고 분석했다. steve_taylor는 “책임은 교수에게 있다”며 동의했다. 반론/대댓글: sgustard는 “아이비리그에 들어온 학생이 부정행위를 하면 자동 퇴학이 옳다”고 주장했다. tty456은 “교수가 과민반응하고 있다”고 반박했다. 대표 작성자: tropdrop, gchallen, beloch, steve_taylor, sgustard, tty456

교육의 탈학교화 논쟁 – Illich의 꿈 vs 현실

주장: 시험과 인증이 없는 교육 시스템이 옳다. Ivan Illich의 ‘탈학교화 사회’를 따르자. 근거: zabzonk는 Illich의 제안을 인용하며 “교육은 시험과 인증이 아니라 학습 그 자체여야 한다”고 주장했다. 학습자 중심의 열린 교육을 강조했다. 반론/대댓글: JumpCrisscross는 “시험 없는 학습은 실패한 실험”이라고 강력 반론했다. “AI 채팅으로 배웠다고 착각하는 사람들 사례처럼, 평가와 책임이 없으면 빈부격차만 심화된다. 뉴욕·캘리포니아의 ‘성적은 인종차별’ 운동이 오히려 빈부격차를 심화한 사례를 보라”고 지적했다. 대표 작성자: zabzonk, JumpCrisscross

AI 사용을 부정행위로 규정하는 게 시대에 뒤떨어졌다는 주장

주장: 업계에서는 AI 사용이 협업이나 배움의 일부로 인정되는데, 학계만 부정행위로 규정하는 것은 구시대적이다. 근거: MattGaiser와 tancop는 “부정행위 개념은 학계에만 고유하며, 업계에서는 AI 사용이 자연스럽다”고 주장했다. AI 활용 능력을 오히려 평가해야 한다는 논리. 반론/대댓글: jonahx는 “결혼, 스포츠, 회계 등 모든 분야에서 부정행위는 존재한다. 규칙 위반은 규칙 위반”이라고 반박했다. tancop은 “학교 부정행위는 직접적 피해자가 없다는 점에서 다르다”고 재반박했다. bryanlarsen은 “AI를 도구로 사용하는 것과 시험에서 사용하는 것은 다른 문제”라고 지적했다. 대표 작성자: MattGaiser, tancop, jonahx, bryanlarsen

구체적 기술 대안 토론 – 락다운 PC, 타자기, 라즈베리파이

주장: 손글씨까지 갈 필요 없이 기술적으로 부정행위를 차단할 수 있다. 근거: walrus01은 유선 NIC만 연결된 구형 PC + 리브레오피스 + USB 포트 에폭시 처리. 1659447091은 라즈베리파이+빔 조합과 LEAP 프로젝트 소개. paul7986은 타자기 부활을 제안. loloquwowndueo는 “타자기는 컴퓨터보다 비싸고 리본 구하기도 어렵다”고 반박. 반론/대댓글: shagie는 AP 뉴스 기사(대학 교수가 타자기로 과제를 내 사례)를 인용했다. tialaramex는 영국 대학 IT 담당자로서 장애 학생을 위한 락다운 워드 시험 환경을 운영 중이라고 증언했다. 대표 작성자: walrus01, 1659447091, paul7986, loloquwowndueo, shagie, tialaramex

대학의 진정한 목적 – 학습 vs 학위 발급 vs 인맥 형성

주장: 대학은 더 이상 학습 장소가 아니라 학위 발급·인맥 형성 도구일 뿐이다. 근거: jongjong은 “학문적 진실성은 이미 존재하지 않으며, MIT도 허구”라고 주장했다. adithyassekhar는 “인맥이 실제 능력보다 중요하다”며, 고가의 학위 판매에 집중해야 한다고 봤다. Barrin92는 다시 독일식 교육 시스템을 예로 들며 “미국은 70% 탈락을 용납하지 못해 문제를 고치지 않는다”고 비판했다. 반론/대댓글: adamnemecek는 “이 기술이 고등교육을 종말시키길 바란다”고 공개적으로 선언했다. hresvelgr는 “LLM은 독학자에게 최고의 도구인데 시험 부정행위에 쓰는 것은 심각한 낭비”라고 안타까워했다. 대표 작성자: jongjong, Barrin92, adithyassekhar, adamnemecek, hresvelgr

새로운 시각

총격 사건이 만든 아이러니 – 연민이 부정행위를 낳다

원문에서 가장 충격적인 점은 세라노 교수의 take-home 시험 결정이 학생에 대한 연민에서 비롯되었다는 사실이다. 그는 총격 사건으로 인한 학생들의 정신적 트라우마를 덜어주기 위해, 34년 만에 처음으로 재택 시험을 허용했다. 그런데 그 결정이 대규모 부정행위를 가능하게 했다. 이것은 단순한 부정행위 사건을 넘어, 신뢰의 순환 고리가 깨지는 순간을 보여준다. 교수가 학생을 신뢰하기 위해 노력할수록, 그 신뢰가 더 큰 배신을 낳는 역설이다. 마치 의료에서 환자의 자가 보고에만 의존했다가 진단이 빗나가는 것과 같다. 신뢰는 반드시 검증 가능한 시스템 위에서만 작동해야 한다는 교훈을 준다.

AI 부정행위의 비대칭성 – 노력의 방향이 바뀌었다

전통적 부정행위(컨닝 페이퍼, 몰래 보는 휴대폰)는 상당한 준비와 위험을 수반했다. AI 부정행위는 문제를 복사해서 붙여넣는 것만으로 완료되며, 위험은 적고 보상은 크다. 이것은 비대칭적 유인 구조(asymmetric incentive structure)를 만든다. 교수나 학교가 부정행위 방지에 드는 노력(감독, AI 탐지, 수업 재설계)은 자원이 많이 드는 반면, 학생의 부정행위 비용은 거의 제로에 가깝다. 이러한 비대칭성은 게임 이론의 ‘죄수의 딜레마’를 연상시킨다. 사회 전체가 협력(청렴)하는 것이 최선이지만, 개인은 항상 배신(부정행위)할 유인이 더 크다. 따라서 단순한 처벌 강화나 기술적 방어만으로는 해결되지 않으며, 근본적 유인 구조의 재설계가 필요하다.

평가의 신호 가치와 학습의 분리 가능성

HN 댓글에서 여러 번 언급된 ‘학위 = 인맥 + 신호’라는 관점은, AI 시대에 평가의 목적을 재정의하도록 강요한다. 만약 대학이 진정한 학습이 아닌, 단지 필터링(신호) 역할만 한다면, AI 부정행위는 그 신호를 무력화시킨다. 반대로, 진정한 학습이 목적이라면 시험 방식 자체보다는 학습 프로세스의 투명성과 지속적 평가가 중요해진다. 이 두 가지 목적(신호 vs 학습)이 혼재되어 있는 현재 대학 시스템이 AI에 의해 붕괴되고 있다는 점은 비자명한 통찰이다. 앞으로는 ‘무엇을 가르쳤는가’보다 ‘어떻게 학습했는가’를 증명할 수 있는 포트폴리오나 프로젝트 기반 평가가 더 중요해질 것이다. 의료 분야에서도 단순한 시험 점수보다 실제 임상 판단 능력이 더 중시되는 것과 같은 흐름이다.

자녀와 미래에 대한 시사점

다음 세대에게 필요한 능력 – AI 활용과 윤리적 판단의 균형

이 사건은 아이들이 단순히 AI 사용을 배우는 것을 넘어, AI를 언제 사용하고 언제 사용하지 말아야 하는지를 가르쳐야 한다는 점을 시사한다. 현재 학교 시스템은 AI 사용을 ‘부정행위’로 규정하며 금지에 초점을 맞추지만, 앞으로는 AI를 도구로 활용하면서도 자신의 사고력을 유지하는 방법을 가르치는 것이 더 중요하다. 마치 계산기가 수학 교육을 없애지 않고 더 높은 수준의 문제 해결로 이끈 것처럼, AI는 암기와 단순 추론을 대체하고 대신 비판적 사고, 창의성, 윤리적 판단을 강조하는 교육으로 나아가야 한다. 부모로서 아이에게 “AI가 답을 알려줄 수 있지만, 그 답이 옳은지, 왜 그런지, 어떤 가정이 숨어 있는지 스스로 생각해야 한다”는 태도를 길러주는 것이 중요하다.

교육 시스템의 변화 방향 – 신뢰에서 검증으로

앞으로 10~20년 안에 학교의 평가 방식은 크게 변할 것이다. take-home 시험이나 에세이 과제는 AI로 쉽게 대체될 수 있으므로, 구술시험, 실시간 프로젝트 발표, 협업 및 토론 기반 평가가 보편화될 것이다. 또한 ‘학습 과정 자체를 평가하는 시스템’(예: jdshaffer의 강제 LLM 마찰 방식)이 확산될 것이다. 중요한 것은 미래 세대가 자신이 배운 것을 스스로 설명하고 방어할 수 있는 능력을 키우는 것이다. 의료 분야에 종사하는 사용자로서, 이는 의대 교육에서 AI 진단 도구를 보조 도구로 사용하되, 궁극적인 임상 판단은 인간이 내려야 하는 교육 방식의 변화와도 연결된다.

의료 분야의 함의 – 진단의 무결성과 환자 신뢰

사용자의 전문 분야(소화기내시경, 종양학)에서도 AI 진단 보조 도구(예: 폴립 검출 AI, 병리 판독 AI)가 빠르게 도입되고 있다. Brown 사건은 의료 교육과 진단에도 중요한 경고를 준다. 만약 의대생이나 레