본지 실험 결과 제미나이, 챗GPT 오답률 각각 13.5%, 10% 기록, “초라한 성적표”

최근 돌봄을 중심으로 사회복지 분야에선 AI와 로봇의 도입이 적극적으로 이뤄지고 있다. 돌봄 인력의 부족으로 인한 대안으로, 사회적 자원의 낭비를 최소화하기 위해 첨단 기술의 적용이 앞다퉈 이뤄지고 있기 때문이다. 만약 인공지능(AI)가 사회복지사 시험을 치른다면 그 결과는 어떨까?
지난 17일 서울의 각 고사장에서는 한국산업인력공단이 시행하는 제24회 사회복지사 1급 국가자격시험이 있었다. 이날 치러진 시험문제를 입수해 3교시에 걸쳐 제공된 총 200문항을 챗GPT 5.2과 제미나이 Pro의 각 유료 버전에게 각각 풀어보게 했다.
이 시도는 일종의 간이 테스트로, 그 과정에서 입력된 명령어(프롬프트)와 방법에 대한 학술적인 검토도 이뤄지지 않았기 때문에 자격시험 문항에 대한 오류 혹은 시험의 신뢰성에 대한 지적으로 받아들여서는 안 된다. 실제로 AI의 특정 시험에 대한 ‘저득점’, 즉 기대 이하의 정확도는 이미 여러 차례 증명된 바 있다.
이는 지난해 11월 13일 치러진 2026학년도 대학수학능력시험을 통해서도 확인됐다. 시험 직후 연세대 인공지능융합대 첨단융합공학부 김시호 교수 연구팀은 챗GPT(GPT-5), 제미나이(2.5 플래시) 등의 AI 모델 무료 버전을 대상으로 2026년도 수능 국어·영어·수학 영역을 풀어보게 했다. 연구팀의 실험에서 국어 공통영역 76점 만점에서 제미나이는 42점, 챗GPT는 37점을 기록했고, 수학 공통영역 74점 만점에서는 62점, 70점의 순이었다. 영어는 100점 만점에 63점, 86점을 획득한 바 있다. 이 정도 수준이라면 서울에 위치한 4년제 대학의 합격도 어려울 것이라는 것이 전문가들의 평가였다.
네이버클라우드와 카이스트가 발표한 ‘한국 교육 표준을 이용한 멀티모달 생성형 AI 평가’ 논문에서도 AI 모델들은 수능 문제를 어려워하는 것으로 나타났다. 논문에 따르면 GPT-4o, 제미나이 1.5 프로, 하이퍼클로바X, 클로드 3.5 소네트가 고등 검정고시에서 최고 90%대까지 높은 정확도를 기록했지만, 수능 문제 정확도는 50% 초반에서 60% 중반으로 떨어졌다.
사회복지사 1급 국가자격시험에 대한 테스트 결과 전체 200문항 중 제미나이의 오답은 27개로 오답률이 13.5%에 달했고, 챗GPT의 오답은 20개로 10%에 달했다. 이어 오답 문제를 다시 확인하게 해 정정하도록 시도해 봤더니 제미나이의 오답은 7개로 3.5%의 오답률을 보였고, 챗GPT는 오답 10개로 5%의 오답률을 기록했다. 흥미로운 부분은 두 개의 AI가 모두 오답을 고집한 문항의 수가 적고, 서로 다른 오답을 주장하는 경우가 많았다는 것이다. 두 AI의 공통 오답 비율은 전체 문항 대비 2%에 불과했다.
두 AI 모두 3교시에 치러지는 시험 중 ‘사회복지정책과 제도(사회복지법제론)’ 부분을 어려워했다는 점도 눈에 띈다. 첫 테스트에서 전체 25개 문항 중 제미나이는 무려 76%의 오답률을 기록했고, 챗GPT도 32%를 기록했다. 이어 재점검을 요구했을 때 제미나이의 오답률은 12%까지 떨어졌지만, 챗GPT는 그보다 높은 24%를 나타냈다.
사회복지사 1급 국가자격시험을 합격하려면, 총 문항 중 정답률 60%를 기록해야 하고, 각 교시당 정답률이 40% 이상이어야 한다. 이를 기준으로 한다면 두 AI 모두 일단 합격 자격은 획득할 수 있는 셈이다. 그러나 상당수 지원자들이 자격증 학습에 AI에 의지하는 것이 대세가 된 상황에서, 이 결과는 초라한 성적표라고 할 수 있다.







