소설·의학논문·법률계약 등 4개 분야 115개 질문
거짓 정보 만들지 않은 유일한 모델이 클로드로 입증
거짓 정보 만들지 않은 유일한 모델이 클로드로 입증

이번 시험은 소설, 의학 연구, 법률 계약서, 정치 연설 등 4개 분야에서 모두 115개 질문으로 진행했다. 각 분야 전문가들이 AI 도구들의 답변을 10점 만점으로 매겼다.
종합 결과에서 클로드가 1위를 차지했으며, 거짓 정보를 만들어내지 않은 유일한 모델로 나타났다. 반면 챗GPT를 비롯한 나머지 4개 도구는 모두 거짓 정보를 만들어냈다.
워싱턴포스트는 이번 시험에서 AI 도구들이 전체 평균 70% 밑돌았다고 밝혔다. 이는 일반 학점 기준으로 D+ 수준에 해당한다.
◇ 분야마다 성과 차이 뚜렷...문학 분야서 가장 어려워해
분야별 시험 결과를 보면 AI 도구들의 성과 차이가 뚜렷하게 나타났다. 문학 분야에서는 챗GPT가 10점 만점에 7.8점으로 1위를 기록했고, 클로드가 7.3점으로 뒤를 이었다. 반면 제미나이는 2.3점으로 꼴찌를 기록했다.
크리스 보잘리안(Chris Bohjalian) 작가는 자신의 올해 작품 '자칼의 여주인(The Jackal's Mistress)'에 대한 AI 분석을 살펴본 뒤 "클로드만 모든 사실을 제대로 파악했다"고 말했다. 그는 특히 제미나이 답변에 대해 "틀렸고 헷갈리게 하며 성의 없는 읽기"라고 평가했다.
보잘리안 작가는 또 "AI 도우미들이 지나치게 긍정적이어서 노예제도와 남북전쟁을 제대로 다루지 못하는 경우가 많다"고 지적했다. 그는 "챗GPT에서 나온 책 요약조차 책 뒷면에 나올 법한 홍보 문구 같았다"며 "이 책의 다섯 주요 인물 가운데 세 명만 다뤘고, 이전에 노예였던 두 사람의 중요한 역할을 무시했다"고 설명했다.
법률 분야에서는 클로드가 6.9점으로 1위를 차지했다. 스털링 밀러(Sterling Miller) 변호사는 "클로드가 시험용 임대계약서에 대한 고칠 점 제안에서 완벽한 답변을 냈다"며 "미묘한 차이를 파악하고 정확하게 내용을 배치했다"라고 평가했다. 반면 메타 AI는 2.6점으로 꼴찌였다.
밀러 변호사는 "때때로 메타 AI와 챗GPT는 계약서의 복잡한 부분을 한 줄 요약으로 줄이려 했다"며 "그건 기본적으로 쓸모없다"고 말했다. 그는 또 "더 나쁜 것은 봇이 때때로 중요한 미묘한 차이를 알아채지 못하는 것 같았다"고 덧붙였다.
의학 분야에서도 클로드가 7.7점으로 1위를 차지했다. 에릭 토폴(Eric Topol) 심장전문의는 롱 코비드 논문 요약에서 클로드에게 10점 만점을 주며 "여러 종류의 환자 결과를 나누는 데 도움이 됐고 코로나 환자를 치료하는 의사들을 위한 핵심 내용을 잘 강조했다"고 설명했다.
정치 분야에서는 챗GPT가 7.2점으로 1위를 기록했다. 캣 자크르제브스키(Cat Zakrzewski) 워싱턴포스트 기자는 "챗GPT가 트럼프 대통령의 100일 집회 분석에서 구체적인 예를 효과적으로 끌어냈다"고 평가했다.
자크르제브스키 기자는 "AI 도구들이 트럼프의 말투를 전달하는 데 가장 어려워했다"며 "예를 들어 100일 집회에 대한 코파일럿 요약은 사실에 맞게 정확했지만, 그 격렬한 성격을 담아내지 못했다"고 말했다.
◇ AI 도구 한계 여전...중요 정보 빠뜨리고 긍정적 내용만 강조
전문가들은 이번 시험을 통해 AI 도구들의 여러 한계를 확인했다고 밝혔다. 보잘리안 작가는 "AI 요약이 종종 중요한 정보를 빠뜨리고 긍정적인 정보만 지나치게 강조한다"며 "사람 가면 뒤에 숨어 있는 로봇이 실제로는 이해하지 못하는 것에 대해 전문가인 척하는 것을 볼 수 있다"고 지적했다.
밀러 변호사는 "AI가 변호사를 대신할 수는 없지만, 변호사를 뽑기 어렵거나 문서를 꼼꼼히 읽는 동안 참고용으로 쓰기에는 괜찮은 해결책"이라고 평가했다. 그는 또한 "두 개 이상 AI 도구를 써서 문서를 돌려보고 결과를 견주는 것이 좋다"고 제안했다.
토폴 의사는 "서로 다른 질문에 대한 답변이 얼마나 다른지 매우 놀랐다"며 AI 도구들의 일관성 부족을 지적했다.
전문가들은 한 분야에서 AI 도구가 잘한다고 해서 다른 분야에서도 잘하는 것은 아니라고 강조했다. 예를 들어 챗GPT는 정치와 문학에서는 최고였지만 법률에서 거의 꼴찌에 머물렀다.
밀러 변호사는 마지막으로 "여러분 삶에서 정말 중요한 것이 있다면, 시간을 내어 직접 읽어볼 만하다"고 조언했다.
박정한 글로벌이코노믹 기자 park@g-enews.com