아티클을 불러오는 중...

엉뚱한 질문으로 구성된 헛소리벤치 등장...앤트로픽이 상위권 싹쓸이

by | TECH_ESSAY | 2026-04-06

#AI

핵심 포인트

AI 모델의 거부 능력을 측정하는 새로운 벤치마크 BullshitBench가 등장했다.
Claude Sonnet 4.6은 91%의 거부율로 1위를 차지하며 높은 절제력을 보여주었다.
정답 능력보다는 잘못된 전제를 인식하고 거부하는 능력이 더 중요하다는 시사가 있다.

이런 분에게 추천: AI 모델 개발자, 자연어 처리 연구자, 벤치마크 분석에 관심 있는 개발자.