엉뚱한 질문으로 구성된 헛소리벤치 등장...앤트로픽이 상위권 싹쓸이
by | TECH_ESSAY | 2026-04-06
#AI핵심 포인트
- AI 모델의 거부 능력을 측정하는 새로운 벤치마크 BullshitBench가 등장했다.
- Claude Sonnet 4.6은 91%의 거부율로 1위를 차지하며 높은 절제력을 보여주었다.
- 정답 능력보다는 잘못된 전제를 인식하고 거부하는 능력이 더 중요하다는 시사가 있다.
이런 분에게 추천: AI 모델 개발자, 자연어 처리 연구자, 벤치마크 분석에 관심 있는 개발자.