AI 연구
AI의 현실 점검: LLM을 무너뜨린 벤치마크
몇 달 동안 AI 리더보드는 현실을 반영하지 않는 벤치마크에서 모델들이 경쟁하며 거짓말처럼 느껴졌습니다. DeepSWE라는 새로운, 입소문 난 벤치마크가 방금 진실을 드러냈고, 충격적인 성능 격차를 밝혀냈습니다.
기사 읽기→
Tag
3 개 게시물
몇 달 동안 AI 리더보드는 현실을 반영하지 않는 벤치마크에서 모델들이 경쟁하며 거짓말처럼 느껴졌습니다. DeepSWE라는 새로운, 입소문 난 벤치마크가 방금 진실을 드러냈고, 충격적인 성능 격차를 밝혀냈습니다.
Berkeley 연구진이 AI 개발의 핵심에 있는 거대한 사기를 폭로했습니다. 최고 모델들은 추론하는 것이 아니라 속이고 있으며, 여러분이 신뢰하는 순위표는 망가졌습니다.
제미니 3 플래시는 30초 만에 코드를 생성하여 5분이 걸리는 모델들을 능가합니다. 그러나 숨겨진 결함으로 인해 심각한 프로젝트에는 위험한 선택이 될 수 있습니다.