AI 도구 등록

Tag

#benchmarks

3 개 게시물

AI의 현실 점검: LLM을 무너뜨린 벤치마크

AI의 현실 점검: LLM을 무너뜨린 벤치마크

몇 달 동안 AI 리더보드는 현실을 반영하지 않는 벤치마크에서 모델들이 경쟁하며 거짓말처럼 느껴졌습니다. DeepSWE라는 새로운, 입소문 난 벤치마크가 방금 진실을 드러냈고, 충격적인 성능 격차를 밝혀냈습니다.

2026년 5월 27일기사 읽기→

AI의 수십억 달러 벤치마크 거짓말

AI의 수십억 달러 벤치마크 거짓말

Berkeley 연구진이 AI 개발의 핵심에 있는 거대한 사기를 폭로했습니다. 최고 모델들은 추론하는 것이 아니라 속이고 있으며, 여러분이 신뢰하는 순위표는 망가졌습니다.

2026년 4월 19일기사 읽기→

구글의 제미니 플래시: 너무 빠르고, 너무 결함이 많나?

구글의 제미니 플래시: 너무 빠르고, 너무 결함이 많나?

제미니 3 플래시는 30초 만에 코드를 생성하여 5분이 걸리는 모델들을 능가합니다. 그러나 숨겨진 결함으로 인해 심각한 프로젝트에는 위험한 선택이 될 수 있습니다.

2025년 12월 18일기사 읽기→

← Stork.AI 블로그