OLMo 3: 개발자 및 연구자를 위한 진정한 오픈소스 LLM

💡

TL;DR / Key Takeaways

새로운 AI 모델이 '오픈 소스'의 정의를 다시 썼으며, 개발자들에게 전례 없는 권한을 부여했습니다. OLMo 3가 폐쇄형 모델이 복제할 수 없는 투명한 AI의 청사진인 이유는 다음과 같습니다.

오픈소스 AI는 신뢰 문제를 안고 있습니다.

오픈소스 AI는 모든 것을 얻는 것을 의미했습니다: 모델, 코드, 데이터, 그리고 이를 모두 결합한 레시피. 2025년에는 보통 오픈 웨이트의 압축 파일과 편집된 세부 사항이 가득한 블로그 게시물이 의미하는 바가 되었습니다. 메타에서 미스트랄, 오픈AI에 이르는 연구소들은 점점 더 "오픈" 모델을 출시하고 있으며, 파라미터는 공개되지만, 훈련 자료, 필터링 규칙, 강화 학습 파이프라인은 잠겨 있습니다.

그 변화는 조용히 "열린" 모델을 블랙 박스로 전환시킵니다. 당신은 Llama, Qwen, 또는 Gemma를 자신의 GPU에서 실행할 수 있지만, 실제로 이들을 재현하거나, 그들의 행동을 대규모로 감사하거나, 특정 사실을 어떻게 학습했는지를 검증할 수는 없습니다. 기본적인 질문에 답해보려고 해도—이 모델은 어떤 사이트에서 데이터를 긁어왔나요? 어떤 언어가 그 코퍼스를 지배하나요? RLHF가 그 행동을 어떻게 변화시켰나요?—당신은 NDA와 모호한 문서의 장벽에 부딪히게 됩니다.

연구자들은 이를 “오픈 웨이트”라고 부르는 이유가 있다: 최종 숫자만 제공된다. 누락된 요소들—훈련 데이터, 중간 체크포인트, 최적화 설정, RL 스크립트, 안전 필터—가 진정한 과학이 존재하는 곳이다. 이 없이는 편향을 엄격하게 연구하거나, 회귀 현상을 추적하거나, 안전 개입을 테스트할 수 없다. 실험을 재현할 방법이 없기 때문이다.

그 불투명성은 AI 커뮤니티가 원하는 것과 정면으로 충돌합니다: 투명성, 재현성, 그리고 의미 있는 감독. 학술 연구소와 독립 개발자들은 시스템이 왜 환각을 일으키거나 차별을 하며 저작권 텍스트를 유출하는지를 이해하고자 한다면 데이터 혼합물을 검사하고, 훈련 결과를 비교하며, 모델 출력을 출처로 추적해야 합니다. 반면 기업 연구소는 비밀을 책임으로 프레임하여 데이터와 방법을 숨기는 것이 오용을 방지하고 “안전-critical” 지적 재산을 보호한다고 주장합니다.

결과적으로 이러한 모델을 바탕으로 발전시켜야 하는 사람들을 실망시키는 일종의 유사 개방성이 나타납니다. 개발자들은 70억 또는 320억 체크포인트를 미세 조정할 수 있지만, 그 뒤에 있는 9조 토큰의 데이터 흐름이나 그 사고 방식을 형성한 RL 스택을 볼 수는 없습니다. 그들은 알 수 없는 편향과 법적 위험을 물려받고, 완전히 조사할 수 없는 유물 위에 제품을 출시해야 합니다.

그러한 긴장 속에 등장하는 것은 다른 종류의 프로젝트입니다: 모든 것을 드러내는 모델 가족, 즉 원시 훈련 데이터부터 훈련 흔적까지. 투명성을 단점이 아닌 특징으로 삼아 급진적인 공개를 활용하는 것입니다. 바로 이것이 OpenAI와 그 동료들이 주목하게 만드는 요인입니다.

AI의 반란 연합: OLMo 3를 만나보세요.

비영리 연구소는 AI hype 주기에서 큰 주목을 받는 경우가 드물지만, 앨런 AI 연구소는 많은 연구자들이 실제로 원하는 대안을 조용히 구축하고 있습니다. AI2는 사용량 기반 수익이나 앱 스토어 의존성을 추구하지 않으며, 그 사명은 재현 가능한 과학, 개방형 인프라, 그리고 다른 사람들이 실제로 연구할 수 있는 모델에 초점을 맞추고 있습니다. 단순히 API 뒤에서 소비하는 것이 아닙니다.

OLMo 3은 지금까지 그 철학의 가장 순수한 표현입니다. AI2는 단순히 오픈 웨이트와 블로그 차트를 게시하는 것이 아니라, 전체 모델 생애주기를 공개합니다: 훈련 코드, 평가 스크립트, 모든 중간 체크포인트, 그리고 모델의 행동을 형성한 방대한 Dolma 3 코퍼스까지 포함됩니다.

OLMo 3를 단일 모델로 보기보다는 생태계로 생각해보세요. 그 핵심에는 Dolma 3가 자리 잡고 있으며, 이는 웹, 코드, 책 및 기타 텍스트를 아우르는 약 9조 개의 토큰 데이터셋입니다. 모든 사람이 이를 감사하거나 재훈련을 실행할 수 있도록 공개되었으며, 블랙 박스에 무엇이 포함되었는지 추측하는 대신 직접 확인할 수 있습니다.

그 기본 위에, AI2는 서로 다른 작업을 목표로 하는 세 가지 고유한 OLMo 3 변형을 출시합니다: - Base: 지시 조정 없이 순수하게 사전 훈련된 모델로, 연구자 및 맞춤형 미세 조정에 이상적입니다. - Think: 수학, 논리 및 코드 에이전트를 위한 사고 체인 스타일의 추적이 최적화된 추론 모델입니다. - Instruct: 보조, 동반자 및 자동화 워크플로 뒤에 배치될 수 있도록 채팅 및 도구 사용을 조정한 모델입니다.

사이즈는 의도적으로 실용적인 형태를 유지합니다. OLMo 3는 7B 및 32B 매개변수 버전으로 제공되며, 이는 토이 모델과 GPT-4 또는 Claude 3.5와 같은 데이터 센터 전용 대형 모델 사이에 원하는 개발자들을 직접 겨냥한 것입니다.

7B 변형 모델은 실제 로컬 사용성을 목표로 합니다. 양자화를 통해 이들은 단일 현대적인 노트북 GPU 또는 강력한 CPU 장비에서 실행할 수 있어, 개인 정보 보호에 민감한 앱이나 오프라인 도구, A100 서버 한 대의 비용을 감당할 수 없는 스타트업에도 적합합니다.

32B 모델은 휴대성보다는 성능을 강조합니다. 이를 원활하게 사용하려면 고급 GPU가 필요합니다—단일 48–80GB 카드 또는 여러 개의 작은 카드 중에서 선택해야 합니다—그러나 약 6배 적은 토큰으로 훈련하면서 Qwen 3와 Gemma 3를 위협하는 추론 성능을 제공합니다.

이러한 선택들은 OLMo 3가 연구 산출물처럼 느껴지기보다는 플랫폼처럼 느껴지게 만듭니다: 검사 가능하고, 재현 가능하며, 실제로 하이퍼 스케일러의 폐쇄된 환경 밖에서 배포할 수 있습니다.

무게 너머: '완전 개방'이 의미하는 것

Dolma 3에 대한 완전한 오픈 액세스는 “오픈”이 실제로 무엇을 의미하는지를 변화시킵니다. 신비로운 웹 스크랩 대신, 연구자들은 조사하고 필터링하며 복제할 수 있는 약 9조 개의 문서화된 소스를 제공합니다. 이러한 수준의 가시성은 실험실이 특정 도메인, 언어 또는 시간 기간이 OLMo 3의 행동에 어떻게 영향을 미치는지를 연구하게 하여, 어두운 곳에서 추측하는 대신 데이터 레시피를 정밀하게 조정할 수 있게 합니다.

훈련 투명성이 더욱 강화되었습니다: AI2는 훈련 스크립트, RL 코드, 모델의 불안정한 초기 단계부터 최종 형태까지의 중간 체크포인트를 제공합니다. 전체 훈련 과정을 재생할 수 있으며, 10%, 50%, 또는 90% 완료 지점에서 분기하고 대체 데이터 믹스, 최적화 도구 또는 안전 기술을 테스트할 수 있습니다. 이는 "우리를 믿어 주세요, 우리는 비밀 데이터베이스에서 비슷한 것을 실행했습니다"가 아닌 진정한 과학적 재현성을 열어줍니다.

개발자에게 이 체크포인트는 미세 조정의 금광 역할을 합니다. 완전히 구워진 모델에 도메인 데이터를 끼워 맞추는 대신, 네트워크가 덜 지나치게 전문화된 이전 체크포인트에서 재시작하거나, 서로 다른 미세 조정이 시간이 지남에 따라 어떻게 diverge되는지를 비교할 수 있습니다. 감사는 경험적이 됩니다: 편향이 나타나면, 그것이 훈련 중 언제 발생했는지와 어떤 데이터 조각이 그 원인일 가능성이 있는지를 추적할 수 있습니다.

이 모든 것은 소프트웨어 중 가장 관대 한 라이센스 중 하나인 Apache 2.0 라이센스 하에 제공됩니다. 사용 제한이 없으며, "경쟁업체 금지" 또는 "무기 금지" 조항이 없어 변호사가 해독해야 할 필요가 없습니다. OLMo 3를 완전히 로컬에서 실행하거나, SaaS 제품에 통합하거나, 라이센싱의 복잡함 없이 은행에 온프레미스로 배포할 수 있습니다.

이를 Meta의 Llama나 Mistral의 모델과 비교해보면, 종종 가중치와 마케팅 자료는 제공되지만, 전체 학습 데이터셋, 엔드 투 엔드 스크립트, 그리고 모든 중간 체크포인트는 제공되지 않습니다. 그들의 맞춤형 라이센스는 행동 규칙과 상업적인 예외를 추가하여 대규모로 운영할 때 문제가 발생할 수 있습니다.

OLMo 3의 스택은 실제로 기초부터 문제를 해결할 수 있음을 의미합니다. 만약 모델이 특정 인구 집단에 대한 서비스가 부족하거나 음모론을 반복한다면, Dolma 3에서 문제의 데이터를 식별하고 조정한 후 재훈련을 통해 변경 사항을 확인할 수 있습니다. AI2는 Olmo 3: 모델 흐름을 통한 경로 차트 작성으로 오픈 소스 AI를 이끄는 방법에서 이 모델 흐름 철학을 자세히 설명하며, "오픈"이 포함해야 할 새로운 기준을 효과적으로 설정합니다.

매트릭스를 보세요: AI의 근원을 추적하기

매트릭스 스타일의 X-레이 비전이 언어 모델을 위해 드디어 등장하였으며, AI2는 이를 OLMoTrace라고 명명했습니다. 다른 연구소들이 모델 카드와 모호한 데이터 설명으로 투명성을 표방하는 반면, OLMo 3는 답변이 어디에서 오는지를 토큰 단위로 보여주는 실제 포렌식 도구를 제공합니다.

OLMoTrace는 OLMo 3와 Dolma 3의 약 9조 개의 훈련 데이터와 함께 실행됩니다. 프롬프트를 입력하면 응답을 받고, 한 번의 클릭으로 해당 출력의 특정 구간에 가장 크게 영향을 미친 훈련 문서를 확인할 수 있습니다.

왼쪽: 모델의 답변. 오른쪽: 답변의 문구나 사실과 일치하는 텍스트 세그먼트를 강조 표시한 문서의 순위 패널. 원본 URL도 포함되어 있어 원본 소스를 원래 맥락에서 확인할 수 있습니다.

그 강조 사항은 모델이 인용, 패러프레이징 또는 자유롭게 이야기할 때를 드러냅니다. OLMo 3가 자신 있게 인용을 만들어 낸다면, 그 뒤에 어떤 문서도 없다는 것을 알 수 있으며, 이는 미세한 합성이 아니라 전형적인 환각을 나타냅니다.

개발자들에게 이것은 "직감 기반" 디버깅을 전통적인 관측성과 더 가까운 형태로 바꿉니다. 생산용 챗봇이 잘못된 의료 지침을 제공하거나 금융 규정을 엉망으로 만들 때, 그 문제를 야기한 문서로 바로 이동할 수 있습니다.

이를 통해 dramatically easier할 수 있습니다: - 나쁜 데이터 제거 또는 가중치 감소 - 목표를 설정한 세부 조정으로 갭 보완 - 위험한 도메인 주변에 가드레일 추가

OLMoTrace는 고객용 앱을 위한 진정한 출처 검증 기능을 제공합니다. 법률 연구 도구는 사건 요약뿐만 아니라 모델의 문구를 형성한 정확한 의견과 법령을 보여줄 수 있어, 변호사들이 이를 신뢰할지 버릴지 결정할 수 있습니다.

연구자들은 모델의 행동을 드물게 관찰할 수 있는 기회를 갖게 됩니다. 그들은 Dolma 3에서 실패 모드를 특정 데이터 분포와 연관지을 수 있고, OLMo 3 Think에서 서로 다른 영역이 추론에 어떤 영향을 미치는지 연구하며, 편향이나 허위 정보에 대한 통제된 실험을 진행할 수 있습니다.

이것은 현대 AI를 정의하는 “블랙 박스” 문제에 대한 직접적인 공격입니다. 사용자에게 봉인된 시스템을 신뢰하라고 요구하는 대신, AI2는 그들에게 현미경을 제공하여 신뢰가 마케팅 주장에 그치지 않고 정보에 기반한 선택이 되도록 훈련 과정을 충분히 드러냅니다.

코드와 이유: OLMo 3의 작동 모습

러스트 개발자들은 첫 번째 Olmo 3 데모를 즉시 인식할 것입니다: 재귀와 메모이제이션을 이용한 피보나치 수열. AI2 플레이그라운드의 프롬프트는 Think 변형에게 "재귀와 메모이제이션을 사용하여 Rust로 피보나치를 구현하고, 작은 입력과 큰 입력에 대한 테스트 케이스를 포함하라"고 요청합니다. Olmo 3은 일반적인 Rust 코드로 응답하며, 보통 `fib` 함수를 정의하고 이를 `main` 안에 감싸며 `fib(0)`, `fib(1)`, `fib(5)`와 더 큰 n에 대한 단언문이나 단위 테스트를 추가합니다.

추론 모드는 단순히 코드를 생성하는 것이 아니라 코드가 작동하는 이유를 설명합니다. 사고의 연쇄는 기본 사례를 정의하고 메모리 구조를 선택하는 과정(주로 `HashMap<usize, u64>`를 사용)과 캐싱 없이는 재귀가 어떻게 폭발할지를 설명합니다. 이는 복잡도 거래를 정당화하며, 예를 들어, 이전에 계산된 값을 저장함으로써 지수 시간 복잡도를 대략 선형 시간으로 전환하는 방식입니다.

그 내레이션은 모델이 문제를 어떻게 구성하는지를 드러내기 때문에 중요합니다. Olmo 3 Think는 작업을 단계별로 나눕니다:

1함수 시그니처와 반환 유형을 지정하세요.
2n = 0 및 n = 1에 대한 기초 사례를 정의하십시오.
3메모이제이션 저장소 초기화
4캐시를 먼저 확인하는 재귀 케이스를 구현하세요.
5정확성을 검증하기 위한 테스트를 추가하세요.

닫힌 모델이 코드 습관의 기원을 숨기는 반면, OLMoTrace는 출력 옆에 출처 패널을 제공합니다. 재귀적 `fib` 구현을 강조하면 Dolma 3의 Rust 블로그 게시물, GitHub 스니펫, 메모이제이션에 대한 튜토리얼 등에서 일치하는 범위가 강조 표시됩니다. 각 범위에는 URL이 제공되므로 개발자는 클릭하여 라이센스를 확인하고 Olmo 3의 패턴에 영향을 준 원래 스타일과 맥락을 볼 수 있습니다.

같은 도구는 수학 데모를 단순한 퍼포먼스를 넘어선 것으로 만듭니다. 총 여행 시간에 대한 단어 문제를 제시받은 Olmo 3 Think는 이를 변수, 단위 및 방정식으로 분해한 후, 각 대수적 단계를 보여준 다음 숫자 답안을 도출합니다. OLMoTrace는 다시 어떤 교과서, 포럼 스레드 또는 교육 사이트가 그 구조화된 분석을 제공했는지를 밝혀내어 연구자들이 답이 맞는지 여부뿐만 아니라 모델이 어떻게 그런 방식으로 추론하는 법을 배웠는지를 연구할 수 있는 방법을 제공합니다.

체급을 초월한 OLMo: 거인들에 맞서는 도전

벤치마크에서 OLMo 3 Think 32B는 드문 영역에 위치하고 있습니다: 현재 엔드 투 엔드로 실제 검토할 수 있는 가장 강력한 완전 오픈 추론 모델로 평가받고 있습니다. AIME 스타일 문제와 맞춤형 로직 수트와 같은 수학 중심 테스트에서, 완전 오픈 데이터, 코드 및 훈련 기록을 가진 모델로서 최첨단 점수를 기록합니다. HumanEval 스타일 코딩 벤치마크에서는 수학에서 약 96%, HumanEval+에서는 약 91%의 점수를 기록하며 “실제 에이전트에 사용될 수 있는” 영역에 확실히 위치하고 있습니다. “장난감 연구 모델”이 아닙니다.

오픈 웨이트 타이탄들과 비교하면 그림이 더욱 흥미로워집니다. Qwen 3 32B와 Llama 3.1 70B는 여전히 광범위한 지식과 다국어 채팅에서 OLMo를 앞서지만, OLMo 3 Think 32B는 집중적 추론과 코드 생성에서는 비슷한 수준입니다. HumanEval, MBPP, 수학 벤치마크에서 OLMo의 곡선은 Qwen의 곡선을 밀착하며, 때로는 한두 점 차이로 차이가 나는데, 이는 대량의 데이터 핸디캡에도 불구하고 그렇습니다.

효율성은 AI2가 팔꿈치를 내젓기 시작하는 곳입니다. Qwen 3는 수조 개의 토큰으로 훈련한다는 보고가 있으며, OLMo 3는 약 6배 적은 훈련 토큰을 사용하면서 유사한 추론 성능을 달성합니다. Dolma 3는 총 약 9조 개의 토큰을 기록하며, 장기 맥락 및 추론을 위한 집중적인 중간 훈련 믹스에서 약 1,000억 개의 토큰을 사용하고, OLMo는 여전히 훨씬 더 많은 데이터를 소비한 모델들과 경쟁할 수 있습니다.

그 효율성은 배포에도 이어집니다. OLMo 3는 7B 및 32B 버전으로 제공되므로 다음과 같이 할 수 있습니다: - 7B 버전을 고급 노트북이나 단일 소비자 GPU에서 실행할 수 있습니다. - 서버 측 에이전트 및 복잡한 추론을 위해 32B Think를 예약할 수 있습니다. - 두 가지 버전 모두 AI2가 사용한 동일한 투명한 파이프라인을 사용하여 미세 조정할 수 있습니다.

OLMo 3.1은 AI2가 이를 일회성 연구 결과로 다루고 있지 않음을 보여줍니다. OLMo 3.1 Think 32B의 새로 고침은 AIME에서 약 +5 포인트, ZebraLogic 및 IFEval에서 약 +4 포인트, 그리고 IFBench 스타일의 지시 따르기에서 두 자릿수 증가(약 +20 포인트)를 추가합니다. 이러한 변화는 문서화된 RL 실행에서 출처를 찾을 수 있으며—224개의 GPU에서 21일간 진행된 것입니다—연구원들은 모델이 어떻게 더 똑똑해졌는지 정확히 추적할 수 있습니다.

이 열린 르네상스를 추적하는 사람은 **Olmo 3와 열린 LLM 르네상스**와 같은 분석을 통해 더 깊이 들어갈 수 있습니다. 이 분석에서는 OLMo의 완전한 오픈 스택이 Qwen, Llama, Gemma에 미치는 압력을 다룹니다. AI2의 베팅은 분명합니다: 투명성 및 효율성이 파라미터 수를 훨씬 초과하는 성과를 낼 수 있습니다.

유리 천장: 개방 모델이 여전히 부족한 곳

유리 천장은 여전히 존재하며, 개방성을 확장하려는 모델들조차 이를 피할 수 없습니다. OLMo 3는 일반적인 복잡한 "모든 것을 처리하는" 작업에서 OpenAI의 최신 모델인 Claude Sonnet이나 Anthropic의 01 시리즈를 능가하지 못합니다. 일반적인 대화, 자유로운 브레인스토밍, 백과사전식 Q&A는 여전히 비밀스러운 데이터의 바다에서 훈련된 가장 큰 폐쇄형 시스템에 더 우위를 둡니다.

벤치마크는 같은 이야기를 전합니다. AI2의 자체 데이터에 따르면 OLMo 3 Think 32B는 수학과 코드에서 강한 성과를 보이며, HumanEval 스타일의 코딩 테스트에서 약 96%, 플러스 스타일의 추론 벤치마크에서는 약 91%를 기록했습니다. 그러나 작업이 더 모호하고 지식이 많이 요구되면 뒤처지는 경향이 있습니다. 희귀한 정책 보고서를 요약하거나, 니치 방언을 번역하고, 마케팅 계획을 한 번에 생성해 달라고 요청하면, 일반적으로 폐쇄형 모델이 더 정교하고 오류가 적은 응답을 제공합니다.

범위는 디자인에 따라 제한적입니다. OLMo 3는 입력으로 텍스트만을 수용합니다: 이미지 업로드, PDF, 다이어그램, 비디오 프레임은 허용되지 않습니다. 이는 현재 최전선 모델과 함께 표준처럼 느껴지는 작업 흐름, 예를 들어 다중 모드 문서 에이전트, 스크린샷을 통한 코드 리뷰, 회의 및 강의를 위한 비디오 Q&A 등에는 즉시 사용이 불가능하다는 것을 의미합니다.

언어 범위는 모델의 우선순위도 드러냅니다. Dolma 3는 웹, 코드 및 문서에 걸쳐 있지만, OLMo 3는 여전히 영어 중심 시스템처럼 작동하며 다른 언어에서는 그다지 뛰어난 성능을 보여주지 않습니다. 글로벌 제품을 목표로 하는 개발자들은 영어 중심 도메인 외에서 약한 추론, 일관되지 않은 어조, 번역의 잔여물이 더 많이 발생하는 문제에 직면하게 됩니다.

환각은 또 다른 거래의 대가로 남아 있습니다. OLMo 3는 70억 및 320억 개 매개변수에서 작동하며 약 9조 개의 토큰으로 훈련하므로, OpenAI나 Google의 소문난 규모보다 훨씬 적습니다. 이로 인해 인용을 조작하거나 특수한 사실을 잘못 기억하거나 지나치게 자신 있게 잘못된 답변을 주장하는 경우가 더 자주 발생합니다. OLMoTrace는 이러한 오류를 사후에 발견하는 데 도움을 주지만, 오류가 발생하는 것을 막지는 못합니다.

실패로 프레임이 짜여지면, 그 격차는 가혹하게 보입니다. 하지만 선택으로 프레임을 설정하면, 이는 OLMo 3의 전체 주제를 드러냅니다: 모든 벤치마크에서 리더보드 우위를 추구하기보다는 투명성, 검토 가능성, 제어 가능성을 우선시하는 것입니다. AI2는 예산을 훈련 데이터를 공개하고 중간 체크포인트를 출시하며 RL 스크립트를 공개하는 데 소비하며, NDA 뒤에 있는 수백억 개의 파라미터 거대 모델로 확장하는 대신입니다.

로드맵은 AI2가 이러한 약점을 어떻게 공략할 계획인지 암시합니다. MoMo 2는 OLMo 3.1 출시 며칠 후에 발표되어 이미지와 고급 영상 처리를 포함한 다중 모드 기능을 동일한 개방형 생태계로 가져옵니다. AI2가 OLMo의 접근 방식을 MoMo 2에 적용할 수 있다면, “완전 개방”과 “최전선 폐쇄” 사이의 격차는 영구적인 한계처럼 보이지 않고 움직이는 목표처럼 보이기 시작합니다.

당신의 새로운 슈퍼파워: 투명한 AI로 구축하기

갑자기 소스 코드처럼 다룰 수 있는 LLM이 생겼습니다. OLMo 3의 Apache 2.0 라이선스를 통해 7B 모델을 노트북에 가져와 스택에 연결하고 법적 복잡성이나 사용 제한 없이 배포할 수 있습니다. 오프라인 코딩 어시스턴트, 내부 Q&A 봇, 또는 로그와 대시보드를 점검하는 관찰성 코파일러가 필요하신가요? 그것을 구축하고, 패키징하여 판매할 수 있습니다.

고위험 도메인에서 마침내 "AI가 그렇게 말했기 때문에"가 이야기의 끝이 되는 모델을 얻게 되었습니다. 법률 연구 에이전트는 질문에 답변한 후 OLMoTrace를 사용하여 각 문장을 형성한 정확한 Dolma 3 사건, 법령 또는 블로그 게시물을 보여줄 수 있습니다. 재무 보조자는 위험 요약을 생성하고 기본 보고서 및 파일을 노출시켜 준수 팀이 추측하는 대신 출처를 검증할 수 있도록 합니다.

기업은 AI에서 거의 볼 수 없는 완전하고 검사 가능한 스택을 얻습니다. 팀은 다음을 수행할 수 있습니다: - Dolma 3을 크롤링하여 모델이 "성장한" 내용을 이해합니다. - 해당 데이터의 일부에 대해 편향 감사를 수행합니다. - 고유한 코퍼스와 로그 데이터를 기반으로 OLMo 3을 미세 조정합니다. - AI2의 스크립트와 체크포인트를 사용하여 훈련 실행을 재현합니다.

모든 체크포인트가 처음 토큰부터 최종 모델까지 배포와 함께 제공되기 때문에, 기업들은 훈련 과정 동안 행동이 어떻게 변화하는지 테스트하고 이를 규제 기관에 문서화할 수 있습니다. 어떤 데이터가 어떤 행동에 영향을 미쳤는지 입증할 수 있으며, 문제가 발생할 경우 재훈련하거나 정밀하게 조정할 수 있습니다.

연구실은 훨씬 더 큰 혜택을 누립니다: 실제로 내부를 드러내는 공유 기준선입니다. 각 그룹이 Meta나 Mistral의 불투명한 모델을 해킹하는 대신, OLMo 3의 7B 및 32B 변형을 통해 동등한 실험을 수행하고, RL 레시피를 조정하거나 새로운 정렬 전략을 교체하여 완벽하게 재현 가능한 결과를 발표할 수 있습니다. 이로 인해 다년간의 연구 주기를 몇 달로 단축할 수 있습니다.

OLMo 3가 수학과 코드에서 Qwen 3에 비해 대략 여섯 배 적은 훈련 토큰으로 유사한 성능을 보이기 때문에, 최적화 연구자들은 "적은 데이터, 더 스마트한 훈련" 아이디어를 위한 실험실을 갖게 되었습니다. 만약 이러한 실험이 성공한다면, 전체 생태계가 이익을 보게 될 것입니다. 다음의 폐쇄형 API를 제어하는 사람만이 아닌, 말이죠.

폐쇄된 AI 생태계에 대한 반격

Closed AI는 무역 비밀 영역으로 drift하고 있습니다. OpenAI는 더 이상 훈련 데이터를 공개하지 않으며, Anthropic은 시스템 프롬프트를 편집하고, Meta 또는 Mistral의 "오픈" 릴리스도 일반적으로 오픈 가중치에서 멈추며, 모든 상류는 불투명하게 남아 있습니다. OLMo 3는 이러한 환경에 직접적인 반대 논제로 등장합니다: 7B 및 32B 계열로, 가중치, Dolma 3의 약 9 조 개 토큰, 훈련 코드, RL 레시피 및 체크포인트가 모두 Apache 2.0 하에 제공됩니다.

OLMo는 유물과 항의의 상징 기능을 모두 갖추고 있습니다. 첫 번째 체크포인트에서 최종 Think 및 Instruct 변형에 이르는 전체 모델 흐름을 공개함으로써, AI2는 현대적 규모의 추론 모델이 NDA, 유료 API 또는 모호한 “안전” 비밀 justification을 필요로 하지 않음을 보여줍니다. 이는 개방성을 마케팅 요소가 아닌 과학의 기술적 요구사항으로 재정의합니다.

그 변화는 폐쇄형 모델이 벽을 더욱 강화함에 따라 중요해집니다. 안전성 논의, 저작권 소송, 그리고 다가오는 2026년 시대의 규제는 모두 다음과 같은 질문에 달려 있습니다: 어떤 데이터를 사용하여 훈련했는가, 누가 불리한 위치에 놓였는가, 그리고 우리는 어떻게 피해를 검증할 수 있는가? OLMo 3와 Dolma 3, OLMoTrace가 결합된 시스템은 규제 기관, 감사자, 그리고 시민 사회가 PDF를 믿는 대신 이러한 주장들을 실제로 조사할 수 있도록 해줍니다.

검증 가능한 AI가 슬로건에서 작업 흐름으로 전환됩니다. OLMoTrace는 특정 답변 스팬을 원본 문서 및 URL에 연결하여 다음을 가능하게 합니다: - 모델 출력에 대한 독립적인 사실 확인 - 구체적인 훈련 사례에 연결된 편향 및 독성 감사 - 동일한 데이터와 코드에서 재현 가능한 안전 실험

그런 종류의 검증 가능한 AI는 모델의 데이터, 필터 및 RL 파이프라인이 폐쇄된 대시보드 뒤에 있을 때 거의 불가능합니다.

OLMo 3는 더 넓은 운동의 집결점으로 자리 잡습니다. 연구자들, 소규모 실험실, 그리고 공익 단체들은 이제 "완전 공개"가 수학 및 코드에서 Qwen 3급 시스템과 경쟁할 수 있음을 입증하는 대표 프로젝트를 갖게 되었습니다. Olmo 3: 미국의 진정으로 열린 추론 모델 같은 글들은 AI를 위한 공공 인프라의 모습이 어떻게 될 수 있는지를 기준으로 설정합니다.

다른 제품이 API 수익을 추구하는 대신에, OLMo 3는 확고한 입장을 표명합니다: AI가 지식, 법, 그리고 문화를 중재한다면, 그 힘의 일부는 반드시 투명하게 점검 가능하고, 분기할 수 있으며, 공동 소유되어야 합니다.

앞으로의 길: 진정한 오픈 AI의 다음은 무엇인가?

리더보드 숭배는 잊어버리세요. OLMo 3의 진정한 힘은 실제로 분해할 수 있는 가장 투명하고 재현 가능한 대규모 언어 모델이라는 데 있습니다: 완전한 오픈 가중치, 전체 Dolma 3 코퍼스(~9T 토큰), 교육 및 RL 스크립트, 중간 체크포인트, 그리고 OLMoTrace가 모두 Apache 2.0 라이센스 하에 공개되어 있습니다. 모든 벤치마크에서 Claude Sonnet이나 OpenAI의 최신 모델을 이기지는 않지만, 이 모델들이 결코 제공하지 못하는 것을 제공합니다: 프롬프트, 매개변수, 출처 문서까지의 완전한 감사 추적입니다.

AI2는 이제 공개적으로 반복할 수 있는 청사진을 갖게 되었습니다. +5 AIME와 224개의 GPU에서 21일 간의 추가 RL을 통한 두 자릿수 IFBench 상승과 같은 OLMo 3.1 스타일의 업그레이드가 예고 없이 NDA나 사용 제한 없이 계속 이루어질 것으로 기대됩니다. Think에서 Instruct, 그리고 미래의 다중 모달 형제들에 이르기까지 각 새로운 변형은 동일한 공개 파이프라인, 데이터 레시피 및 평가 도구를 재사용할 수 있습니다.

진정한 변화는 다른 모든 사람들로부터 올 것입니다. 연구자들은: - Dolma 3에서 전체 훈련 스택을 다시 실행할 수 있습니다. - 법률, 의학 또는 금융에 대한 도메인 특정 말뭉치를 교체할 수 있습니다. - 아키텍처, 강화 학습 및 안전 필터에 대한 재현 가능한 제거 실험을 발표할 수 있습니다.

개발자는 다음과 같은 작업을 수행할 수 있습니다: - 결정에 영향을 준 Dolma 3 문서를 정확히 기록하는 에이전트를 구축 - 단일 GPU 또는 심지어 노트북에서 7B 모델의 온프레미스 배포 제공 - 보안, 프라이버시 또는 규정 준수를 강화하기 위해 스택을 포크

그렇다면 공개 대 폐쇄 전투는 어디에 남게 될까요? 평균적으로 더 뛰어난 성과를 내는 블랙박스 보조 도구를 신뢰할 것인가요, 아니면 모든 특징을 점검하고 수정할 수 있는 약간 더 약한 모델을 선택할 것인가요? 규제당국이 모델이 사실을 어디서 가져왔는지 물어보기 시작할 때, 당신의 스택을 어느 쪽에 두고 싶으신가요?

OLMo 3를 다운로드하고, AI2 놀이터를 시작하며, OLMoTrace를 자신의 프롬프트에 대해 실행하고, 자신의 데이터를 사용해 Dolma 3를 미세 조정해 보세요. 그런 다음, 실험 결과, 기준선, 패치를 OLMo 생태계에 다시 반영하고 “진정한 오픈 AI”가 실제로 무엇을 의미하는지 정의하는 데 도움을 주십시오.

자주 묻는 질문

OLMo 3는 무엇인가요?

OLMo 3는 AI2(앨런 인스티튜트 포 AI)에서 개발한 완전히 오픈 소스 대형 언어 모델의 가족입니다. 이 모델은 가중치, 훈련 데이터, 코드 및 체크포인트에 대한 완전한 접근을 제공합니다.

OLMo 3는 Llama나 Mistral과 어떻게 다른가요?

Llama와 같은 모델이 '오픈 웨이트'인 반면, OLMo 3는 '완전 오픈'입니다. 이는 전체 훈련 데이터셋과 프로세스를 공개하여 완전한 재현성과 감사를 가능하게 한다는 의미입니다. 단순한 가중치만으로는 이러한 일이 불가능합니다.

OLMoTrace는 무엇인가요?

OLMoTrace는 OLMo 3에 제공되는 도구로, 개발자들이 모델의 출력을 특정 문서와 직접 연결하여 해당 문서가 응답에 미친 영향을 추적할 수 있게 해줍니다. 이를 통해 투명성과 사실 확인이 향상됩니다.

OLMo 3는 GPT-4와 경쟁할 수 있을까요?

OLMo 3는 개방형 소스 추론 벤치마크에서 특히 크기에 비해 매우 경쟁력이 있지만, 현재 전반적인 정확도와 폭넓은 일반 지식 측면에서 GPT-4와 같은 최고 수준의 폐쇄형 모델에 뒤처져 있습니다.

𝕏 in ↑↗

Frequently Asked Questions

앞으로의 길: 진정한 오픈 AI의 다음은 무엇인가?

리더보드 숭배는 잊어버리세요. OLMo 3의 진정한 힘은 실제로 분해할 수 있는 가장 투명하고 재현 가능한 대규모 언어 모델이라는 데 있습니다: 완전한 오픈 가중치, 전체 Dolma 3 코퍼스, 교육 및 RL 스크립트, 중간 체크포인트, 그리고 OLMoTrace가 모두 Apache 2.0 라이센스 하에 공개되어 있습니다. 모든 벤치마크에서 Claude Sonnet이나 OpenAI의 최신 모델을 이기지는 않지만, 이 모델들이 결코 제공하지 못하는 것을 제공합니다: 프롬프트, 매개변수, 출처 문서까지의 완전한 감사 추적입니다.

OLMo 3는 무엇인가요?

OLMo 3는 AI2에서 개발한 완전히 오픈 소스 대형 언어 모델의 가족입니다. 이 모델은 가중치, 훈련 데이터, 코드 및 체크포인트에 대한 완전한 접근을 제공합니다.

OLMo 3는 Llama나 Mistral과 어떻게 다른가요?

OLMoTrace는 무엇인가요?

OLMo 3는 GPT-4와 경쟁할 수 있을까요?

OLMo 3: OpenAI를 두렵게 만드는 모델

TL;DR / Key Takeaways

오픈소스 AI는 신뢰 문제를 안고 있습니다.

AI의 반란 연합: OLMo 3를 만나보세요.

무게 너머: '완전 개방'이 의미하는 것

매트릭스를 보세요: AI의 근원을 추적하기

코드와 이유: OLMo 3의 작동 모습

체급을 초월한 OLMo: 거인들에 맞서는 도전

유리 천장: 개방 모델이 여전히 부족한 곳

당신의 새로운 슈퍼파워: 투명한 AI로 구축하기

폐쇄된 AI 생태계에 대한 반격

앞으로의 길: 진정한 오픈 AI의 다음은 무엇인가?

자주 묻는 질문

OLMo 3는 무엇인가요?

OLMo 3는 Llama나 Mistral과 어떻게 다른가요?

OLMoTrace는 무엇인가요?

OLMo 3는 GPT-4와 경쟁할 수 있을까요?

Frequently Asked Questions

Read Next

Anthropic의 새로운 에이전트, 노코드(No-Code)를 끝장내다

이 도구는 혼란스러운 AI 에이전트를 길들입니다

AI의 완벽한 기억력이 도착했습니다

Stay Ahead of the AI Curve