OLMo 3：開発者と研究者のための真のオープンソースLLM

💡

TL;DR / Key Takeaways

新しいAIモデルが「オープンソース」を再定義し、開発者に前例のない力を与えました。OLMo 3が、クローズドモデルでは再現できない透明なAIの青写真である理由をご紹介します。

オープンソースAIは信頼の問題を抱えている

オープンソースAIは、すべてを手に入れることを意味していました：モデル、コード、データ、そしてそれらを結びつけるレシピです。しかし2025年になると、通常はオープンウェイトのzipファイルと、編集された詳細が満載のブログ投稿を指すことが多くなります。MetaからMistral、OpenAIに至るまでのラボは、パラメーターが公開されている「オープン」モデルをますます提供していますが、トレーニングコーパス、フィルタリングルール、強化学習のパイプラインは依然としてロックされています。

その変化により、「オープン」モデルは静かにブラックボックスに変わります。あなたのGPUでLlama、Qwen、またはGemmaを実行することは可能ですが、実際にそれらを再現したり、その行動を大規模に監査したり、特定の事実をどのように学習したかを検証することはできません。基本的な質問に答えようとすると—このモデルはどのサイトをスクレイピングしましたか？どの言語がコーパスを支配していますか？RLHFはどのようにその行動を再形成しましたか？—そして、あなたはNDAや曖昧な文書の壁にぶつかります。

研究者たちはこれを「オープンウェイト」と呼ぶ理由がある。出荷されるのは最終的な数値のみであり、欠けている部分—トレーニングデータ、中間チェックポイント、オプティマイザー設定、強化学習スクリプト、安全フィルター—こそが真の科学が存在する場所である。それらがなければ、バイアスを厳密に研究したり、回帰を追跡したり、安全介入をテストしたりすることはできず、実験を再実行する手段がないからである。

その不透明性は、AIコミュニティが求めているものと直接対立しています：透明性、再現性、そして意義ある監視です。学術的なラボや独立した開発者は、データの混合を検査し、トレーニングの実行を比較し、モデルの出力をソースに遡って追跡する必要があります。そうすることで、システムがなぜ幻覚を起こすのか、差別をするのか、著作権で保護されたテキストが漏れるのかを理解することができます。一方、企業のラボは秘密主義を責任感として位置づけ、データや手法を隠すことで悪用を防ぎ、「安全を重要視する」知的財産を守ると主張しています。

その結果は、これらのモデルを基に構築すべき人々を frustrate するような擬似的なオープン性となっています。開発者は7Bまたは32Bのチェックポイントを微調整することができますが、その背後にある9兆トークンのファイアホースやその推論を形作ったRLスタックを見ることはできません。彼らは未知のバイアスと法的リスクを引き継ぎ、完全に調査できないアーティファクトの上に製品を出荷しなければなりません。

その緊張の中に、異なるタイプのプロジェクトが登場します。それは、訓練データの生データから訓練の跡まで、すべてを公開するモデルファミリーです。透明性を負担として扱うのではなく、徹底した情報開示を特長として活用しています。そして、それこそがOpenAIやその同業者たちの注目を集める要因なのです。

AIの反乱同盟：OLMo 3をご紹介します

非営利の研究所はAIのハイプサイクルで注目されることは少ないが、アレンAI研究所（AI2）は、実際に多くの研究者が望んでいる代替手段を静かに構築している。AI2は使用ベースの収益やアプリストアへのロックインを追求することなく、再現可能な科学、オープンインフラ、そして他の人々が実際に研究できるモデルに注力している。単にAPIの背後で消費されるものではない。

OLMo 3は、これまでのその哲学の最も純粋な表現です。AI2は単にオープンウェイトやブログチャートを投稿するのではなく、モデルのライフサイクル全体を公開しています：トレーニングコード、評価スクリプト、すべての中間チェックポイント、そしてモデルの挙動を形作った膨大なDolma 3コーパスです。

OLMo 3を単一のモデルではなく、エコシステムとして考えてください。その中心には、約9兆トークンのデータセットであるDolma 3があり、ウェブ、コード、書籍、その他のテキストを網羅しています。これは誰でも監査したり、トレーニングを再実行できるようにリリースされており、ブラックボックスに何が含まれているのかを推測する必要がありません。

その基盤の上に、AI2は異なる目的に応じた3つのOLMo 3バリアントを提供しています： - Base：指示調整が行われていない純粋に事前訓練されたモデルで、研究者やカスタムファインチューニングに最適です。 - Think：数学、論理、コードエージェント用の考察最適化モデルで、思考の連鎖スタイルの痕跡を持っています。 - Instruct：アシスタント、コパイロット、そして自動化ワークフローの背後にいることを意図したチャットおよびツール使用調整モデルです。

サイズは意図的に実用的に保たれています。OLMo 3は7Bおよび32Bのパラメータフレーバーで提供されており、トイモデルとデータセンター専用の巨体であるGPT-4やClaude 3.5との中間を求める開発者への直接的な呼びかけです。

7Bバリアントは、実際のローカル利用を目指しています。量子化により、最新のラップトップGPUや高性能CPUボックスで動作し、プライバシーに敏感なアプリ、オフラインツール、またはプロトタイプのためにA100の壁を購入できないスタートアップにも適しています。

32Bモデルは、ポータビリティよりも性能を重視しています。快適に運用するには、単体で48～80GBの高性能GPU、または複数の小型カードが必要ですが、約6倍少ないトークンで学習しながら、Qwen 3やGemma 3に迫る推論性能を得ることができます。

これらの選択肢を合わせることで、OLMo 3は研究の遺物のように感じられるのではなく、プラットフォームのように感じられる：検査可能で、再現可能で、実際にハイパースケーラーの壁の中で展開されることなく利用できる。

ウェイトを超えて：「完全オープン」とは本当に何を意味するのか

Dolma 3への完全なオープンアクセスは、「オープン」が実際には何を意味するのかを変えます。神秘的なウェブスクレイピングの代わりに、研究者は検査、フィルタリング、再現が可能な約9兆のトークンからなる文書化されたソースを手に入れます。そのレベルの可視性により、研究室は特定の分野、言語、または時間の経過がOLMo 3の挙動にどのように影響するかを研究し、暗闇の中で推測するのではなく、データのレシピを慎重に調整することができます。

トレーニングの透明性はさらに進んでいます：AI2はトレーニングスクリプト、RLコード、およびモデルの初期の不安定なステップから最終形態までの中間チェックポイントを提供します。トレーニング全体を再生したり、10%、50%、または90%の完了時点で分岐させたり、交互のデータミックス、オプティマイザ、または安全技術をテストしたりすることができます。これにより、「私たちを信じてください、秘密のコーパスでこれに似たものを実行しました」というのではなく、真の科学的再現性が実現されます。

開発者にとって、これらのチェックポイントは微調整の宝庫にもなります。完全に完成したモデルにドメインデータを追加するのではなく、より過剰適合していないネットワークのより早いチェックポイントから再スタートすることができ、異なる微調整が時間と共にどのように分岐するかを比較することもできます。監査は実証的になります：バイアスが現れた場合、そのバイアスがトレーニングのどの時点で出現したか、そしてどのデータのスライスがそれを引き起こした可能性があるかを追跡できます。

すべては Apache 2.0 の下で提供されており、ソフトウェアの中で最も許容的なライセンスの1つです。使用制限はなく、「競合他社禁止」や「武器禁止」など、弁護士が解読しなければならない条項もありません。OLMo 3を完全にローカルで実行したり、SaaS製品に組み込んだり、ライセンスの複雑な手続きなしで銀行にオンプレミスで提供することができます。

それと対照的に、MetaのLlamaやMistralのモデルでは、よく重みとマーケティング資料が手に入りますが、完全なトレーニングコーパスやエンドツーエンドのスクリプト、さらにはすべての中間チェックポイントは得られません。また、彼らのカスタムライセンスには、スケールで破綻する可能性のある行動ルールや商業上の注意事項が付随しています。

OLMo 3のスタックは、実際に基盤から物事を修正できることを意味します。もしモデルが特定のデモグラフィックに対して不十分であるか、陰謀を繰り返している場合、Dolma 3で問題となるデータを特定し、調整し、再訓練し、変更を確認できます。AI2はこのモデルフローの哲学をOlmo 3: Charting a path through the model flow to lead open-source AIで詳述しており、「オープン」が何を含むべきかについて新たな基準を設定しています。

マトリックスを見る：AIの源を辿る

マトリックススタイルのX線ビジョンが言語モデルのために遂に存在し、AI2はそれをOLMoTraceと呼んでいます。他の研究所がモデルカードや曖昧なデータ説明で透明性を示唆する中、OLMo 3は、回答がどこから来るのかをトークンごとに示す実際の法医学ツールを提供します。

OLMoTraceは、OLMo 3およびDolma 3の約9兆トークンのトレーニングデータと連携しています。プロンプトを入力すると、応答が得られ、その出力の特定の箇所に最も強く影響を与えたトレーニング文書をワンクリックで確認できます。

左側：モデルの回答。右側：回答のフレーズや事実と一致するテキストセグメントがハイライトされた文書のランキングパネル、さらに元のURLも記載しているため、ソースをそのままの文脈で確認できます。

そのハイライトは、モデルが引用、言い換え、または自由に表現しているときに明らかになります。OLMo 3が自信を持って引用を創作する場合、それを支持する根拠となる文書が存在しないことがわかり、微妙な統合ではなく古典的な幻覚が示されます。

開発者にとって、これは「バイブスベース」のデバッグを従来の可観測性に近づけるものです。プロダクションのチャットボットが誤った医療ガイドラインを提供したり、金融規制を混乱させたりした場合、その原因となった文書にすぐにアクセスできます。

それにより、以下のことが劇的に簡単になります： - 悪質なデータを除去または軽減する - ターゲットを絞った微調整でギャップを埋める - リスキーな領域に囲いを追加する

OLMoTraceは、顧客向けアプリのための真のソース検証も可能にします。法的調査ツールは、ケースの要約だけでなく、モデルの表現を形作った正確な意見や法令を示すことができ、弁護士はそれを信頼するか破棄するかを判断できます。

研究者たちはモデルの挙動を探る珍しい機会を得ました。彼らはDolma 3における故障モードと特定のデータ分布との相関を調べたり、OLMo 3 Thinkにおける異なるドメインが推論にどのように影響を与えるかを研究したり、バイアスや誤情報に関するコントロール実験を実施することができます。

これは、現代のAIを特徴づける「ブラックボックス」問題への直接的な攻撃です。ユーザーに密閉されたシステムを信頼させるのではなく、AI2は顕微鏡を手渡し、トレーニングの跡を十分に明らかにすることで、信頼がマーケティングの主張ではなく、情報に基づいた選択となるようにしています。

コードと理由: OLMo 3の実践

Rust開発者は最初のOlmo 3デモをすぐに認識するでしょう：再帰とメモ化を用いたフィボナッチです。AI2プレイグラウンドのプロンプトは、Thinkバリアントに「再帰とメモ化を使用してRustでフィボナッチを実装し、小さい入力と大きい入力のためのテストケースを含めるように」と求めます。Olmo 3は、典型的に`fib`関数を定義し、`main`でラップし、`fib(0)`、`fib(1)`、`fib(5)`などの値やより大きなnのためのアサーションやユニットテストを追加して、イディオマティックなRustで応答します。

推論モードは単にコードを吐き出すのではなく、そのコードがどのように機能するかを説明します。思考の連鎖は、基本ケースの定義、メモ構造の選択（多くの場合 `HashMap<usize, u64>`）、およびキャッシングなしでは再帰がどのように爆発するかを説明する過程を歩んでいきます。これは、以前に計算された値を保存することで指数関数的な時間をおおよそ線形時間に変換するなど、複雑さのトレードオフを正当化します。

そのナレーションは重要です。なぜなら、それはモデルが問題をどのように構造化するかを明らかにするからです。Olmo 3 Thinkはタスクをステップに分けます：

1関数のシグネチャと戻り値の型を指定してください。
2n = 0 と n = 1 のベースケースを定義します。
3メモ化ストレージを初期化する
4キャッシュを最初にチェックする再帰的なケースを実装する
5正確性を検証するためのテストを追加してください。

閉じたモデルがコーディング習慣の起源を隠しているのに対し、OLMoTrace は出力の隣に出所ウィンドウを配置します。再帰的な `fib` 実装を強調すると、Dolma 3 における一致するスパンが、Rust のブログ投稿やGitHubのスニペット、メモ化に関するチュートリアルなどで光り輝きます。各スパンにはURLが付随しているため、開発者はそれをクリックしてライセンスを確認し、Olmo 3のパターンに影響を与えた元のスタイルやコンテキストを見ることができます。

同じツールを使うことで、数学デモは単なるパーティートリック以上のものになります。移動時間に関する問題に対して、Olmo 3 Thinkはそれを変数、単位、方程式に分解し、数値解答を導く前に各代数ステップを表示します。OLMoTraceは再び、どの教科書、フォーラムスレッド、または教育サイトがその構造的な分解に寄与したかを明らかにし、研究者に対して答えが正しいかどうかだけでなく、モデルがどのようにしてそのように推論することを学んだのかを研究する手段を提供します。

実力以上の活躍：OLMo対巨人たち

ベンチマークはOLMo 3 Think 32Bを稀な領域に位置づけています：これは現在、エンドツーエンドで実際に検査可能な最も強力な完全オープン推論モデルとしてランク付けされています。AIMEスタイルの問題やカスタムロジックスイートのような数学重視のテストでは、完全にオープンなデータ、コード、トレーニングの痕跡を持つモデルとして最先端のスコアを記録しています。HumanEvalスタイルのコーディングベンチマークでは、数学で約96%、HumanEval+ではおおよそ91%を記録し、「玩具の研究モデル」ではなく「実際のエージェントに使用する」という領域にしっかりと位置しています。

オープンウェイトの巨人たちと比較すると、状況はさらに興味深くなります。Qwen 3 32B と Llama 3.1 70B は、広範な知識と多言語チャットにおいて、引き続きOLMoを凌いでいますが、OLMo 3 Think 32Bは、集中した推論とコード生成においてほぼ互角です。HumanEval、MBPP、数学のベンチマークにおいて、OLMoの曲線はQwenに密接に寄り添っており、データのハンディキャップが大きいにもかかわらず、しばしば1ポイントか2ポイントの範囲内で推移しています。

効率性は、AI2が本領を発揮し始めるところです。Qwen 3は数十兆のトークンを使用してトレーニングしているとのことですが、OLMo 3は約 6倍少ないトレーニングトークン を使って同等の推論性能を達成しています。Dolma 3は合計約9兆トークンで、長文コンテキストと推論のためにターゲットを絞ったミッドトレーニングミックスとして約1000億トークンを使用しており、それでもOLMoは遥かに多くのデータを摂取したモデルと競り合うことができています。

その効率性のストーリーはデプロイメントにも受け継がれます。OLMo 3は7Bと32Bのバリエーションがあり、次のことが可能です： - 高性能のノートパソコンや単一のコンシューマGPUで7Bバリアントを実行する - サーバーサイドエージェントや重い推論のために32B Thinkを確保する - AI2が使用したのと同じ透明なパイプラインを使用して、どちらかをファインチューニングする

OLMo 3.1は、AI2がこれを一回限りの研究成果と見なしていないことを示しています。OLMo 3.1のThink 32Bのアップデートは、AIMEで約+5ポイント、ZebraLogicとIFEvalで約+4ポイント、IFBenchスタイルの指示に従う性能で二桁の向上（約+20ポイント）を加えます。これらの変化は、記録された強化学習の実行から来たもので、224台のGPUに対して21日間行われたため、研究者はモデルがどのように賢くなったかを正確に追跡できます。

このオープン・ルネサンスを追跡している誰もが、**Olmo 3とオープンLLMルネサンス**のような分析に深く入ることができ、OLMoの完全にオープンなスタックがQwen、Llama、Gemmaに与える圧力を示しています。AI2の賭けは明確です：透明性と効率性を組み合わせることで、パラメータ数を大きく上回る力を発揮できるのです。

ガラスの天井：オープンモデルが依然として不十分な場所

ガラスの天井はまだ存在します、オープンさを打ち破ろうとするモデルにとってもです。OLMo 3は、幅広く複雑な「全てをこなす」作業において、OpenAIの最新のフロンティアモデルClaude SonnetやAnthropicの01シリーズには敵いません。一般的なチャット、オープンエンドのブレインストーミング、そして百科事典的なQ&Aは、依然として秘密のデータの海で訓練された最大のクローズドシステムに傾いています。

ベンチマークは同じストーリーを語ります。AI2の自社のデータによれば、OLMo 3 Think 32Bは数学やコードにおいて非常に優れた成績を収めています—HumanEvalスタイルのコーディングテストでは約96%、プラススタイルの推論ベンチマークでは約91%を記録していますが、タスクがより広範で知識重視になると後れを取ります。 obscureな政策文書の要約、ニッチな方言の翻訳、さらにマーケティング計画の生成を一度に依頼すると、クローズドモデルは通常、より洗練された回答を返し、エラーも少なくなります。

スコープは意図的に狭く保たれています。OLMo 3はテキストのみを入力として受け付けます：画像のアップロード、PDF、図、動画フレームは不可です。これにより、現在では先端モデルにとって標準的に思えるワークフロー、例えば多モーダル文書エージェント、スクリーンショットでのコードレビュー、会議や講義のための動画QAなどには適さないことが即座に明らかになります。

言語のカバレッジは、モデルの優先事項をも明らかにします。Dolma 3はウェブ、コード、文書をカバーしていますが、OLMo 3は依然として英語優先のシステムとして機能し、他の言語ではわずかにしか通用しない性能を示しています。グローバルな製品を対象とする開発者は、英語が多い領域以外では、推論が弱く、一貫性のないトーンや翻訳のアーティファクトが増える問題にすぐに直面します。

幻覚は別のトレードオフとして残ります。OLMo 3は7Bおよび32Bパラメータで動作し、約9兆トークンで学習します。これは、OpenAIやGoogleの噂される規模には遠く及ばないため、引用を捏造したり、ニッチな事実を誤って記憶したり、誤った回答を自信満々に主張したりする頻度が、最も大規模なクローズドモデルよりも高くなります。OLMoTraceは事後にそれらのエラーをキャッチする手助けをしますが、発生を防ぐことはできません。

失敗として捉えられると、そのギャップは厳しく見えます。しかし、選択として捉えると、それはOLMo 3の全体的な主張のように見えます：透明性、検査可能性、そして制御可能性を優先し、すべてのベンチマークでリーダーボードの支配を追求することを避ける。AI2は、百億パラメータの巨人にスケールアップする代わりに、トレーニングデータを公開し、中間チェックポイントをリリースし、RLスクリプトを出版するために予算を使っています。

ロードマップは、AI2がこれらの弱点にどのように対処する計画であるかを示唆しています。MoMo 2は、OLMo 3.1のリリースからわずか数日後に登場し、同じオープンエコシステム内で画像や高度な動画処理を含むマルチモーダル機能を提供します。AI2がOLMoの戦略をMoMo 2に適用できれば、「完全にオープン」と「フロンティアクローズ」のギャップは恒久的な天井のようには見えなくなり、動く標的のように見えてくるでしょう。

あなたの新しいスーパーパワー：透明なAIを使った構築

突然、ソースコードのように扱えるLLMが手に入ります。OLMo 3のApache 2.0ライセンスにより、7Bモデルをラップトップに取り込み、スタックに接続し、法的な手続きや使用制限なしに出荷できます。オフラインコーディングアシスタント、社内Q&Aボット、ログやダッシュボードを検査する可視化コパイロットが必要ですか？それを構築し、パッケージ化し、販売することができます。

高リスクの分野では、ついに「AIがそう言ったから」というだけでは済まされないモデルが登場しました。法律リサーチエージェントは質問に答えるだけでなく、OLMoTraceを用いて各文を形成した具体的なDolma 3の事例、法律、またはブログ記事を示すことができます。ファイナンスアシスタントはリスクサマリーを生成し、基となる報告書や申請文書を明らかにすることで、コンプライアンスチームが推測ではなく、情報源を確認できるようにします。

企業はAIではほとんど見ることができない完全で検査可能なスタックを手に入れます。チームは次のことができます： - Dolma 3をクローリングしてモデルが「育った」データを理解する - そのデータのスライスに対してバイアス監査を実施する - 独自のコーパスやログデータでOLMo 3をファインチューニングする - AI2のスクリプトとチェックポイントを使用してトレーニングランを再現する

最初のトークンから最終モデルまでのすべてのチェックポイントがリリース時に提供されるため、企業はトレーニング中に行動がどのように変化するかをテストし、規制当局向けに記録することができます。どのデータがどの行動に影響を与えたかを証明できるため、問題が発生した際には再トレーニングまたは精密な調整を行うことができます。

研究所はさらに大きな賞を得る：実際に内部を明らかにする共有のベースライン。各グループがMetaやMistralの不透明なモデルをハックする代わりに、彼らはOLMo 3の7Bおよび32Bバリアントを使って同等の実験を行い、RLレシピを調整したり、新しいアラインメント戦略を取り入れたりして、完全に再現可能な結果を発表できます。それだけでも、数年の研究サイクルを数ヶ月に圧縮することができるでしょう。

OLMo 3は、約6倍少ないトレーニングトークンで数学とコードの評価においてQwen 3に近い性能を発揮するため、最適化研究者は「データを減らし、より賢く訓練する」というアイデアのための実績ベースを手に入れました。もしこれらの実験が成功すれば、次のクローズドAPIを制御する者だけでなく、エコシステム全体が利益を得ることになります。

閉じたAIエコシステムへの反撃

Closed AIは秘密情報領域に向かっています。OpenAIはもはやトレーニングデータを公開せず、Anthropicはシステムプロンプトを編集し、MetaやMistralの「オープン」リリースでも通常はオープンウェイトで止まり、全ての上流は不透明です。OLMo 3はそのような状況に対する直接的な反論として登場します：7Bおよび32Bのファミリーで、ウェイト、Dolma 3の約9兆トークン、トレーニングコード、RLレシピ、チェックポイントがすべてApache 2.0の下で提供されます。

OLMoはアーティファクトであり、抗議のサインとしても機能します。AI2は、最初のチェックポイントから最終的なThinkおよびInstructのバリアントに至るまでのモデルフロー全体を明らかにすることで、現代の規模の推論モデルがNDA、ペイウォール付きAPI、または秘密の曖昧な「安全性」正当化を必要としないことを示しています。オープン性を科学の技術的要件として再定義し、マーケティング上の売り文句ではないことを強調しています。

その変化は重要です。クローズドモデルがその壁を固める中で、安全性に関する議論、著作権訴訟、そして2026年の規制の導入は、どのようなデータで訓練を受けたのか、誰に不利益をもたらしたのか、そしてどのように損害を検証するのかといった問いにすべて依存しています。OLMo 3とDolma 3、OLMoTraceを組み合わせたシステムは、規制当局、監査人、市民社会がPDFを信頼するのではなく、それらの主張を実際に検査できるようにします。

検証可能なAIがスローガンからワークフローへと進化します。OLMoTraceは、特定の回答部分をソース文書やURLにリンクできるため、以下を可能にします： - モデル出力の独立したファクトチェック - 具体的なトレーニング例に関連付けられたバイアスと有害性の監査 - 完全に同じデータとコードを用いた再現可能な安全性実験

そのような検証可能なAIは、モデルのコーパス、フィルター、強化学習パイプラインが閉ざされたダッシュボードの背後にある場合、ほぼ不可能です。

OLMo 3は、より広範な運動の集結点としても登場します。研究者、小規模なラボ、そして公共の利益を追求するグループは、完全にオープンでありながら、Qwen 3クラスのシステムと数学やコードのパフォーマンスで競争できることを証明するフラッグシッププロジェクトを持つようになりました。およそ6倍少ないトレーニングトークンを使用してです。Olmo 3: アメリカの真にオープンな推論モデルのような記事は、AIのための公共インフラがどのようなものになるかのテンプレートとして位置づけています。

別の製品がAPI収益を追い求める代わりに、OLMo 3は旗を立てます。もしAIが知識、法律、文化を仲介するのであれば、その力の一部は少なくとも検査可能で、フォーク可能で、共同所有であるべきです。

未来への道：真のオープンAIの次は何か？

リーダーボード崇拝を忘れなさい。OLMo 3の真の力は、実際に分解できる最も透明で再現可能な大規模言語モデルにあります：完全にオープンな重み、全体のDolma 3コーパス（約9Tトークン）、トレーニングおよび強化学習スクリプト、中間チェックポイント、そしてOLMoTraceがすべてApache 2.0の下にあります。すべてのベンチマークでClaude SonnetやOpenAIの最新モデルに勝つわけではありませんが、それらのモデルが提供できないものを与えてくれます：プロンプト、パラメータ、ソース文書までの完全な監査経路です。

AI2は今、公に反復できる青写真を持っています。OLMo 3.1スタイルのアップグレードを期待してください。例えば、224台のGPUでの21日間の追加強化学習による+5 AIMEや二桁のIFBenchのジャンプなどが、驚きのNDAや利用制限なしに続けて実現されるでしょう。ThinkからInstruct、そして将来の多モーダルの兄弟たちまで、各新バリアントは同じオープンパイプライン、データレシピ、および評価ハーネスを再利用できます。

本当のアクションは他の人々から生まれます。研究者は以下ができます： - Dolma 3でフルトレーニングスタックを再実行する - 法律、医療、または金融のためのドメイン特化型コーパスに置き換える - アーキテクチャ、強化学習、及び安全フィルターに関する再現可能なアブレーションを公開する

開発者は以下のことができます： - 決定に影響を与えたDolma 3文書を正確に記録するエージェントを構築する - 単一のGPUやノートパソコン上で7Bモデルのオンプレミスデプロイを実施する - セキュリティ、プライバシー、またはコンプライアンスの保証を強化するためにスタックをフォークする

それでは、オープン対クローズドの戦いはどこに置かれるのでしょうか？平均的には優れたパフォーマンスを発揮するブラックボックスアシスタントを信頼しますか、それともそのすべての特性を検査し修正できる少し劣るモデルを選びますか？規制当局がモデルがどこから事実を得たのかを問うようになったとき、あなたのスタックはどちらの側に置きたいですか？

OLMo 3をダウンロードし、AI2プレイグラウンドを起動して、独自のプロンプトでOLMoTraceを実行し、あなたのデータでDolma 3のファインチューニングを試みてください。そして、あなたの実験、ベンチマーク、パッチをOLMoエコシステムに戻し、「真のオープンAI」が実際に何を意味するのかを定義する手助けをしてください。

よくある質問

OLMo 3とは何ですか？

OLMo 3は、アレン人工知能研究所（AI2）からの完全オープンソースの大規模言語モデルのファミリーです。重み、トレーニングデータ、コード、およびチェックポイントへの完全なアクセスを提供します。

OLMo 3はLlamaやMistralと何が違うのですか？

Llamaのようなモデルが「オープンウェイト」であるのに対し、OLMo 3は「完全オープン」です。これは、全てのトレーニングデータセットとプロセスを公開し、完全な再現性と監査を可能にすることを意味します。単にウェイトだけでは実現できないことです。

OLMoTraceとは何ですか？

OLMoTraceは、OLMo 3に付属するツールで、開発者がモデルの出力をトレーニングデータ内の具体的な文書に直接結びつけて追跡できるようにし、透明性とファクトチェックの向上を図ります。

OLMo 3はGPT-4と競争できるのでしょうか？

OLMo 3は、特にそのサイズにおいてオープンソースの推論ベンチマークで非常に競争力がありますが、現在、全体的な正確性や広範な一般知識において、GPT-4のようなトップクラスのクローズドモデルには及びません。

𝕏 in ↑↗

OLMo 3: OpenAIを脅かすモデル