TL;DR / Key Takeaways
AIレースが爆発的に進展した
AIの開発は新たな段階に突入しました。フロンティアモデルはこれまでの数年から数ヶ月で出荷されるようになり、以前は研究サイクル全体を代表していたベンチマークが週末のリーダーボードの更新で崩れ去ることが多くなりました。OpenAIとGoogleの間の二強対決に見えたものが、今や世界的な競争に変わっています。
中国のラボ、DeepSeekが、西洋の緩慢さを揺るがす復活を遂げました。バイラルなXスレッドで予告された同社の最新モデルは、GPT-4クラスのコーディングと推論のスコアを記録し、劇的に低いトレーニングコストを主張しています。これは、以前のDeepSeek-V3の効率性の主張を思い起こさせます。すでにAIの「スプートニク的瞬間」を懸念している規制当局や防衛プランナーにとって、高速で進化する中国のスタックはもはや仮説ではありません。
誰もがパラメーターの数について議論している間に、アマゾンは静かに生成モデルをウェブの経済基盤に組み込んでいます。ノヴァやベドロックの名の下に新たなシステムは、モデルの魅力よりも稼働時間、コンプライアンス、トータルコストオブオーナーシップを重視する企業をターゲットにしています。バイラル性を追求する代わりに、アマゾンは契約を最適化し、小売、物流、AWSのワークフローにAIを組み込み、数百万の企業に影響を与えています。
別の観点では、ビデオモデルが視覚生成AIのリーダーシップを覆しました。GoogleのVeo 3との出力を比較したクリップに登場する新たな競合は、複雑なシーン、カメラの動き、VFXグレードのショットを描写し、まるで映画のプレヴィジュアライゼーションのようで、玩具デモとは異なります。ソーシャルフィードには、Googleのモデルが突然旧世代のように見える並べて比較したテストであふれています。
浮かび上がるのは、OpenAIやGoogleがAIの限界を定義するという考えに対する多面的な挑戦です。中国のラボは攻撃的なコストパフォーマンス曲線を推進し、Amazonはエンタープライズスタックを独占し、専門のプレイヤーがビデオ、ロボティクス、デバイス上の「ナノ」モデルといったニッチを攻撃しています。AIの力はもはや単一のベンチマークチャートや特定の企業の基調講演には存在しません。
この新しいフェーズは、レースというよりも、才能、GPU、データ、そして流通を巡る一連の重なり合った戦争のように見えます。勝者は単に最も賢いモデルを持つだけでなく、人々が日々どのように働き、創造し、計算するかに深く統合された存在になるでしょう。
DeepSeekが戻ってきた—そしてGPT-4に挑む。
DeepSeekは、GPT‑4クラスの領域を直接狙ったカムバックを果たしました。これは、コード、数学、長期的な推論に特化した新しいモデルの波です。初期のコミュニティベンチマークでは、DeepSeekの最新のフラッグシップがコーディングタスクにおいてGPT‑4やClaude 3.5と互角に戦っていることが示されています。一方、より小型のバリアントは、コストのわずかな部分でGSM8Kスタイルの数学やアルゴリズム的推論においてGPT‑4ミニスタイルモデルに匹敵するか、それを上回っています。
中国で最もアグレッシブな「オープン志向」の競争者として位置づけられるDeepSeekは、オープンソース文化と国家に aligned したAI戦略の間に奇妙な中間地帯を占めています。モデルの重み、詳細なアーキテクチャノート、トークナイザーの仕様は研究エコシステムに漏れ出しますが、デプロイメントは依然として厳しく管理されたAPIを通じて行われ、中国のコンテンツ規制を強制しています。
そのハイブリッドな立場は重要な地政学的影響を持っています。北京は、OpenAIやAnthropicと競争できるフロンティアグレードのモデルを望んでいますが、同時にそれらのシステムが政治、歴史、そして安全保障について何を言えるかを決定する確定的なコントロールも求めています。DeepSeekのアプローチは、中国のAI能力を効果的に輸出しながら、中国のAIガバナンスを完全には輸出していないのです。
コストパフォーマンスは、DeepSeekが好奇心から真の経済的脅威へと変わる場所です。以前のDeepSeek-V3のトレーニングコストの推定は数千万ドルの低い範囲にあり、内部関係者がオリジナルのGPT-4に見積もる額を大きく下回っていましたが、公共のリーダーボードで同等の推論スコアを達成しています。推論効率も似たような状況です。攻撃的な量子化と密-希薄化のトリックにより、DeepSeekの中型モデルはコストのかかるGPUや高性能なコンシューマカードでも実行可能です。
西洋のラボにとって、それは主要な競争優位を削ぐものです。もし30〜70BパラメータのDeepSeekモデルが、GPT-4のレベルに匹敵するコーディングパフォーマンスを持ちながら、百万トークンあたり2〜3倍安価であれば、「これだけの規模を私たちだけが負担できる」というアメリカの大手企業の主張は急速に薄れていきます。東南アジア、中東、ラテンアメリカのクラウドプロバイダーやスタートアップは、アメリカの輸出政策を伴わない、信頼できる非アメリカの選択肢を持つことになります。
DeepSeekは依然として規制の厳しい状況にあります。中国の生成AIに関する規則は、セキュリティレビュー、データセットの制限、および政治的敏感コンテンツの迅速な削除を義務付けており、これによりDeepSeekは、研究に適したウェイトの上に厳重な調整層を組み込むことを余儀なくされています。その結果、新しいタイプの二重用途モデルが生まれました。これは、国際的なAI研究を加速するには技術的にオープンですが、国内の検閲者を満足させるには政治的に制約されています。
アマゾンの「秘密」兵器:ノバモデルを紹介します
アマゾンは静かにGPTスタイルのシステムに対抗する独自の開発を進めており、それにはNovaという名前が付けられました。アマゾンはバイラルなチャットボットを追い求めるのではなく、これらの基盤モデルをAWSのインフラに直接組み込んでおり、既に250万人のアクティブユーザーが存在しています。
NovaはAmazon Bedrockの中心に位置し、稼働時間とコンプライアンスを重視する企業のために、テキスト、コード、およびマルチモーダルワークロードを強化します。初期のNovaバリアントは、顧客サポート、文書分析、内部知識検索などのユースケースを対象としており、すべてAWSネイティブの認証、ロギング、暗号化で包まれています。
アマゾンの強みは、競合他社が匹敵できない垂直スタックにあります。カスタムのTrainiumおよびInferentiaチップがトレーニングと推論を担当し、AWSリージョンが弾力的なGPUクラスの容量を提供し、Novaがインテリジェンスレイヤーを提供し、Amazon QとQアプリがビジネスユーザーが実際にクリックできるものに変えます。
QはAmazonの作業アシスタントですが、実際の目玉はQアプリです。これは、非開発者が平易な言葉でワークフローを説明することによって内部ツールを組み立てることを可能にします。人事チームはオンボーディングボットを構築し、財務チームはレポート生成ツールを接続し、サポートチームはトリアージコパイロットを立ち上げることができます。これらはすべて、NovaとS3およびRedshift上の既存の企業データレイクに支えられています。
OpenAI、Google、DeepSeekが消費者の関心を追い求める中、Amazonは調達部門やCIOをターゲットにしています。エンタープライズAIへの支出は2030年までに年間4,000億ドルを超える見込みで、AmazonはNovaがすべてのRFPでEC2、S3、Lambdaの隣に表示されるデフォルトの選択肢になることを目指しています。
このB2Bファーストの戦略は、AWSがクラウド市場で勝利した方法を反映しています:まずは開発者とITから始め、次第に組織全体を飲み込むというものです。企業が内部検索、コード支援、分析のためにNovaを基盤とするQを標準化すると、その削除はチャットボットを交換するだけでなく、コアのワークフローを再配線することを意味します。
DeepSeekの高効率モデルへの取り組みは、DeepSeek-V3.2リリースのような更新によって文書化されており、消費者およびオープンモデルの領域がどれほど混雑しているかを強調しています。アマゾンは、実際の利益が退屈な問題—コンプライアンスレポート、SAP統合、コールセンタースクリプト—に隠れていると見込んでおり、そこでノバが静かに存在し、時間単位で請求し、Xでトレンドになることは決してないと考えています。
あなたが見逃したGoogleのGen 4.5の革新
Googleはすでに、裏で静かに稼働しているGeminiの後継機を持っている可能性があります。X上の研究者やリーク者たちは、長いコンテキストの実験、超安定なツールの使用、そしてGoogleが「Googleがメモリを再考する」というAIニュースのダイジェストでヒントを出し始めた新しいメモリシステムを支える内部の「Gen 4.5」スタックを指摘し続けています。
証拠は断片的に存在します:ベンチマークのスクリーンショット、ログの抜粋、1Mトークンコンテキストを無意味にならずに処理するモデルの報告などです。一部のテスト担当者は、GPT-4.1レベルの推論を、遥かに優れたリトリーバル拡張ワークフローで実現し、言語、コード、構造化データツール間のスムーズな引き継ぎを行っていると説明しています。
第4.5世代は、以下の3つの軸で最も力を入れることが期待されています: - 数百ページまたは数時間にわたるトランスクリプトにおける長文推論 - テキスト、画像、動画、ライブセンサーデータを跨ぐマルチモーダル融合 - 自律的にAPI、検索、コード実行を連携させる高度なツール利用
GoogleはすでにWorkspace、Android、Searchでこのスタックのプロトタイプを作成しています。300ページの法的文書を読み、Gmailのスレッドをクロスリファレンスし、内部データベースを呼び出しながら戦略文書を作成するGeminiサイドパネルを想像してみてください。これが個々のサービスの脆弱なチェーンではなく、1つのオーケストレーターモデルの下で実現されるのです。
静かな殺し屋のアドバンテージは、Googleの研究テーブルにあります。GenCastのようなプロジェクトは、拡散スタイルの世界モデルが従来の数値気象予測を凌駕し、物理ベースのスーパーコンピュータで動作するシステムよりも高解像度の10日間予報をより早く、低コストで提供できることを示しました。
GenCastはおもちゃのデモではありません。何ペタバイトもの過去の衛星データやレーダーデータを取り込み、その後、主要な指標である二乗平均平方根誤差や極端なイベントの検出において、先進的な運用モデルを上回る確率的天候軌道を生成します。その同じアーキテクチャは、交通、物流、さらにはロボティクスの計画にもうまく対応します。
グーグルは明らかに膨大なデータとオーダーメイドのアーキテクチャを最先端のシステムに変える方法を知っています。オープンな疑問はスピードです。マウンテンビューは、OpenAI、アマゾン、DeepSeekがエンタープライズと消費者の関心を固定化する前に、Gen 4.5を搭載した製品を数十億のユーザーに提供できるのでしょうか?それとも、もう1年の慎重なローンチによって、グーグルの最高のアイデアがarXivの論文や内部デモに埋もれてしまうのでしょうか?
王は死んだ:ベオ3が王座を失った方法
AI動画の王者はわずか1シーズンしか持ちませんでした。最近、テキストから動画への基準を設定したGoogleのVeo 3は、今、中国の本格的な挑戦者Klingに直面しています。Kuaishouが提供するこの短編動画プラットフォームは、6億人以上のユーザーを抱え、リアルタイム動画インフラに強みを持っています。
Klingのデモは、X上で見た目が良いだけではありません。サイドバイサイドのクリップは、より厳密な時間的一貫性を示しています:衣装、照明、プロップが10〜20秒のショットの間で固定されており、Veo 3は微妙に漂って、顔を変形させたり背景をフレーム間で歪めたりしています。
キャラクターの安定性は、クリンの最も明白な強みかもしれません。同じ主人公、例えば赤いジャケットを着た女の子が歩いて、自転車に乗り、カフェに座っているといったマルチショット・プロンプトでは、角度が変わっても顔のアイデンティティやアクセサリーが保たれます。一方、Veo 3はしばしば主演キャラクターを「再キャスト」したり、髪型、服装、さらには年齢をシークエンスの途中で変化させたりします。
物理学は、その王座を奪われる感覚が否定できません。クリンは以下のことを扱います: - 重力と体積に従う液体の飛沫 - 時間とともに整然と折りたたまれ、舞う布 - 速いパンで形状を崩さないカメラの動き
Veo 3は、映画のような色彩と構図で光り輝いていますが、高速な動きのシーンでは揺れるオブジェクトやゴムのような衝突が露呈し、クリングはそのようなものを大いに避けるようになっています。
この瞬間は重要です。なぜなら、動画生成はAIの最前線に位置しているからです:巨大なモデル、3Dワールドの推論、そして高額なコンピュータコスト。ここで特化した中国の企業がGoogleを上回っているのを見ることは、もはや「ビジョン」「ロボティクス」や「ワールドモデル」といったフロンティアが米国のメガラボに独占されているわけではないことを示しています。
クリエイターエコノミーにとって、その影響は迅速に訪れます。Klingのレベルのツールは、個人のYouTuberやTikTokerが、以前はVFXチームやモーションキャプチャー装置、5桁の予算を必要としたショットをプレビジュアライズしたり、直接合成したりできるようにし、脚本と画面のギャップを縮小します。
VFXハウスは今、ダブルバインドに直面しています。スタジオはコンセプトパスや背景プレートにはKlingやVeo 3のようなモデルを使用し、一方でクライアントは6週間のCGシーケンスがなぜ週末のプロンプトエンジニアリングとクリーンアップよりも高いのかと尋ね始めています。
現実感の高まりは、合成メディアのリスクをさらに増幅させます。時間的一貫性と物理法則を完璧に再現するモデルは、ディープフェイクを見抜くことをより困難にし、特に速いカットのソーシャルクリップにおいてその傾向が顕著です。このため、プラットフォームや規制当局は、透かしの導入や出所基準、さらにはより積極的な検出競争に向かうことが求められています。
ミストラルのビッグスリーへの静かな攻撃
ミストラルは側面から攻撃を続けています。OpenAI、Google、Amazonが目立った戦いを繰り広げる中で、パリのスタートアップは静かにオープンウェイトのモデルを出荷しており、フロンティアシステムのすぐ後ろでベンチマークを達成し、わずかなハードウェアで動作しています。
最新のリリースであるMistral 3は、そのプレイブックを拡張します。約12B〜40Bパラメータを持つモデルのファミリーで、コーディング、数学、マルチリンガルタスクにおいてGPT-4クラスのパフォーマンスに迫りつつ、単一のハイエンドGPUに快適に収まります。企業は、MMLU、GSM8K、HumanEvalなどのベンチマークで競争力のあるスコアを主張していますが、推論コストは大幅に低く抑えられています。
米国の大手企業がAPI専用アクセスを推進する中、Mistralはダウンロード、ファインチューニング、自己ホストできるモデルに注力しています。企業はオープンウェイトのMistral 3バリアントを自社のVPC内に展開し、データ居住規則を遵守し、機密性の高いプロンプトを不透明な米国制御のスタックを通じてストリーミングすることを避けることができます。
その戦略はAPIのロックインを直接狙っています。単一のハイパースケーラーからトークン単位でインテリジェンスをレンタルするのではなく、企業はMistralのチェックポイントを標準化し、次の環境間で移動できます: - オンプレミスのクラスター - EUのクラウドプロバイダー - エッジおよびデバイス上の展開
効率性はもう一つの武器です。Mistralの専門家のミクスチャーと緊密なCUDAカーネルにより、12Bモデルが顧客サポートの要約からコードレビューまで、実際の作業負荷においてはるかに大きいLLMに匹敵することが可能です。多くのチームにとって、「十分良くて安価で制御可能」は「やや賢いが10倍のコスト」に勝ります。
その結果、ミストラルは、強力なパフォーマンスを必要としながらもデータを米国や中国のクラウドに送信できない欧州の銀行、産業企業、政府にとって静かにデフォルトの選択肢となりつつあります。GPT-4クラスのAPIを利用できない小規模な米国のスタートアップも同じ道を歩んでいます。
Mistralは、AIにおける新たな「第三の力」を確立しています。これは、より分散化されたスタックを求めるオープンモデルの研究所、EU規制当局、クラウドプロバイダーの緩やかな連携です。米国と中国のクローズドプラットフォームに分かれた世界の代わりに、Mistralは欧州のオープン志向の重心を提供します。
この変化を追っている人には、Mistral自身のMistral 3 に関する記事は宣言のように響きます:準独占的な性能、完全に検査可能な重み、そしてオープンモデルが真剣なAIインフラの中心に位置することを前提としたロードマップ。
「ナノ」革命:あなたの電話に宿るAI
ナノモデルは、AIがどこに存在するかを静かに書き換えています。遠くのデータセンターに信号を送る代わりに、デバイス上のモデルはあなたの電話のNPU、GPU、あるいはCPU上で直接実行され、数十億のパラメーターを数百メガバイト以内の何かに圧縮します。
GoogleのGemini Nanoは、テイストを設定しました:Recorderでのサマリー機能、スマート返信、Pixelフォンでのデバイス上のスパム検出を支えるコンパクトなモデルです。Appleは、ローカルでの小型モデルと、より重いタスクのためのプライベートクラウドコンピュートスタックにある大規模モデルを組み合わせた、デバイス上のApple Intelligence機能で続きました。
ハードウェアがついに追いつきました。QualcommのSnapdragon X EliteとAppleのMシリーズチップは、40以上のTOPSのNPU性能を提供し、インタラクティブな速度で1〜3Bパラメータモデルを実行できる能力があります。この変化により、ネットワークに接触せずに、音声アシスタント、翻訳、視覚タスクにおいて低遅延で50ミリ秒未満の応答が現実のものとなります。
プライバシーは注釈ではなく機能となります。写真の編集、音声コマンド、キーボードの予測がデバイスから外に出ないとき、攻撃対象の面積は縮小し、規制当局が介入する理由も減ります。企業は、機密メールや契約書を米国やEUのクラウドを経由せず、ローカルで要約する電話を想像できます。
エコシステムの戦争は今やあなたのポケットまで広がっています。GoogleはGemini NanoをAndroidシステムサービスに組み込み、AppleはそのモデルをSiri、写真、メモに組み込み、Microsoftは小型モデルをWindows、Copilot、Surfaceデバイスに推進しています。多くの場合、NPUやONNX Runtimeを通じてです。
日常のアプリは急速に進化する可能性があります。メッセージングアプリは以下の機能を実行できます: - リアルタイムのトーン書き換え - 自動翻訳 - スマート返信生成
それらすべては、フライト中に完全にオフラインで行うことができます。
カメラや写真アプリが次のターゲットに見えます。クラウドを経由した後ではなく、プレビュー自体で生成的なオブジェクト除去、背景の置き換え、スタイル転送を提供する電話を期待してください。ビデオキャプチャには、録画中にライブキャプション、シーン検出、さらにはショットの提案が追加されるかもしれません。
遅延が消えると、アシスタントのキャラクターも変化します。100ミリ秒以内で応答し、画面上のコンテキストを追跡し、地下鉄で機能する音声エージェントは、チャットボットよりもシステムレベルのセンスオルガンのように感じられるでしょう。
ロボットの反乱が…気まずくなる
ロボットはAIパーティーに乱入し続け、部屋で最も混沌としたゲストであり続けています。華やかなプロモーション映像では、ヒューマノイドが倉庫の中をジョギングしたり、洗濯物を畳んだりする様子が映し出されていますが、生の未編集映像では、ドアの前でためらったり、マグをうまく掴めなかったり、人間がフレームを横切ると固まったりする様子が見られます。
Figure 01、Tesla Optimus、および Agility Robotics のDigitのようなヒューマノイドプラットフォームは、現在大型の言語モデルをオンボードまたは5Gを介して実行しています。マルチモーダルなビジョンスタックと組み合わせることで、「2段目の棚から青いドライバーを拾ってサムに渡す」といった命令を解析し、ハードコーディングされたスクリプトなしで複数のステップアクションを計画することができます。
Figureのデモでは、OpenAIのモデルを使用して作業者が作業場について自然な質問を投げかけ、ロボットがツールを特定し、自身の視覚情報を説明する様子が示されました。Sanctuary AIのPhoenixとApptronikのApolloは、類似の「汎用」行動を提案しています:1つのボディ、多くの仕事、LLM、セマンティックマッピング、そして強化学習に駆動されています。
現実は、モデルが物理に直面したときに訪れます。ロボットは、照明が変わったり、光沢のある床の摩擦を誤ったり、シリアルボックスの後ろに「青いカップ」が隠れている混雑したシーンを誤解したりすると、まだ物体を落とします。ボストン・ダイナミクスの名高いアクロバティックなアトラスでさえ、単一の足場の推定が間違うとカメラの外で顔から落下することがあります。
研究者たちは、理由があって失敗のコンピレーションを投稿し続けています。言語モデルは存在しない引き出しを思い込む;グラスププランナーは刃の部分を持ってナイフをつかむ;ナビゲーションスタックはロボットを視覚モデルが「オープンスペース」と分類するガラスの壁に突っ込ませる。これらのミスは、現在の知覚と計画のパイプラインが研究室レベルの環境の外でどれほど脆弱であるかを暴露しています。
具現化されたAIの支持者たちは、これらのつまずきが必要だと主張しています。その主張はこうです:真のAGI(汎用人工知能)には、テーブルにぶつかったり、関節のトルクを感じたり、「優しく押す」や「熱すぎる」といった抽象的なトークンをセンサーデータに基づいて理解できる身体が必要です。ただのウェブテキストではなく。
懐疑論者は、シミュレートされた世界と大規模なマルチモーダルコーパスが十分である可能性があると反論します。彼らは、数十億のビデオフレームと豊富な物理シミュレーションを持つゲームエンジンで訓練された「世界モデル」を指摘し、エージェントが一つのリアルなグリッパを壊すことなく、無限に近い寿命を体験できると述べています。
現在、多くのラボはヘッジを行い、両方のアプローチを採用しています。ヒューマノイドのフリートは実際のインタラクションデータを収集し、並行してエージェントはフォトリアリスティックなシミュレーションでトレーニングを行っています。シム・トゥ・リアル転送やポリシーディスティレーションといった技術が、完璧なバーチャルパフォーマンスとぎこちなく、遅い、人間に近いロボットとのギャップを埋めようとしています。
地政学的AI戦場が加熱する
地政学は今やモデルの重みの中に存在しています。DeepSeekの復活、AmazonのNova推進、GoogleのGen 4.5の取り組み、そしてMistralのオープンウェイト攻撃は、すべて一つの物語を形成しています。国家やブロックが他者に未来を奪われる前に、自らのAIスタックを強化しようと競い合っているのです。
中国の戦略は、ほぼ教科書通りの産業政策のように見えます。DeepSeek、Zhipu、Baidu、Alibabaは、輸出管理が施されたGPUとHuaweiのAscendシリーズによる国内チップ攻勢を支えに、補助金で提供された計算資源を使用してGPT-4クラスのモデルを訓練しています。DeepSeek-V3.2 on Hugging Faceのようなプロジェクトは、米国の制裁下でも中国の研究所がどれだけ迅速にイテレーションを行えるかを示しています。
ヨーロッパは異なるゲームを展開しています:規制とオープンモデルを武器にしています。EUのAI法は、「システミックリスク」モデルや透明性に関する厳格なルールを設けており、最先端のリリースを遅らせますが、エネルギーをMistral 3やLlamaクラスのフォークなどのオープンウェイトシステムに流しています。ブリュッセルは、相互運用性、標準化、プライバシー保証がモデル自体と同じくらい価値のある輸出製品になることを賭けています。
アメリカの権力は依然として民間に集中しています。OpenAI、Google、Amazon、Meta、Anthropicは、高性能なTPU、GPU、ネットワーキング能力の大部分を支配しており、しばしば垂直統合されたクラウドを通じてそれを行っています。この集中により、彼らは数十万のH100やTPUで測定されるクラスター上で、Gen 4.5規模の実験、Novaクラスのエンタープライズモデル、またVeo 3の後継機を展開することが可能になります。
「AI主権」は新たな「エネルギー独立」となりました。各国政府は以下の三つのものを確保するために奔走しています: - 先進的なプロセス技術のための国内または同盟国の半導体工場(TSMC、Samsung、Intel) - 長期的なGPUおよびアクセラレーターの配分 - トップ級の機械学習研究者やロボティストのための移民パイプライン
規制がテンポを決定します。中国の生成AIに関する規則は厳格なコンテンツ管理とセキュリティ審査を求めるため、一部のリリースは遅れますが、モデルは検閲や産業自動化といった国の優先事項に沿ったものとなります。一方、アメリカの規制当局は独占禁止法、輸出管理、ソフトローによる安全基準に依存しており、迅速な展開を可能にする一方で、権力が少数の企業に集中しています。
ヨーロッパのガードレールは両方向に影響します。ミストラルは強力なオープンモデルを出荷できますが、コンプライアンスコストが小規模なスタートアップをロンドン、ドバイ、またはサンフランシスコへの移転に追いやります。その結果、中国はコントロールを最適化し、ヨーロッパはガバナンスを最適化し、アメリカはスケールを最適化するという三速の世界が生まれ、すべての新しいモデルが交渉材料となります。
あなたの次の仕事はAIによって支えられるものであり、置き換えられるものではありません。
仕事が一晩で消えることは稀であり、それはタスクに分割されて静かに再構築される。AIの新しい波、DeepSeekのコードエンジン、AmazonのNovaモデル、Googleの噂されるGen 4.5、Veo 3の動画後継機、およびあのバイラルなナノモデルは、全体の職業ではなく、特定のタスクに外科的な精度で狙いを定めている。
会計士、弁護士、アナリストは、照合、契約レビュー、報告書の草案作成といった煩雑な作業を、NovaまたはGeminiクラスのシステムで動作するコパイロットに委ねるでしょう。エディターやYouTuberは、Veo 3の競合やRunwayやFreepikのツールを利用して初回のカット、VFX、Bロールを作成し、その後はテイスト、ストーリー、配信により多くの時間を費やすことになるでしょう。
携帯電話では、「ナノ」モデルが3〜8億パラメータ未満でローカルに動作し、キーボード、カメラ、メモアプリの内部に搭載されます。これらは、リアルタイムでミーティングを要約し、送信ボタンを押す前にメールを書き直し、30秒の画面録画から自動的にドキュメントを生成します—クラウドに触れることなく。
エンタープライズスタックは、巨大なGPTスタイルの脳のようではなく、専門家の工具箱のように見えるでしょう。単一のワークフローは以下のものをつなげるかもしれません: - 情報検索と推論のためのドメイン調整されたNovaモデル - コード生成とリファクタリングのためのDeepSeekスタイルモデル - トレーニング用クリップや広告のためのVeo 3を超えるビデオモデル - 安全でオフラインのパーソナライズのためのデバイス上のナノモデル
その移行によって「AIが私の仕事を奪う」という考えが「AIが私の仕事をするために使うすべてのタブに存在する」と変わります。マッキンゼーの推計では、現在のタスクの60〜70%には何らかの自動化の可能性が含まれていますが、現在の技術では完全に自動化できる役割はわずかです。タスクと仕事の間のギャップには、人間の判断、センス、責任がまだ支配しています。
サバイバル戦略は非常にシンプルに見えます:これを直接触ってみてください。無料のNovaまたはGeminiインスタンスを立ち上げ、DeepSeekでコードレビューを試し、OllamaやLM Studioを使用してデバイス上にモデルをインストールし、RunwayやKlingでクリップのストーリーボードを作成します。
AIを1990年代のExcelのように扱う労働者—最初は面倒だが、次第に欠かせなくなる—がペースを作るだろう。それ以外の人々は、機械と話す方法を学ぶという退屈な作業をした誰かから指示を受けることになる。
よくある質問
DeepSeekの新しいAIモデルとは何ですか?
DeepSeekは、DeepSeek-V3のような非常に効率的で強力なモデルをリリースしました。これらのモデルはコーディングや数学での卓越した性能で知られており、トレーニングコストのごく一部でGPT-4といった既存モデルに挑戦しています。
アマゾンの「秘密」のノヴァAIモデルとは何ですか?
ノヴァファミリーは、AWS Bedrockを通じて利用できるAmazonの独自の基盤モデルです。企業向けに設計されており、セキュリティ、カスタマイズ性、および企業データシステムとの統合に重点を置いており、AmazonのB2B-first AI戦略を表しています。
どのAIモデルがGoogleのVeo 3に勝ったのですか?
中国のテクノロジー企業KuaishouのAIビデオモデルKlingの最近のデモは、複雑なシーンにおいて優れた時間的一貫性と物理的リアリズムを示しており、多くの専門家がそれがGoogleのVeo 3を超えたと述べています。
「ナノ」AIモデルはなぜ重要なのか?
ナノモデルは、電話やノートパソコンなどのデバイス上で直接動作するように設計された、小型で効率的なAIです。プライバシー、速度、オフライン機能において大きな利点を提供し、クラウドを必要とせずにリアルタイム翻訳やスマート写真編集といった機能を実現します。