インテグラルAIのAGI対応モデルとAIプロンプティングの未来

💡

TL;DR / Key Takeaways

あるスタートアップが世界初のAGI対応モデルを主張していますが、真の物語は新しいビジョンモデルがすでにすべてを変えていることです。なぜあなたのAIスキルがすぐに時代遅れになるのかを発見してください。

衝撃の主張：AGIはすでに存在する？

世界初のAGI-AGI対応モデル。それがインテグラルAIが今朝発表した新システムの紹介方法であり、単なる大規模言語モデルではなく、タスク特化型のファインチューニングなしで「自律的に計画し、学習し、異なるモダリティで行動する」アーキテクチャを主張しています。同社によれば、このモデルはテキスト、コード、画像、ライブツールを単一のループで処理し、明示的にAGI-AGI対応として販売されています。「先進的」という表現には留まりません。

発表の中心には、Integral AIの創設者であるダニエル・クwanがいます。彼は以前、GoogleのBrainとDeepMindチームの上級研究者であり、大規模な強化学習やマルチモーダルトランスフォーマーに取り組んでいたとされています。クwanの履歴書には、ポリシー勾配法に関する出版物、トランスフォーマーを基にしたエージェントの初期作業、内部のGeminiプロトタイプでの経験が含まれており、IntegralにはほとんどのAIスタートアップが偽造できないレベルの技術的信頼性があります。

Integralは、同社のシステムが4000億パラメータのバックボーンを持ち、Mixture-of-Expertsレイアウトで動作することを主張しています。これは、NvidiaのNeotron 3や他のスパースモデルと精神的に似ていますが、「エージェントコントローラー」に接続されており、ツールを呼び出したり、ウェブをブラウズしたり、ソフトウェアインターフェースを操作したりすることができます。同社はすでに、このモデルが多段階のスプレッドシート監査を解決したり、大規模なコードベースをリファクタリングしたり、画面のピクセルとテキストの指示だけを使って慣れていないUIを操作したりするデモを行っています。

市場は即座に反応したが、不均一だった。X上では、いくつかの著名な研究者がAGI言語を過去の過剰な宣伝と比較し、OpenAIやGoogleのGPT‑5クラスおよびGeminiモデルに関するより慎重な表現を指摘した。Integralが共有した初期のベンチマークスニペット—MMLU、GSM8K、およびカスタム「知識作業」スイート—は、強力ではあるが明らかに超人的とは言えないスコアを示し、学者や独立評価者からの懐疑の波を引き起こした。

しかし、投資家や企業のバイヤーはそれを完全には却下しませんでした。信頼性のあるソフトウェアを運用できるツールコーリングエージェントは、フォーチュン500の自動化チームが求めているものそのものであり、インテグラルは既にパイロット顧客がファイナンス、法務、オペレーションのワークフローでモデルを運用していると主張しています。もしデモが第三者による複製を乗り越えれば、「AGI-AGI対応」は単なるスライドデッキの形容詞ではなく、新しい製品カテゴリとして見えてくるでしょう。

その結果、業界全体に尖った疑問が浮かんでいます：インテグラルAIは注目を集めるためにAGIという用語を先取りしているのか、それとも元グーグルの内部者が静かに「世界初」のシステムを開発したのか、それはチャットボットのようではなく、むしろジュニア同僚のように振る舞うものでしょうか？

「AGI対応」の解読：ハイプとホライゾン

インテグラルAIは「AGI-AGI対応」の主張を、狭い技術的なアイデアに基づいています。それは、自らの環境から自律的に学習することができるモデルであり、大規模で事前にキュレーションされたデータセットに依存するのではありません。彼らの枠組みにおいて、このシステムは生の画像、インターフェース、文書、センサーデータのストリームを観察し、瞬時に自らの内部ポリシーを更新します。これは、静的な大規模言語モデルよりも強化学習エージェントに近い形です。会社は、このように継続的に適応できるようになれば、人工汎用知能が出現するための基盤を持つことになると主張しています。

その定義は、ほとんどの研究者がAGIについて意味することを静かに回避しています。主流のAI研究において、AGIは人間レベルの一般知能を意味します：ほぼすべての領域で柔軟に理解し、計画し、行動する能力であり、人間と comparable な堅牢性、転移能力、常識を備えています。その基準で言えば、「AGI-AGI対応」は「建築的に興味深い」というよりも「機械が今や我々の認知の仲間である」という響きに聞こえます。

インテグラルAIがこの分野と方向性を一致させているのは、知覚し、推論し、行動する統合エージェントとしてのモデルの推進にあります。同社は、以下を取り込む単一のシステムを説明しています： - テキスト、画像、動画 - GUIの状態およびAPIの応答 - おそらく現実のセンサーやロボットデータ

そして、インターフェースをクリックしたり、ツールを呼び出したり、コードを発行したり、計画を更新したりするアクションを選択します。同じように、OpenAI、Google、Zhipu（106BパラメータのGLM‑4.6Vと9BのFlashバリアントを持つ）が構築を競っているエージェント的でマルチモーダルなスタックです。

証拠を見るとギャップが現れます。Integral AIの公開デモは、これまでのところ初期段階の研究プロトタイプに似ており、UIナビゲーションの短いクリップ、玩具のロボティクス、制約のあるパズル解決が含まれていますが、具体的な数字はありません。標準化されたベンチマークは存在せず、MMLU、MMBench、AgentBenchなどのスイートにおける直接対決の結果もなく、自律学習が従来のファインチューニングに勝ることを示すアブレーションスタディもありません。

その言葉と実績の間の不一致は重要です。「世界初のAGI-AGI対応」という主張は、任意のタスクを堅牢に処理し、オンラインで適応し、理由を説明できるGPT-4クラスのモデルの期待を設定します。しかし、印象に乏しいデモを数件出すことは、よく知られたストーリーを示唆します。基礎研究は本物かもしれませんが、マーケティングはすでに科学の何周も先を行っているのです。

中国の先見の明ある一歩、GLM-4.6V

中国のAIエコシステムが、あいまいな「AGI-AGI対応」主張に対する具体的な対抗馬を生み出しました。それがZhipu AIのGLM-4.6Vで、視覚と推論の能力を兼ね備えたマルチモーダルモデルです。Integral AIのAGI発表が自律学習の大胆な約束に依存する一方で、GLM-4.6Vは検証が容易な基準、パラメータ、稼働コードに旗を立てています。

GLM-4.6Vは、テキスト、画像、スクリーンショット、そしてフルドキュメントページを一度の処理で取り込むオープンソースのマルチモーダルビジョン・ランゲージモデルとして登場します。それは単に画像にキャプションを付けるだけではなく、複雑なPDF、混沌としたユーザーインターフェース、図表、数学プロットを解析し、長期的なコンテクストを維持します。

Zhipuは異なる展開の現実に応じた2つのバリアントを提供しています。フルGLM-4.6Vはクラウド規模のワークロードに対して約1060億パラメータを持ち、一方でGLM-4.6V-Flashは低遅延、オンデバイスまたはエッジのシナリオ向けに約90億パラメータに削減されています。

両方のモデルは128Kトークンの範囲でコンテキストウィンドウをサポートしており、これは何十ページ、何百ページにもわたる実際の文書にとって重要です。その容量により、コンテンツを損失のある断片に分割することなく、エンドツーエンドの契約レビュー、技術文書の分析、またはマルチスクリーンアプリのウォークスルーなどのタスクが可能になります。

ベンチマークにおいて、ZhipuはGLM-4.6Vを同様のパラメータ規模のオープンな視覚言語モデルの中で最先端と位置付けています。内部およびサードパーティのテストは、以下の分野での強力なスコアを際立たせています： - 文書理解 - スクリーンショットおよびGUI分析 - 図表およびチャートの解釈 - 視覚的質問応答および数学的推論

GLM-4.6Vが多くの西洋の競合と異なる点は、モダリティ間の共同推論をネイティブで行えることです。スクリーンショット、スキャンしたフォーム、テキストクエリを一緒に入力することができ、モデルはレイアウト、テキスト、視覚的手がかりを単一の推論問題として捉え、OCRをLLMの上に付加するのではなく、統合的に処理します。

そのデザインにより、GLM-4.6VはGoogleのGeminiビジョンスタックやOpenAIのGPT-4.1/4.2Vレベルに対する信頼できるオープンな競争相手となっています。開発者は、自己ホスト可能で微調整ができ、UI自動化、エンタープライズ検索、またはコンプライアンスワークフローのためにエージェントに接続することができるモデルを手に入れることができます。すべてをクローズドAPIに委ねることなく。

なぜあなたのプロンプトは間もなく廃れつつあるのか

プロンプトは静かにレガシーUIに変わりつつあります。GLM‑4.6Vのようなモデルは、単にあなたの言葉を読み取るだけでなく、あなたの画面を見て、PDFを解析し、100,000以上のトークンにわたる混合テキストと画像の構造を追跡します。これにより、AIに対して「言う」ものが冗長な文章から、製品仕様に近いものに変わるのです。

段落にわたるリクエストを作成する代わりに、分析ダッシュボードのスクリーンショットをモデルに渡し、「これを月次トレンドに基づいて自動化し、Slackで異常を通知して」と入力します。GLM‑4.6Vは、チャートの軸、凡例、フィルター、さらにはユーザーインターフェースの外観を調査して、基礎となるデータモデルを推測します。あなたのテキストは目標となり、スクリーンショットはモデルが実際に考慮するコンテキストになります。

重要な要素はネイティブマルチモーダル機能呼び出しです。画像をOCR処理したり、手動でレイアウトを説明したりする代わりに、GLM‑4.6Vは生の画像、図、またはドキュメントページを直接ツールやエージェントに渡します。1回の呼び出しで以下をまとめることができます： - 20ページのスキャンした契約書 - 製品のスクリーンショット - 短いテキスト指示

そのパッケージは、モデルが「見た」内容に基づいて、コードを検索、書き換え、実行したり、外部APIをトリガーしたりするツールチェーンを通じて流れます。

プロンプトエンジニアリングは、精緻な呪文の技術として、時代遅れに見え始めています。「右上の‘MRR’とラベル付けされたカードで、月ごとの変化を特定せよ…」と明示する必要はなくなり、モデルはMRRウィジェットを視覚的に特定し、その数値を読み取れるようになりました。難しい部分はフレーズ作成からスコーピングに移ります：制約、データソース、権限、許容可能な失敗モードを定義することです。

対話はおしゃべりなやり取りから自律エージェントのための目標設定へと移行します。あなたはFigmaボードを指さして「このフローを動作するオンボーディング体験にして、私たちのStripeサンドボックスに接続して」と言います。エージェントはGLM‑4.6Vのビジョンスタックを使用してレイアウト、階層、およびコピーを理解し、その後、すべてのステップをあなたが説明することなく、コードツール、デザインシステム、およびデプロイパイプラインを呼び出します。

モデルが共同の視覚とテキストの推論に優れるようになるにつれて、プロンプトはミッションブリーフのようになります。あなたは資料—スクリーンショット、ホワイトボードの写真、ダッシュボード—と簡潔な目的を提供します。システムは、あなたが提示した内容から実行に必要な内容への翻訳を処理します。

AIの経済学がひっくり返った

高級なマルチモーダルAIは、動画に触れる人に罰を与えています。OpenAI、Anthropic、GoogleのフロンティアAPIはトークン単位で料金を請求し、動画パイプラインはトークン数を爆発的に増加させます。すべてのフレームやサンプリングされたキーフレームがテキストになり、すべてのキャプションやトランスクリプトのチャンクが加算されます。1080pの素材を数時間GPT-4oやClaude 3.5 Sonnetで処理すると、請求書が数百ドルに跳ね上がるのを見ていることになります。

GLM‑4.6Vは、2つの角度からその問題にアプローチしています：オープンウェイトと攻撃的な価格設定です。Zhipu AIは、106Bパラメータのクラウドモデルを、従来の西洋の競合他社よりも大幅に安い料金で提供しており、一部の中国のプロバイダーは、100万入力トークンあたり0.30ドル未満、100万出力トークンあたり0.90ドルの価格を提示しています。監視フィード、UI録画、またはカスタマーサポートの画面キャプチャで毎日数千万トークンを扱うとき、この価格差は予算項目となります。

次に紹介するのはGLM‑4.6V‑Flashで、ローカルおよびエッジ展開向けにチューニングされた9Bパラメーターの兄弟です。チームは、高性能なGPU数台または適切にスペックされたワークステーションでこれを実行でき、ハードウェアに一度だけ支払いを行い、実質的に無制限のスクリーンショット、PDF、および図を処理できます。連続的なワークロード—セキュリティカメラ、産業監視、ゲームプレイ分析—では、ローカル推論により、1件ごとの利用料から固定費用のインフラに経済性がシフトします。

この価格圧力は、OpenAIとAnthropicが依然としてプレミアムSaaSベンダーとして振る舞っている市場に到達します。彼らのマルチモーダル・ティアには以下が含まれています： - 画像や動画入力のための高いトークン単価 - 厳格な利用制限 - 不明瞭な超過料金ポリシー

GLM‑4.6VやQwen、LLaVA、NVIDIA NeMoのようなモデルは、別の戦略を促しています：スタックを自社で所有し、必要な時にのみレンタルすることです。これにより、大規模かつ予測可能なワークロードにおいて既存の競合を下回り、独自のAPIはニッチな「フロンティア性能が必要な時だけ」役割に relegates されます。

より安価で強力なビジョン・言語モデルは、誰が複雑なAIシステムを構築できるかをも変えます。ジャカルタのスタートアップは、700万ドルのAPI予算なしで、地元の請求書や配送フォームにGLM-4.6V-Flashを微調整できます。2人のインディスタジオは、プレイヤーのPC上で完全に動作し、リアルタイムでHUDとミニマップを読み取るゲーム内コーチを提供できます。

マルチモーダルモデルが手に入れやすく、十分な性能を持つようになるにつれて、制約はお金から想像力へと移行します。次の波のAI製品—自律型UIテスター、常時稼働の工場検査官、ドキュメントネイティブのコパイロット—は、もはやフロンティアトークンを大規模に購入できる企業だけのものではなくなります。

Nvidiaの静かな革命：あなたのPCを力づける

Nvidiaの最新のローカルAIパワーへの取り組みは、Neotron 3であり、これはオープンウェイトを持つ30BパラメーターのMixture-of-Experts言語モデルです。スピードと効率性を重視して設計されており、小型のオンデバイスモデルとクラウドベースの最前線システムとのギャップを狙っています。Nvidiaは、Neotron 3が標準ベンチマークでGPT-4.1-OSSやQwen 3 30Bなどの他の約30Bモデルを上回っていると主張しており、実用的な展開に十分なスリムさを保っています。

Mixture-of-Experts、またはMoEは、通常の密なモデルの経済をひっくり返します。すべてのトークンに対してすべてのパラメータを活性化する代わりに、Neotron 3は128の専門家を使用し、各トークンごとにわずか6つがアクティブとなるため、31.6Bのパラメータのほとんどが任意のステップでアイドル状態のままになります。これにより、より大きなモデルの能力を中規模のLLMに近い計算コストで得られます。

アーキテクチャが重要なのは、自分のハードウェア上で強力なAIを直接実行したい場合です。MoEにより、Neotron 3は最新のGPU上で高いスループットを実現しながら、インタラクティブな使用に十分な低遅延を保ちます：コーディングアシスタント、ローカルコパイロット、そして決してマシンを離れないプライベートドキュメントチャットがそれです。絶対的な最前線のパフォーマンスを少し犠牲にする代わりに、予測可能で制御可能な速度を得ることができます。

プライバシーと主権は、この変化の中心にあります。Neotron 3のようなモデルは、ワークステーション、エッジサーバー、または小規模ビジネスのNAS上で動作し、以下の処理を行います： - 機密契約書とメール - ソースコードとビルドログ - 内部分析およびダッシュボード

ベンダーのクラウドを通過する必要のあるプロンプトや埋め込みはありません。これは、個別のインフラストラクチャではなく、大規模な中央集権的システムを提唱するインテグラルAIのようなプレイヤーからの「世界初のAGI-AGI対応」という主張とは対照的です。そのビジョンについては、インテグラルAIが世界初のAGI-AGI対応モデルを発表 - ビジネスワイヤをご覧ください。

ネオトロン3は、Nvidiaが市場の次の動向をどこに考えているかを示しています。それは、ハイパースケールデータセンターだけでなく、PCクラスのAGI時代のツールであり、個人や小規模チームが自分たちの条件で真剣なモデルをローカルで実行することを想定しています。

GPT-5.2の驚くべき「経済的価値」への転換

GPT-5.2は、多くの一般ユーザーにとって大きな期待外れとなりました。ソーシャルフィードは、「中途半端」、「後退した」、またはクリエイティブライティングやコーディングのトリック、カジュアルなチャットに関して「5.1と同じくらい」と呼ぶ比較で溢れました。しかし企業内部では、初期導入者たちが静かに異なる報告をしていました。知識労働において突然不気味なほど有能に感じられるモデルです。

OpenAI自身のチャートは、このギャップを説明しています。学術的なベンチマークでのわずかな向上を追い求める代わりに、GPT-5.2はGDP-V（「国内総生産-価値」の略）で急上昇しています。これは、モデルが経済的に有用なタスクをどれだけうまく遂行できるかを測る合成ベンチマークです。この軸において、OpenAIはGPT-5.2が5.1のスコアをおおよそ倍増させていると主張しており、彼らが示した中で最も大きな単一世代の飛躍の一つです。

GDP-Vは、実際に貸借対照表に現れるものをテストします：RFPのドラフト作成、レポートの構成、散らかったスプレッドシートの整理、あいまいなポイントを経営者向けのプレゼンテーションに変換することです。GPT-5.2はそのバイアスを反映しています。これは、生データからPowerPointプレゼンテーションを作成し、Excelでデータを整頓し調整し、より少ない幻覚と手取り足取りのサポートで複雑なビジネスワークフローを推理するように調整されています。

クリエイティブなライティング、独特なアイデア出し、そしてオープンエンドのチャットは、ターゲットではなかったために魅力が失われたように感じます。GPT-5.2をフィクション、ファンアートのプロンプト、または哲学的なやり取りのためのより強力なGPT-4として扱うユーザーは、その新しいパーソナリティに直面します。それはより保守的で、より文字通り、より「共同作家」ではなく「コンサルタント」のようです。CFOにとっては、それが機能なのです。しかし、小説家にとっては、それはダウングレードのように感じます。

このパivotは、市場がどこに移動したかを明らかにします。フロンティアモデルのトレーニングと運用には数千万ドルかかるようになっており、無料のチャットボットやおやすみなさいストーリーにその燃焼率を正当化することはできません。OpenAIは、GDPを動かす分野、つまり金融、コンサルティング、法務、オペレーション、エンタープライズソフトウェア、および内部自動化を明示的に最適化しています。

戦略的なロックインが形成されつつあるのが見えます。世界クラスのモデルで:

1パワーポイントおよびボードパック
2Excelモデリングとシナリオ分析
3方針、契約、そしてコンプライアンスのワークフロー

Microsoft 365、顧客CRM、および社内ツールに直接統合されます。GPT-5.2は汎用チャットボットのアップグレードというよりも、「世界初のAGI-AGI対応」の競争が四半期ごとの収益を通じて進行していることを示すサインです。

AIスーパーエージェントの台頭

力は生のモデルからそれらを包むスーパーエージェントへと移行しています。Manis 1.6とPoeticは、オーケストレーション、メモリー、自己批評の薄い層が一般的なLLMを、プロンプトを待つチャットボットではなく、自律的な共同作業者のように見えるシステムに変える方法を示しています。

Manis 1.6は、ベースモデルの周りに複数のツールやサブエージェントを連結させることでこれを実現します。リクエストを原子タスクに分解し、それぞれを専門的なルーチンに振り分け、最後に結果を融合させるため、「この市場を調査し、ローンチプランを作成する」という作業は、最小限の人間の指示で自動的なブラウジング、クラスター化、執筆に数時間を要することになります。

Poeticは、さらなる推論の深みへと進みます。既存のLLMの上に構築されており、ARC-AGIのベンチマークを破ったのは、新しいフロンティアモデルの訓練によるものではなく、巧妙な推論のスキャフォールドと自己監査ループを追加することで、システムが回答を確定する前に自らの仮説をテストし、精練することを強制しています。

ARC-AGIはパターンマッチングに対して悪名高く敵対的であり、小さな視覚パズルに対して抽象的な推論を要求します。Poeticは基本モデルを次のプロセスで包み込みます： - 候補ルールを列挙する - 各ルールを例でシミュレーションする - 一貫性のない仮説を廃棄する - 合格するルールセットが現れるまで繰り返す

そのアーキテクチャは、PoeticのARC-AGIのパフォーマンスを典型的なLLMのベースラインをはるかに超えたレベルに推し進め、AGI-AGI対応の振る舞いは、単にパラメータの数を増やすのではなく、「脳の周りの脳」をより良くすることから生まれる可能性があることを示唆しています。タスクの分解方法、出力の検証、エージェントがツールを呼び出す仕組みといった製品設計の選択は、基盤となる重みと同じくらい重要になってきます。

「AGIは製品設計から生まれる可能性が高い」という考えは、スローガンというよりもロードマップのように感じられる理由です。エージェンティックな足場は、静的なモデルを、自ら計画し、記憶し、自己修正するシステムへと変えます。それは、情報検索を強化した研究エージェントから、テストを実行し、失敗を二分し、自動的に回帰を修正するコードのリファクタリングツールに至るまでのものです。

ユーザーはすでにこれを会話ではなく、自律的な作業として体験しています。詩的スタイルのエージェントはベンチマークスイートや評価ハーネスを処理し、Manisのようなプラットフォームはブラウザ、CLI、およびクラウドAPIにまたがる数時間にわたるワークフローを管理し、最終的なレポート、ダッシュボード、またはコードベースの差分を提供します。

GLM-4.6VやNeotron 3のようなモデルに結びついているこれらのスーパーエージェントは、スクリーンショット、PDF、ローカルファイルを読み取り、見ることができ、絶えず促すことなく行動できます。チャットボットのUIはジョブチケットとなり、あなたが成果を説明すると、エージェントが分解し、実行し、監査を行い、本当に人間の判断が必要なときだけあなたに連絡します。

AIゴールドラッシュにおける信号とノイズの選別

マーケティング部門はAGI-AGI対応モデルについて大声で叫びますが、エンジニアたちは実際のワークフローを変えるシステムを静かに出荷しています。GLM-4.6V、Neotron 3、そしてPoeticのようなエージェントプラットフォームは、すべて同じ方向を指しています。実用的で自動化されたマルチモーダルAIであり、チャットボットのようではなく、インフラストラクチャのように振る舞います。

マルチモーダル機能は「画像を見ることができる」以上の意味を持つようになりました。GLM-4.6Vは、テキストに加えてスクリーンショット、PDF、図を取り込み、100Kトークン以上の長文コンテキストで推論を行い、UIをクリックしたり、契約全体を解析したりするエージェントを駆動します。プロンプトは指示の段落からシステムが自ら分解する単一の高レベルの目標に縮小されます。

同時に、効率的なローカルモデルがクラウドAIの独占を打破しています。NVIDIAのNeotron 3は、30BパラメータのMixture-of-Expertsモデルを、以前は7Bで限界だったハードウェア予算に押し込み、128の専門家のうちトークンごとに6名のみをアクティブにしています。GLM-4.6V-Flashは、視覚と言語の推論を9Bパラメータのパッケージに押し込むことで、ハイパースケーラーのGPUファームではなく、ワークステーションやエッジボックスに収まることができます。

エージェンティックスタックは、この基盤の上に構築されています。Manis 1.6やPoeticのようなシステムは、複数のモデル、ツール、リトリーバルパイプラインを統合し、文脈を記憶し、タスクをスケジュールし、アプリ間で操作する持続的な「AIスーパーエージェント」を編成します。価値の飛躍は、基本モデルの単一のIQジャンプからではなく、これらのモデルをツール、メモリー、自律性に接続することから生まれます。

それと対照的に、「世界初のAGI」といった派手なヘッドラインがあります。インテグラルAIの世界初のAGI-AGI対応という主張や、ここで紹介されているスタートアップのような類似のピッチは、ほとんど確認されていない物語に過ぎません。GLM-4.6Vのベンチマーク勝利、Neotron 3の効率的な数値、そしてGPT-5.2のGDP価値に焦点を当てた内容は、測定可能です。

業界は、人間のようにあらゆるタスクを学習できる一般的な知能からは遠く離れていますが、商業的に爆発的な可能性を持つものに非常に近づいています。それは、積み重ねられ、自動化され、マルチモーダルなシステムであり、「AIを使う」という行為を「AIがそれをやった」と静かに変えてしまいます。

新しいAIの風景におけるあなたの次の一手

新しいオープンソースのマルチモーダルスタックに触れてみましょう。OllamaやvLLMを使ってGLM‑4.6V‑Flash（9B）をローカルで立ち上げ、SigLIPやCLIPのようなオープンな視覚エンコーダーと組み合わせて、スクリーンショットエージェントやPDFリーダー、GUIボットをプロトタイプ化しましょう。これにより、1本の長いビデオやドキュメントジョブで$10以上のGPT‑5.2トークンを消費せずに済みます。

開発者は、チャットボックスではなくファイルを中心に入力を再設計すべきです。ユーザーが次のものをドラッグして追加できるフローを構築してください： - 200ページのPDF - Figmaのエクスポート - Excelのスクリーンショット - 短い動画クリップ

それなら、ユーザーにテキストのコピー＆ペーストを強いるのではなく、モデルがレイアウト、表、図を直接扱えるようにしましょう。

テックリーダーは「一つのモデル、一つのプロンプト」という考え方をやめ、モデルオーケストレーションを考えるべきです。生産ワークフローにおいては、安価なルーティングと分類のために小規模なローカルモデル（Neotron 3、30Bパラメータ）を組み合わせ、難しい推論のために強力なクラウドモデル、検索、RAG、コード実行のための専門的なツールを利用しましょう。

スタートアップを運営している場合、あなたの競争優位は「私たちはGPT-5.2を使用しています」ではなく、エージェントシステム設計です。あなたのスタックが問題をステップに分解し、ツールを選び、モデルを呼び出し、失敗から回復する方法です。すべてのエージェントにログ記録、トレース、ステップごとのコストを計測させて、なぜワークフローが$0.03または$3のコストがかかるのかを確認できるようにしてください。

愛好家は、プロンプトエンジニアリングを超えて意図的に練習するべきです。AutoGen、CrewAI、またはオープンな詩的スタイルのエージェントのリポジトリをクローンし、視覚にはGLM‑4.6Vを、テキストにはローカルのNeotron 3インスタンスを挿入して、負荷の下でのマルチエージェントの協調が実際にどのように機能するかを確認してください。

テキストのみの入力を前提としたすべてのワークフローを再考してください。契約レビューは、貼り付けた条項ではなく、注釈付きPDFです。カスタマーサポートは、ログ、スクリーンショット、通話のトランスクリプトを意味します。アナリティクスは、CSV、ダッシュボード、チャート画像を統合し、すべてを一つのマルチモーダルコンテキストウィンドウに供給することを意味します。

先手を打つためには、以下を理解する必要があります： - コストとレイテンシーに最適なオープンモデルを選ぶ - ツールを呼び出し、ブラウズし、自律的に計画するエージェントを設計する - ガードレール、メモリー、フィードバックループを調整する

プロンプトエンジニアリングは、監視し、読み取り、決定し、行動するシステムを設計するというより大きな仕事の一部となります。

よくある質問

「AGI対応モデル」とは何ですか？

「AGI対応」モデルとは、特にロボティクスやエージェント的な環境において、既存のデータセットなしに自律的に新しいタスクを学習できるAIシステムを指す用語です。これは、すべての認知タスクにおいて人間レベルの知能を意味する真のAGIとは異なります。

GLM-4.6VはAIプロンプティングにどのような変化をもたらしますか？

GLM-4.6Vは、テキストを超えたプロンプトを実現します。そのネイティブなマルチモーダルツール呼び出しにより、ユーザーは画像、ドキュメント、スクリーンショットをコンテキストとして直接提供でき、AIは手動のテキスト記述なしで視覚情報を「見る」ことができ、アクションを実行します。

地域のLLM、つまりNVIDIAのNeotron 3のようなモデルが重要な理由は何でしょうか？

ローカルLLMは、プライバシー、速度、コスト管理において重要です。デバイス上で実行することで、機密データがクラウドに送信されるのを防ぎ、レイテンシーを低減し、頻繁に使用する際のAPIベースのトークンコストを排除します。

PoeticがARC-AGIベンチマークを打破した意義は何ですか？

Poeticの成功は、突破口が単に大きなモデルに依存するのではなく、よりスマートなアーキテクチャにあることを示しています。既存の大規模言語モデルの上に推論と自己監査の層を構築することで、半分以下のコストで優れた性能を達成し、エージェント的なスカフォルディングの力を証明しました。

𝕏 in ↑↗

初の「AGI」モデルが登場しました。