Первый модель 'AGI' здесь.

Стартап заявляет о создании первой в мире модели с возможностями AGI, но на самом деле главная история заключается в том, как новые модели зрения уже меняют все. Узнайте, почему ваши навыки в области ИИ вот-вот станут устаревшими.

Stork.AI
Hero image for: Первый модель 'AGI' здесь.
💡

TL;DR / Key Takeaways

Стартап заявляет о создании первой в мире модели с возможностями AGI, но на самом деле главная история заключается в том, как новые модели зрения уже меняют все. Узнайте, почему ваши навыки в области ИИ вот-вот станут устаревшими.

Шокирующее утверждение: AGI уже здесь?

Первый в мире модель, способная на AGI-AGI. Именно так Integral AI представила свою новую систему сегодня утром, заявив, что это не просто еще одна крупная языковая модель, а архитектура, которая может «автономно планировать, обучаться и действовать в различных модальностях» без тонкой настройки для конкретных задач. Компания утверждает, что модель обрабатывает текст, код, изображения и живые инструменты в одном цикле и явно позиционирует ее как AGI-AGI-capable, а не просто «продвинутую».

В центре объявления находится основатель Integral AI Даниэль Кван, бывший старший исследователь команд Google Brain и DeepMind, где он, по сообщениям, работал над крупномасштабным обучением с подкреплением и многомодальными трансформерами. Резюме Квана — публикации по методам градиента политики, ранние разработки агентов на основе трансформеров и участие в внутренних прототипах Gemini — придает Integral уровень технической надежности, который большинство стартапов в области ИИ не может имитировать.

Integral утверждает, что их система работает на основе 400-миллиардного параметрического фрейма с архитектурой Mixture-of-Experts, что аналогично подходу Nvidia’s Neotron 3 и другим разреженным моделям, но связана с "агентным контроллером", который может вызывать инструменты, просматривать интернет и управлять программными интерфейсами. Компания уже демонстрирует, как модель решает многошаговые аудиты таблиц, рефакторит большие кодовые базы и осваивает незнакомые пользовательские интерфейсы, используя только пиксели экрана и текстовые инструкции.

Рынки отреагировали мгновенно, но неоднородно. На X несколько известных исследователей сравнили язык AGI с предыдущими лишними ожиданиями, указывая на более осторожные формулировки OpenAI и Google относительно моделей класса GPT‑5 и Gemini. Первоначальные результаты benchmark, которые поделился Integral—MMLU, GSM8K и специальные наборы "умственной деятельности"—показали сильные, но не явно сверхчеловеческие результаты, что вызвало волну скепсиса со стороны академиков и независимых оценщиков.

Однако инвесторы и корпоративные покупатели не отвергли эту идею сразу. Агенты, которые могут надежно управлять настоящим программным обеспечением, именно то, что необходимо командам автоматизации из Fortune 500, и Integral утверждает, что пилотные клиенты уже запускают модель в финансовых, юридических и операционных рабочих процессах. Если демо-показ survivирует независимую репликацию, то «способный к AGI-AGI» перестанет быть просто прилагательным из презентации и начнет выглядеть как новая категория продукта.

Это оставляет в воздухе прямой вопрос для всей отрасли: использует ли Integral AI термин ИИ общего назначения (AGI) для привлечения внимания, или же бывший сотрудник Google просто тихо выпустил первую в мире систему, которая ведет себя не как чат-бот, а как младший коллега?

Декодирование 'AGI-способного': Мода против Горизонта

Иллюстрация: Декодирование 'AGI-Способный': Хайп против Границ
Иллюстрация: Декодирование 'AGI-Способный': Хайп против Границ

Integral AI основывает свое утверждение о "способности к AGI-AGI" на узкой, технической идеи: модели, которая может автономно обучаться на основе своего окружения, а не полагаться на обширные заранее подготовленные наборы данных. В их интерпретации система наблюдает за необработанными потоками изображений, интерфейсов, документов и данных с датчиков, затем обновляет свои внутренние политики на ходу, скорее напоминая агента обучения с подкреплением, чем статическую большую языковую модель. Компания утверждает, что как только вы можете непрерывно адаптироваться таким образом, у вас есть субстрат, на котором может возникнуть искусственный общий интеллект.

Это определение тихо обходит то, что большинство исследователей подразумевает под AGI. В основном AI-исследовании AGI означает общий интеллект на уровне человека: способность гибко понимать, планировать и действовать практически в любой области с прочностью, переносом и здравым смыслом, сопоставимыми с человеческими. По этому стандарту «AGI-AGI-способный» звучит скорее как «архитектурно интересно», чем как «машины теперь наши когнитивные ровесники».

Где Integral AI стратегически совпадает с отраслью, так это в стремлении к моделям, которые могут восприятием, рассуждать и действовать как единые агенты. Компания описывает единую систему, которая обрабатывает: - Текст, изображения и видео - Состояния графического интерфейса и ответы API - Возможно, данные с реальных датчиков или роботов

а затем выбирает действия: щелчки по интерфейсам, использование инструментов, написание кода или обновление плана. Это тот же агентный, мультимодальный стек, который компании, такие как OpenAI, Google и Zhipu (с GLM‑4.6V на 106B параметров и дополнительным 9B Flash вариантом), стремятся построить.

Разрыв становится очевидным, когда вы смотрите на доказательства. Публичные демонстрации Integral AI на данный момент напоминают прототипы ранних исследований: короткие видеоролики о навигации интерфейса, игрушечная робототехника и ограниченное решение головоломок, без точных цифр. Нет стандартизированных эталонов, нет прямых сравнений по таким наборам, как MMLU, MMBench или AgentBench, и нет исследований, показывающих, что автономное обучение превосходит традиционную доработку.

Этот разрыв между риторикой и реальными результатами имеет значение. Заявление о том, что это "Первый в мире AGI-AGI-способный" продукт, создает ожидания модели класса GPT-4, которая может надежно выполнять произвольные задачи, адаптироваться в режиме онлайн и объяснять свои рассуждения. Поставка нескольких не впечатляющих демонстраций вместо этого предполагает знакомую историю: основное исследование может быть настоящим, но маркетинг уже значительно опередил науку.

visionерный шаг Китая с GLM-4.6V

Китайская экосистема искусственного интеллекта только что представила конкретный контраргумент размытым заявлениям о «AGI-AGI-возможностях»: GLM-4.6V от Zhipu AI, мультимодальная модель, которая уже обладает серьезными визуальными и вычислительными способностями. В то время как Объявление AGI от Integral AI полагается на смелое обещание автономного обучения, GLM-4.6V ставит флаг на том, что проще проверить: бенчмарки, параметры и работающий код.

GLM-4.6V представляет собой модель с открытым исходным кодом для мультимодального взаимодействия текста и изображений, которая обрабатывает текст, изображения, скриншоты и полные страницы документов за один раз. Она не просто создает подписи к изображениям; она анализирует плотные PDF-файлы, загроможденные пользовательские интерфейсы, диаграммы и графики математических данных, сохраняя при этом дальний контекст.

Zhipu предлагает два варианта, ориентированных на разные условия развертывания. Полная версия GLM-4.6V включает примерно 106 миллиардов параметров для облачных нагрузок, в то время как GLM-4.6V-Flash сокращается до около 9 миллиардов параметров для сценариев с низкой задержкой, работающих на устройствах или границе сети.

Оба модели поддерживают контекстные окна в диапазоне 128K-токенов, что важно для реальных документов, охватывающих десятки или сотни страниц. Эта способность позволяет выполнять задачи, такие как полное обзоре контрактов, анализ технических документов или экскурсии по многим экранам приложения, без разбиения содержимого на фрагменты с потерей информации.

В бенчмарках Zhipu позиционирует GLM-4.6V как совершенное решение среди открытых визуальных языковых моделей на аналогичных масштабах параметров. Внутренние и сторонние тесты подчеркивают высокие оценки в следующих областях: - Понимание документов - Анализ скриншотов и графических интерфейсов - Интерпретация диаграмм и графиков - Ответы на визуальные вопросы и математическое рассуждение

Что отличает GLM-4.6V от многих западных конкурентов, так это его родственная совместная рассуждение по модальностям. Вы можете загрузить скриншот, отсканированную форму и текстовый запрос одновременно, и модель отслеживает макет, текст и визуальные подсказки как единую задачу рассуждения, а не просто накладывает OCR на LLM.

Этот дизайн делает GLM-4.6V надежным открытым конкурентом визуального стека Gemini от Google и уровня GPT-4.1/4.2V от OpenAI. Разработчики получают модель, которую могут самостоятельно размещать, настраивать и интегрировать в агенты для автоматизации интерфейсов, корпоративного поиска или рабочих процессов соблюдения нормативных требований, не передавая все закрытым API.

Почему ваши запросы скоро станут устаревшими

Промпты тихо превращаются в устаревший интерфейс. Модели, такие как GLM‑4.6V, не просто читают ваши слова; они видят ваш экран, анализируют ваши PDF-документы и отслеживают структуру более чем 100,000 токенов смешанного текста и изображений. Это изменяет то, что вы «говорите» ИИ, переходя от многословной прозы к чему-то более похожему на технические характеристики продукта.

Вместо того чтобы составлять длинный запрос в несколько абзацев, вы передаете модели скриншот вашей аналитической панели и пишете: «Автоматизируй это на основе ежемесячных трендов и отправляй мне аномалии в Slack». GLM‑4.6V может анализировать оси графиков, легенду, фильтры и даже элементы интерфейса, чтобы сделать выводы о базовой модели данных. Ваш текст становится целью, а скриншот — контекстом, над которым модель фактически размышляет.

Ключевым фактором является нативный мультимодальный вызов функций. Вместо того чтобы заставлять вас извлекать текст из изображения или вручную описывать макет, GLM‑4.6V передает необработанные изображения, диаграммы или страницы документов напрямую в инструменты и агенты. Один вызов может объединять: - Сканированный контракт на 20 страницах - Скриншот продукта - Краткое текстовое описание

Этот пакет проходит через инструментальную цепочку, которая может искать, переписывать, выполнять код или вызывать внешние API, основываясь на том, что модель «увидела».

Инженерия запросов, как искусство сложных заклинаний, начинает казаться устаревшей. Вам больше не нужно четко формулировать: «В правом верхнем углу карты с меткой ‘MRR’ определите месячные изменения…», когда модель может визуально найти виджет MRR и прочитать его числа. Сложность смещается от формулировки к определению границ: установлению ограничений, источников данных, разрешений и приемлемых способов неудачи.

Взаимодействие переходит от болтовни к установлению целей для автономных агентов. Вы указываете на доску Figma и говорите: "Преобразуй этот поток в работающий процесс внедрения и свяжи его с нашей песочницей Stripe." Агент использует визуальный стек GLM‑4.6V, чтобы понять компоновку, иерархию и текст, а затем обращается к инструментам кода, системам дизайна и пайплайнам развертывания, без необходимости обсуждать каждый шаг.

С развитием моделей в области совместного визуально-текстового рассуждения подсказки становятся всё больше похожи на задания. Вы предоставляете артефакты — скриншоты, фотографии с доски, панели управления — и краткую цель. Система обрабатывает перевод того, что вы ей показываете, в то, что должно быть выполнено.

Экономика ИИ только что перевернулась.

Иллюстрация: Экономика ИИ только что перевернулась
Иллюстрация: Экономика ИИ только что перевернулась

Современный высококачественный мультимодальный ИИ наказывает любого, кто работает с видео. Пограничные API от OpenAI, Anthropic и Google взимают плату за токен, и видеопотоки взрывают количество токенов: каждый кадр или выборочный ключевой кадр становится текстом, каждое заглавие и фрагмент транскрипции добавляются. Пропустите несколько часов видео в 1080p через GPT‑4o или Claude 3.5 Sonnet, и вы увидите, как ваш счет стремительно возрастает до сотен долларов.

GLM‑4.6V подходит к проблеме с двух сторон: открытые веса и агрессивное ценообразование. Zhipu AI предлагает облачную модель с 106 млрд параметров по ценам, значительно ниже западных конкурентов, при этом некоторые китайские поставщики указывают цены ниже $0,30 за миллион входных токенов и $0,90 за миллион выходных. Когда вы обрабатываете десятки миллионов токенов в день на видеопотоках наблюдения, записях пользовательского интерфейса или скриншотах поддержки клиентов, эта разница становится статьей бюджета.

Затем есть GLM‑4.6V‑Flash, вариант с 9B параметрами, настроенный для локального и крайнего развертывания. Команды могут запускать его на нескольких мощных графических процессорах или хорошо оснащенной рабочей станции, один раз заплатить за оборудование и обрабатывать по сути неограниченное количество скриншотов, PDF-файлов и диаграмм. Для непрерывных нагрузок — видеонаблюдение, промышленный мониторинг, аналитику игрового процесса — локальная инференция меняет экономику с почасовой оплаты на фиксированную инфраструктуру.

Это ценовое давление возникает на рынке, где OpenAI и Anthropic по-прежнему ведут себя как поставщики премиум SaaS. Их многофункциональные тарифы объединяют: - Более высокие цены за токены для изображений и видеовходов - Строгие ограничения по тарифам - Непрозрачные политики сверхнормативного использования

GLM‑4.6V и аналогичные модели от Qwen, LLaVA и NVIDIA NeMo предлагают другую стратегию: владеть стеком, арендовать только при необходимости. Это ставит под угрозу существующих игроков на больших, предсказуемых нагрузках и сводит проприетарные API к нишевым ролям, «только если нам нужна передовая производительность».

Дешевые и мощные модели, объединяющие визуальные и языковые технологии, также изменяют круг людей, способных создавать сложные AI-системы. Стартап в Джакарте может дообучить GLM‑4.6V‑Flash на местных счетах и транспортных документах без бюджета на API в семь цифр. Двухчленная независимая студия может выпустить игрового тренера, который в реальном времени считывает ваш интерфейс и миникарту, полностью работая на ПК игрока.

По мере того как мультимодальные модели становятся доступными и достаточно качественными, ограничение смещается с денег на воображение. Следующая волна продуктов ИИ — автономные тестировщики интерфейсов, постоянно работающие инспекторы фабрик, сопроводители, приспособленные к документам — больше не принадлежит исключительно компаниям, которые могут позволить себе масштабные закупки токенов на переднем крае технологий.

Тихая революция Nvidia: мощность на вашем ПК

Последний шаг Nvidia к локальной мощности ИИ — Neotron 3, языковая модель Mixture-of-Experts с 30 миллиардами параметров и открытыми весами. Созданная для скорости и эффективности, она нацелена на преодоление разрыва между крошечными моделями на устройстве и облачными передовыми системами. Nvidia утверждает, что Neotron 3 превосходит другие модели примерно по 30 миллиардов параметров, такие как GPT-4.1-OSS и Qwen 3 30B, по стандартным бенчмаркам, оставаясь при этом достаточно компактной для практического развертывания.

Смешанная модель экспертов, или MoE, переворачивает привычную экономику плотных моделей. Вместо активации всех параметров для каждого токена Neotron 3 использует 128 экспертов, из которых активны только 6 для каждого токена, поэтому большая часть 31,6 миллиарда параметров остается неактивной на любом данном этапе. Вы получаете возможности гораздо более крупной модели с вычислительной нагрузкой, приближенной к модели среднего размера.

Эта архитектура важна, если вы хотите, чтобы мощный ИИ работал непосредственно на вашем оборудовании. MoE позволяет Neotron 3 достигать высокой производительности на современных графических процессорах, при этом сохраняя достаточно низкую задержку для интерактивного использования: помощники по коду, локальные копилоты или частный чат по документам, который никогда не покидает ваше устройство. Вы жертвуете немного абсолютной крайний производительностью ради предсказуемой и контролируемой скорости.

Конфиденциальность и суверенитет находятся в центре этого изменения. Модель, подобная Neotron 3, может работать на рабочей станции, на сервере на грани сети или на небольшом NAS для бизнеса, обрабатывая: - Конфиденциальные контракты и электронные письма - Исходный код и логи сборки - Внутреннюю аналитику и панели мониторинга

Никакие запросы или эмбеддинги не должны передаваться через облако поставщика. Это резко контрастирует с облачно-ориентированными заявлениями о «Первом в мире AGI-AGI-совместимом» решении от таких игроков, как Integral AI, которые предлагают огромные централизованные системы вместо личной инфраструктуры; см. Integral AI представляет первую в мире модель, совместимую с AGI-AGI - Business Wire для этой концепции.

Neotron 3 сигнализирует о том, куда, по мнению Nvidia, движется рынок: не только гипермасштабные дата-центры, но инструменты для эры AGI для ПК-класса, где отдельные пользователи и небольшие команды запускают серьезные модели локально, на своих условиях.

Сюрпризный поворот GPT-5.2 к 'Экономической ценности'

GPT‑5.2 приземлился с глухим звуком для многих обычных пользователей. Социальные ленты заполнились сравнительными обзорами, называющими его "средним", "регрессом" или "не лучше, чем 5.1" для творческого письма, программирования или непринужденного общения. Однако внутри компаний ранние пользователи тихо сообщали о чем-то другом: о модели, которая внезапно оказалась удивительно компетентной в умственной работе.

Собственные графики OpenAI объясняют разрыв. Вместо того чтобы стремиться к незначительным улучшениям в академических показателях, GPT‑5.2 демонстрирует резкий рост по GDP‑V—сокращение от “Валового внутреннего продукта-Ценный”, синтетического показателя, который измеряет, насколько хорошо модель выполняет экономически полезные задачи. В этом аспекте OpenAI утверждает, что GPT‑5.2 примерно удваивает результат 5.1, что является одним из самых крупных скачков за одно поколение, которые они продемонстрировали.

GDP‑V проверяет то, что действительно появляется в бухгалтерском балансе: составление запросов предложений, структурирование отчетов, упорядочивание неупорядоченных таблиц и превращение размытых пунктов в готовые для презентации документы. GPT‑5.2 отражает эту предвзятость. Он настроен на создание PowerPoint презентаций из исходных брифов, очистку и согласование данных в Excel, а также на решение многослойных бизнес-процессов с меньшим количеством ошибок и меньшей необходимостью поддержки.

Креативное письмо, нестандартный мозговой штурм и открытые беседы кажутся менее живыми, потому что они не были в центре внимания. Пользователи, которые воспринимают GPT‑5.2 как более мощную версию GPT‑4 для написания художественной литературы, создания фановских идей или философских дискуссий, сталкиваются с его новой личностью: более консервативной, более буквальной, больше «консультантом», чем «соруководителем». Для финансового директора это является плюсом. Для романоведа это ощущается как регресс.

Этот поворот показывает, куда переместился рынок. Модели нового поколения сейчас стоят десятки миллионов долларов на обучение и эксплуатацию; они не могут оправдать такие затраты на бесплатные чат-боты и сказки на ночь. OpenAI явно оптимизирует свои усилия для секторов, которые влияют на ВВП: финансы, консалтинг, юриспруденция, операции, корпоративное программное обеспечение и внутреннюю автоматизацию.

Вы можете увидеть формирующийся стратегический замок. Модель, которая является лучшей в мире по:

  • 1Презентации PowerPoint и пакет документов для заседаний совета
  • 2Моделирование в Excel и анализ сценариев
  • 3Политика, контракты и процессы соблюдения требований

слоты интегрируются прямо в Microsoft 365, CRM-системы клиентов и внутренние инструменты. GPT-5.2 — это меньше обновление общего чат-бота, а скорее знак того, что гонка за «первым в мире AGI-AGI-совместимым» искусственным интеллектом теперь проходит через квартальные отчеты.

Восхождение ИИ-суперагентов

Иллюстрация: Подъем супер-агентов ИИ
Иллюстрация: Подъем супер-агентов ИИ

Власть смещается от простых моделей к суперагентам, которые их окружают. Manis 1.6 и Poetic показывают, как тонкие слои оркестрации, памяти и самокритики могут превратить обычные LLM в системы, которые подозрительно напоминают автономных сотрудников, а не чат-ботов, ожидающих команд.

Manis 1.6 углубляет эту концепцию, объединяя несколько инструментов и суб-агентов вокруг базовой модели. Он разбивает запрос на атомарные задачи, направляет каждую к специализированным рутинным процессам и затем объединяет результаты, так что "исследуйте этот рынок и разработайте план запуска" превращается в часы автоматизированного поиска, кластеризации и написания с минимальным контролем со стороны человека.

Поэтический подход выходит ещё дальше в вопросах рассуждения. Построенный на основе существующих LLM, он разрушил стандарт ARC-AGI не благодаря обучению новой передовой модели, а добавлению умной основы для рассуждений и самоаудиторной петли, которая заставляет систему тестировать и уточнять свои собственные гипотезы перед тем, как дать ответ.

ARC-AGI известен своей враждебностью к сопоставлению шаблонов; он требует абстрактного мышления для решения небольших визуальных головоломок. Поэтический метод оборачивает базовую модель в процесс, который: - Перечисляет кандидатные правила - Симулирует каждое правило на примерах - Отбрасывает несогласованные гипотезы - Итерация продолжается до тех пор, пока не появится подходящий набор правил

Эта архитектура значительно улучшила производительность ARC-AGI компании Poetic по сравнению сtypical LLM-стандартами, намекая на то, что AGI-AGI-способное поведение может исходить из более качественных “мозгов вокруг мозга”, а не только из большего количества параметров. Выборы в дизайне продукта — то, как вы разбиваете задачи, проверяете результаты и позволяете агентам использовать инструменты — начинают быть столь же важными, как и основные веса.

Вот почему фраза «АГИ, вероятно, появится из дизайна продукта» звучит скорее как дорожная карта, чем как слоган. Агентное каркасное обеспечение превращает статические модели в системы, которые планируют, запоминают и самостоятельно корректируют, от агентов, поддерживающих исследования с помощью дополнительных данных, до инструментов рефакторинга кода, которые самостоятельно проводят тесты, определяют причины сбоев и устраняют регрессии.

Пользователи уже воспринимают это как автономную работу, а не общение. Агенты в поэтическом стиле обрабатывают эталонные наборы и системы оценки; платформы, подобные Manis, управляют многочасовыми рабочими процессами, охватывающими браузеры, командные интерфейсы и облачные API, а затем предоставляют вам готовый отчет, панель управления или различия в кодовой базе.

Привязанные к моделям, таким как GLM-4.6V и Neotron 3, эти супер-агенты могут видеть, читать и действовать на основе скриншотов, PDF-документов и локальных файлов без постоянного запроса. Интерфейс чат-бота становится заявкой на выполнение работы: вы описываете желаемый результат, агент анализирует, выполняет, проверяет и беспокоит вас только тогда, когда для принятия решения требуется человеческое участие.

Отделение сигнала от шума в золотой лихорадке ИИ

Маркетинговые отделы кричат о моделях, способных к AGI-AGI; инженеры тихо поставляют системы, которые действительно меняют рабочие процессы. GLM-4.6V, Neotron 3 и агентные платформы, такие как Poetic, все указывают в одном направлении: практичный, автоматизированный, мультимодальный ИИ, который ведет себя меньше как чат-бот и больше как инфраструктура.

Мультимодальные возможности теперь означают больше, чем просто "умение видеть изображения". GLM-4.6V обрабатывает скриншоты, PDF-документы и диаграммы наряду с текстом, выполняет долгосрочное рассуждение на более чем 100K токенов и управляет агентами, которые проходят через пользовательские интерфейсы или разбирают целые контракты. Формулирование запросов сокращается с параграфов инструкций до одной общей цели, которую система разбивает самостоятельно.

В то же время эффективные локальные модели нарушают монополию облачного ИИ. Neotron 3 от NVIDIA помещает модель Mixture-of-Experts с 30 миллиардами параметров в аппаратные бюджеты, которые ранее ограничивались 7 миллиардами, при этом задействуя 128 экспертов и всего 6 активных на токен. GLM-4.6V-Flash переносит рассуждения в области видения и языка в пакете с 9 миллиардами параметров, который может размещаться на рабочей станции или на устройствах на краю сети, а не на фермах GPU гиперклассера.

Агентные стеки работают на этом субстрате. Системы, такие как Manis 1.6 или Poetic, объединяют несколько моделей, инструментов и конвейеров поиска в постоянные «суперагенты ИИ», которые запоминают контекст, планируют задачи и работают в разных приложениях. Увеличение ценности раскрывается не столько из одного скачка IQ в базовой модели, сколько из соединения этих моделей с инструментами, памятью и автономией.

Сравните это с яркими заголовками о «первом в мире AGI». Заявление Integral AI о первом в мире AGI-с способностью AGI и подобные предложения, такие как стартап, описанный здесь: Стартап бывшего сотрудника Google утверждает, что создал первую в мире модель AGI, остаются в значительной степени неподтвержденными нарративами. Победы GLM-4.6V в бенчмарках, показатели эффективности Neotron 3 и ориентация GPT-5.2 на значение ВВП - это измеримые показатели.

Отрасль находится далеко от общего интеллекта, способного выполнять любые задачи, как человек. Она близка к чему-то более коммерчески взрывному: комплексным, автоматизированным, мультимодальным системам, которые тихо превращают «используйте ИИ» в «ИИ уже сделал это».

Ваш следующий шаг в новой реальности ИИ

Начните с практического знакомства с новым мультимодальным стеком с открытым исходным кодом. Запустите GLM‑4.6V‑Flash (9B) локально с помощью Ollama или vLLM и объедините его с открытым визуальным кодировщиком, таким как SigLIP или CLIP, чтобы создать прототипы агентов для скриншотов, считывателей PDF и GUI-ботов, не расходуя токены GPT‑5.2 по $10+ за долгие видео или документы.

Разработчики должны пересмотреть ввод данных, сосредоточив внимание на файлах, а не на чатах. Создайте потоки, в которых пользователи могут перетаскивать: - 200-страничные PDF-файлы - Экспорт из Figma - Скриншоты из Excel - Короткие видеоклипы

Позвольте модели обрабатывать макеты, таблицы и диаграммы напрямую, вместо того чтобы заставлять пользователей копировать и вставлять текст.

Технологическим лидерам нужно перестать думать «одна модель, один запрос» и начать мыслить в категориях оркестрации моделей. Для производственного рабочего процесса соедините небольшую локальную модель (Neotron 3 с 30 миллиардами параметров) для дешёвого маршрутизирования и классификации, более мощную облачную модель для сложного вывода, а также специализированные инструменты для поиска, RAG и выполнения кода.

Если вы управляете стартапом, ваша защита больше не заключается в том, что «мы используем GPT-5.2». Ваша защита — это дизайн агентов: как ваша система разбивает проблемы на этапы, выбирает инструменты, вызывает модели и восстанавливается после неудач. Оснастите каждого агента журналированием, трассировкой и стоимостью на шаг, чтобы вы могли видеть, почему рабочий процесс стоит $0.03 или $3.

enthusiasts должны целенаправленно практиковаться за пределами проектирования запросов. Клонируйте репозиторий, такой как AutoGen, CrewAI или открытого агента в стиле Poetic, а затем замените его на GLM‑4.6V для визуальных задач и локальный экземпляр Neotron 3 для текста, чтобы увидеть, как на самом деле происходит координация многопользовательских агентов под нагрузкой.

Переосмыслите каждый рабочий процесс, который по-прежнему предполагает ввод только текстом. Проверка контрактов означает аннотированные PDF-документы, а не вставленные положения. Поддержка клиентов означает журналы, скриншоты и расшифровки звонков. Аналитика подразумевает CSV-файлы, панели мониторинга и изображения диаграмм, все это должно быть объединено в одно мультимодальное окно контекста.

Опережать конкурентов сейчас значит понимать, как: - Выбрать подходящую открытую модель для оптимизации стоимости и задержки - Разрабатывать агентов, которые автономно используют инструменты, осуществляют поиск и планируют - Настраивать охранные механизмы, память и циклы обратной связи

Инженерия подсказок становится лишь небольшой частью более широкой работы: проектирования систем, которые могут наблюдать, читать, принимать решения и действовать.

Часто задаваемые вопросы

Что такое модель с возможностями AGI?

Модель, способная к ИИ общего назначения (AGI), — это термин, используемый для описания ИИ-систем, которые могут обучаться новым задачам автономно без заранее подготовленных наборов данных, особенно в области робототехники или агентов. Это отличается от настоящего AGI, который подразумевает уровень интеллекта, сопоставимый с человеческим, во всех когнитивных задачах.

Как GLM-4.6V меняет AI-подсказки?

GLM-4.6V меняет подход к подсказкам, выходя за рамки текста. Его родной инструмент многомодального вызова позволяет пользователям предоставлять изображения, документы и скриншоты непосредственно в качестве контекста, что позволяет ИИ «видеть» и действовать на основе визуальной информации без ручных текстовых описаний.

Почему локальные LLM, такие как Neotron 3 от NVIDIA, важны?

Локальные языковые модели (LLM) важны для обеспечения конфиденциальности, скорости и контроля затрат. Работая на устройствах, они предотвращают отправку конфиденциальных данных в облако, уменьшают задержки и устраняют расходы на токены, связанные с использованием API, при частом использовании.

Каково значение того, что Poetic побил benchmark ARC-AGI?

Успех Poetic показывает, что прорывы связаны не только с большими моделями, но и с более умной архитектурой. Создав слой рассуждений и самоаудита поверх существующих LLM, она достигла превосходных результатов по цене менее половины, доказывая силу агентного каркаса.

Frequently Asked Questions

Шокирующее утверждение: AGI уже здесь?
Первый в мире модель, способная на AGI-AGI. Именно так Integral AI представила свою новую систему сегодня утром, заявив, что это не просто еще одна крупная языковая модель, а архитектура, которая может «автономно планировать, обучаться и действовать в различных модальностях» без тонкой настройки для конкретных задач. Компания утверждает, что модель обрабатывает текст, код, изображения и живые инструменты в одном цикле и явно позиционирует ее как AGI-AGI-capable, а не просто «продвинутую».
Что такое модель с возможностями AGI?
Модель, способная к ИИ общего назначения , — это термин, используемый для описания ИИ-систем, которые могут обучаться новым задачам автономно без заранее подготовленных наборов данных, особенно в области робототехники или агентов. Это отличается от настоящего AGI, который подразумевает уровень интеллекта, сопоставимый с человеческим, во всех когнитивных задачах.
Как GLM-4.6V меняет AI-подсказки?
GLM-4.6V меняет подход к подсказкам, выходя за рамки текста. Его родной инструмент многомодального вызова позволяет пользователям предоставлять изображения, документы и скриншоты непосредственно в качестве контекста, что позволяет ИИ «видеть» и действовать на основе визуальной информации без ручных текстовых описаний.
Почему локальные LLM, такие как Neotron 3 от NVIDIA, важны?
Локальные языковые модели важны для обеспечения конфиденциальности, скорости и контроля затрат. Работая на устройствах, они предотвращают отправку конфиденциальных данных в облако, уменьшают задержки и устраняют расходы на токены, связанные с использованием API, при частом использовании.
Каково значение того, что Poetic побил benchmark ARC-AGI?
Успех Poetic показывает, что прорывы связаны не только с большими моделями, но и с более умной архитектурой. Создав слой рассуждений и самоаудита поверх существующих LLM, она достигла превосходных результатов по цене менее половины, доказывая силу агентного каркаса.
🚀Discover More

Stay Ahead of the AI Curve

Discover the best AI tools, agents, and MCP servers curated by Stork.AI. Find the right solutions to supercharge your workflow.

Back to all posts