Google Titans AI: Новая эра долговременной памяти в языковых моделях

💡

TL;DR / Key Takeaways

Google только что представил ИИ с рабочей долговременной памятью, который превосходит все существующие нормативы. Эта новая архитектура, кодовое название Титан, наконец решает крупнейшую слабость ИИ и кардинально меняет правила игры.

Почему OpenAI объявила «красный код»

Код Красный поступил в почтовый ящик OpenAI в виде внутренней записки от Сэма Олтмана, как сообщили осведомленные источники, в которой предупреждалось, что компания не может рассматривать последний шаг Google в области ИИ как просто еще один продуктовый цикл. Сообщение: рост Gemini и исследовательская активность Google перешли от фона к экзистенциальной конкурентной угрозе.

Внутри OpenAI данная записка появилась на фоне неудобных цифр. Новые данные от третьих лиц показывают, что количество активных пользователей Gemini растет быстрее, чем у ChatGPT, при этом Google использует Android, Поиск и Chrome для увеличения использования на миллиардах устройств.

Google, в свою очередь, перестал игнорировать угрозы. Всего за несколько недель компания представила Titans и MIRAS для долгосрочной памяти, подготовила Nano Banana 2 Flash как более дешевую модель изображений и тихо протестировала заголовки новостей, написанные ИИ, на телефонах пользователей, при этом глубже интегрируя Gemini в Workspace и Android.

Ни одно из этих действий не является отдельным. Вместе они формируют скоординированную атаку: научные прорывы, устраняющие основные слабости трансформеров, продуктовые модели, которые обходят конкурентов по стоимости, и стратегии распределения, использующие контроль Google над мобильными устройствами и интернетом.

Для OpenAI кривая роста Gemini может стать самым громким сигналом тревоги. ChatGPT по-прежнему доминирует в сознании пользователей, но способность Google автоматически привлекать пользователей за счет встроенных интеграций означает, что даже немного более слабая модель может победить, если она будет на виду у большего числа людей чаще.

Эта угроза возникает как раз тогда, когда Google Research начинает разрушать техническое преимущество OpenAI. Новая система Titans под названием Langzeitgedächtnisächtnis заявляет о контекстных окнах более 2 миллионов токенов и победах в бенчмарках над GPT‑4 и Llama‑3.1‑70B в тестах на длинные последовательности, намекая на то, что Google теперь может обрабатывать обширные истории без превышения бюджетов вычислений.

Согласно сообщениям, мемо Альтмана призывает команды ускорить работу над следующим моделем компании, кодовое имя которого - Garlic, и переосмыслить, насколько быстро OpenAI может запустить собственные агенты и системы памяти. Волнение заключается не только в потере пользователей, но и в том, что компания может отстать от конкурента, который внезапно контролирует как более умную архитектуру, так и большую аудиторию.

Под поверхностью пользовательских графиков и запусков продуктов назревает более глубокий сдвиг. Google не просто растет быстрее; он делает ставку на фундаментальное изменение в том, как ИИ запоминает, учится и существует внутри повседневных устройств — и именно это на самом деле вызвало «Красный код» угрозы.

Амнезия, терзающая каждую ИИ

Иллюстрация: Амнезия, терзающая каждое ИИ

Современные ИИ много говорят о «понимании», но на самом деле большинство крупных языковых моделей находятся в неком состоянии фуги, которое длится всего пять минут. Модель, такая как GPT-4 или Gemini, «помнит» лишь то, что помещается в фиксированное окно контекста — скользящий буфер от нескольких тысяч до, возможно, миллиона токенов, который ведет себя как краткосрочная память в цикле.

Представьте, что вы разговариваете с кем-то, кто забывает всё, что старше последней страницы истории чата. Вы можете вставить 500-страничный контракт или годы электронных писем, но как только окно переполняется, старые детали исчезают, уступая место тому, что пришло последним. Какой бы умной ни была модель, всё, что находится за пределами этого контекста, может считаться несущим нуль.

Виновата стандартная архитектура Трансформера, которая используется почти во всех современных языковых моделях. Самовнимание сравнивает каждый токен с каждым другим токеном, поэтому вычислительные затраты и объем памяти увеличиваются примерно в квадратичной зависимости: удвойте длину последовательности, и вы увеличите затраты в 4 раза; увеличьте в 10 раз, и вы столкнетесь с ~100-кратным увеличением работы.

После нескольких сотен тысяч токенов даже сильно оптимизированные трансформеры начинают давать сбой. Пики задержки, колоссальное потребление памяти и ухудшение качества, поскольку модели обращаются к приемам, таким как разреженное внимание или агрессивная обрезка, которые незаметно отбрасывают части вашего ввода. Именно поэтому заголовки о "контексте в 2 миллиона токенов" обычно скрывают страшные затраты на оборудование и хрупкое поведение на грани.

Старые идеи, такие как РСН и современные модели состояния (МС), включая архитектуры в стиле Mamba, изменяют соотношение сторон. Они обрабатывают потоки за линейное время, сводя историю к компактному скрытому состоянию, что позволяет им легко проходить миллионы токенов, не перегревая графические процессоры.

Уловка: сжатие целой книги, кодовой базы или истории клиента в небольшой вектор состояния размывает детали. Тонкие зависимости, редкие крайние случаи или одна критическая запись в журнале усредняются, так что модель реагирует быстро, но с неким видом статистической амнезии. Вы получаете масштаб, но теряете точность.

Это структурное забвение стало главной преградой на пути к истинной персонализации и глубокому контексту. Пока модели не могут надежно переносить богатую долгосрочную память между сессиями, устройствами и задачами, «AI-ассистенты» остаются оконцами для чата с мозгами рыбок-золотушек, а не системами, которые развиваются вместе с вами на протяжении месяцев или лет.

Познакомьтесь с Титанами: ИИ, который никогда не забывает.

Google называет свою новую архитектуру Titans, и она выглядит как прямой ответ на проблему “пятиминутной памяти”, преследующую современный ИИ. Вместо того чтобы растягивать стандартный Transformer до предела, Titans соединяет две разные системы памяти и заставляет их сотрудничать. Результат: модели, которые обрабатывают контекстные окна объемом более 2 миллионов токенов, не согнувшись под собственными вычислениями.

В основе лежит знакомая краткосрочная память: самообращение с окном на недавний фрагмент текста. Это окно остается четким и точным, позволяя модели отслеживать местоимения, переменные кода и тонкие нюансы формулировок в последних нескольких тысячах токенов. Никакой сжатия с потерями, никаких размытых резюме.

Вдобавок к этому, Titans добавляет отдельный, постоянный модуль долговременной памяти. Эта долговременная память не просто сохраняет необработанный текст; она хранит сжатые представления того, что на самом деле имело значение в предыдущих фрагментах. Google описывает три варианта этой системы—Память как Контекст, Память как Ворота и Память как Слои—каждый из которых включает сохраненные знания обратно в модель разным способом.

Революционный поворот: Titans обновляет эту долговременную память во время вывода. Пока вы общаетесь, пишете код или загружаете документы, модуль памяти на лету узнает, какие фрагменты являются неожиданными, полезными или редкими, и записывает их в свое внутреннее хранилище. Никакой оффлайн-дообучения, никаких перетренировок, только непрерывная корректировка по мере развития сессии.

Удивление способствует принятию правильных решений. Когда модель сталкивается с чем-то, что сильно отклоняется от её ожиданий — крайний случай API, нишевая регуляция, странные предпочтения пользователя — она отмечает это как высокоценное и сохраняет в долгосрочной памяти. Менее удивительный, повторяющийся контент получает более низкий приоритет и в конечном итоге исчезает из хранилища благодаря умному забыванию, а не грубой усечению.

Эталоны намекают на то, насколько значительным может быть этот сдвиг. Модель Titans с всего 760 миллионами параметров, как сообщается, достигает более 95% точности на тесте Needle‑in‑a‑Haystack при 16,000 токенах и доминирует на эталоне bAbI‑Long, превосходя GPT‑4, RecurrentGemma 9B, Llama 3.1 70B и даже Llama 3 в паре с инструментами поиска. Длинные последовательности перестают быть патологическим крайним случаем и начинают выглядеть как стандартная рабочая нагрузка.

Это превращает ИИ из статической, заранее обученной энциклопедии в динамичного партнёра, который помнит о том, что вы делали на прошлой неделе. Titans могут, в принципе, накапливать стабильную рабочую историю с командой, кодовой базой или исследовательским проектом и улучшать свое поведение между сессиями. В собственном отчёте Google, Titans + MIRAS: Помощь ИИ в создании долгосрочной памяти, это рассматривается как шаг к моделям, которые учатся больше как люди — постепенно, контекстуально и без перезагрузки каждый раз при открытии нового чата.

Гений в 'Сюрпризе'

Сюрприз находится в центре новой системы памяти Titans. Вместо того чтобы накапливать каждый токен в контексте более 2 миллионов, модель присваивает каждому фрагменту текста оценку неожиданности, измеряющей, насколько реальность отклоняется от предсказаний её внутренней языковой модели. Высоко-сюрпризные события записываются в отдельное Langzeitgedächtnisächtnis Titans, в то время как предсказуемый стандартный текст проходит мимо и исчезает.

Это простое правило превращает память из пассивной записи в активного редактора. Обычное «Спасибо, поговорим завтра» в конце 500 электронных писем никогда не попадет в список; одноразовый API-ключ, странный отчет о редком бага или внезапное изменение политики почти всегда окажутся в нем. Titans эффективно сжимает дни взаимодействия в сжатый набор моментов «ты пожалеешь, если забудешь это».

Под капотом сюрприз работает как бюджет. Каждый слот памяти имеет рейтинг полезности, основанный как на его первоначальном сюрпризе, так и на том, как часто Титаны успешно читают его позже. Когда бюджет заполняется, модель сначала снижает приоритет записи с низкой ценностью, выводя их из активной памяти-контекста и переводя в более дешевые представления или полностью удаляя их.

Google описывает это как интеллектуальное забывание, а не удаление. Вместо резкой отсечки, когда вы достигаете 128K или 1M токенов, актуальность постепенно уменьшается: редко используемая спецификация проекта медленно теряет четкость, в то время как активно ссылающийся проектный документ остается четким. Модуль памяти обновляется онлайн во время вывода, поэтому это затухание происходит непрерывно, пока работает Titans.

Это поведение выглядит удивительно человеческим. Когнитивная психология показывает, что люди намного сильнее запоминают новые, эмоционально насыщенные или неожиданные события, чем повседневные рутины; ваш первый день на новой работе запоминается сильнее, чем 200 обычных вторников. Titans внедряет аналогичную предвзятость в кремний: новизна получает более сильный сигнал записи, а повторения обрабатываются как фоновый шум.

Человеческая память также забывает преднамеренно, чтобы оставаться эффективной, и Титаны отражают эту компромиссу. Позволяя старым, низкосюрпризным следам исчезать вместо того, чтобы цепляться за все подряд, система избегает ловушки "пятиминутного гения, пожизненного амнезика" классических трансформеров. То, что остается, – это долговечная narrativa, которая подчеркивает ключевые моменты, а не временные метки.

Разрушая конкуренцию: Титаны против мира

Google не просто громко заявлял о Титанах; он предоставил подтверждающие данные. В тестах с длинными последовательностями, которые обычно сводят большие модели к ничтожеству, вариант Titans с 760 миллионами параметров незаметно показал результаты, которые ставят в неловкое положение системы, в более чем 50 раз превышающие его размер.

На классической оценке иглы в стоге сена Titans должны были найти единственный замаскированный факт, скрытый в обширных документах. При длине контекста в 16 000 токенов он достиг более 95% точности, в то время как многие передовые модели начинают терять ответы или путать факты.

Понимание длинных контекстов обычно показывает, что модели лишь "вроде бы" запоминают предыдущие отрывки. На bAbI-Long, который заставляет системы связывать факты, рассеянные по огромным синтетическим нарративам, Titans не просто обошел соперников; он доминировал в таблице лидеров.

Доклад Google и последующие анализы утверждают, что Titans превзошли жесткий набор для сравнения по этим задачам дальнего действия: - GPT-4 - Llama 3.1 70B - RecurrentGemma 9B - Llama 3 в сочетании с инструментами для поиска и извлечения данных

Этот последний результат имеет наибольшее значение. Системы с дополненной памятью объединяют внешнюю память и векторные базы данных с такими моделями, как Llama, чтобы компенсировать забывчивость, однако встроенная Langzeitgedächtnisächtnis в Titans все же одержала победу. Вместо того чтобы juggling embeddings и внешними хранилищами, Titans сохраняет внутреннюю, обучаемую память, которая обновляется на лету.

Количество параметров рассказывает настоящую историю. В то время как GPT-4 и Llama 3.1 70B имеют десятки или сотни миллиардов параметров, звезда долгого контекста Titans располагает всего 760 миллионами. Вы получаете производительность, которая выглядит как у фронтовой модели при вводе из нескольких сотен страниц, по стоимости, ближней к моделям среднего уровня с открытым исходным кодом.

Эта эффективность открывает варианты развертывания, которые недоступны гигантам. Модель с менее чем миллиардом параметров, которая обрабатывает более 2 миллионов токенов и при этом успешно решает задачу "Игла в стоге сена", может работать дешевле в облаке, распределяться по флотам GPU или даже постепенно двигаться к сценариям на устройствах.

Архитектурно, результаты Titans показывают, что более «умная» память превосходит грубую мощность при рассуждении на длинных контекстах. Если модель объемом 760 млн параметров может обойти GPT-4 по памяти в задачах с миллионом токенов, то следующая гонка вооружений может вовсе не касаться размера, а будет сосредоточена на том, кто построит лучший «мозг».

За пределами памяти: MIRAS и непрерывный学习

MIRAS приходит не как еще одна модель, а как объединяющая теория о том, как последовательные модели должны помнить, забывать и адаптироваться. Google Research представляет это как дорожную карту, которая помещает Transformers, Mamba, RWKV, DeltaNet и Titans на одну карту: разные ответы на одни и те же четыре вопроса о формах памяти, правилах хранения, скорости перезаписи и динамике обновления.

Вместо того чтобы абстрактно обсуждать "долгий контекст", MIRAS заставляет архитекторов уточнять, какой именно вид долгосрочной памяти им нужен и насколько агрессивно она должна обновляться. Эта формулировка непосредственно нацелена на катастрофическое забывание, давно существующую проблему, при которой модель, дополнительно обученная новым навыкам, незаметно стирает старые, поскольку её параметры служат как мозгом, так и черновиком.

Постоянное обучение занимает центральное место в этой дорожной карте. Вместо того чтобы проводить обучение один раз на статичном массиве веб-текста и считать это завершенным, MIRAS стремится к системам, которые обновляют свою память в режиме онлайн, во время использования, не разрушая ранее приобретенные способности.

Илья Суцкевер описал свою северную звезду как модели, которые обучаются как «талантливый подросток»: постоянно поглощая, изменяя и интегрируя новый опыт. MIRAS реализует эту концепцию, рассматривая использование как непрерывный тренировочный поток, а не как фазу только для вывода.

Titans становится первым большим публичным шагом на пути MIRAS. Его модуль памяти, основанный на неожиданностях, описанный в статье Titans: Learning to Memorize at Test Time, уже ведет себя как прототип постоянного обучающегося, избирательно записывая неожиданные события в специальное хранилище вместо того, чтобы встраивать их в базовые веса.

Эталонные показатели указывают, что это изменение открывает новые возможности. Вариант Titans с 760 миллионами параметров показывает достойные результаты по сравнению с GPT-4 и Llama-3.1-70B в задачах с длинными последовательностями, одновременно обновляя свою память в реальном времени на многомиллионных сеансах токенов.

Философски, MIRAS переворачивает представления лабораторий о масштабах. Вместо того чтобы просто накапливать больше параметров и данных, Google ставит на то, что более умная, структурированная память — и модели, которые никогда по-настоящему не прекращают обучение — будут важнее очередных 10 триллионов токенов.

Ваш новый сотрудник — агент по имени Люкс.

Вашим следующим «AI коллегой» может стать не чат-бот в боковой панели, а курсор, тихо движущийся по вашему собственному рабочему столу. На это ставит Open AGI Foundation с Lux, новой моделью, которая рассматривает компьютер как интерфейс. Вместо того чтобы взаимодействовать с ботом и надеяться, что существует API, вы просто указываете Lux на экран, и он начинает работать.

Lux описывает себя как модель использования компьютера, и эта фраза выполняет множество функций. Система обрабатывает исходные пиксели, распознает кнопки, меню и формы, а затем выполняет низкоуровневые действия: клики, прокрутки, нажатия клавиш, смены окон. Она может управлять полными рабочими столами, браузерами, таблицами, редакторами кода, даже упрямыми устаревшими инструментами, которые никогда не имели веб-API.

Это выводит Lux из категории "ассистент" и перемещает его в сферу инфраструктуры. Вы можете подключить его к удаленной виртуальной машине и заставить его сверять счета в браузере, проверять данные в настольной таблице, а затем составлять письма-напоминания в Outlook. Для предприятий, тонущих в хрупких скриптах RPA и незавершенных интеграциях, экранный агент начинает выглядеть как универсальный адаптер.

Бenchmark-цифры подтверждают уверенность. На Mind2Web, онлайн-бенчмарке, созданном на основе более чем 300 реальных задач с живых сайтов, Lux набирает 83.6, что значительно превышает показатели Google’s Gemini — 69.0 и лучшей модели OpenAI — 61.3. Одни и те же задачи, один и тот же хаотичный веб, радикально разные показатели успеха.

Mind2Web жесток по своему дизайну. Агенты вынуждены преодолевать стены входа, странные макеты, бесконечную прокрутку, всплывающие окна и непоследовательные паттерны пользовательского интерфейса, чтобы выполнить многошаговые задачи, такие как бронирование путешествий, проверка истории заказов или поиск по настройкам аккаунта. Маржа Lux по этому критерию подразумевает не просто запоминание потоков, а реальное создание рабочей модели поведения интерфейсов.

Это преимущество возникает благодаря тому, что его создатели называют агентным активным предварительным обучением. Вместо того чтобы учиться только на статических логах или синтетических инструкциях, Lux проводит время предварительного обучения, действуя в реальных средах, исследуя пользовательские интерфейсы, терпя неудачи и исправляя ошибки. Модель усваивает такие закономерности, как "фильтры скрываются за иконками воронки" или "окна подтверждения часто инвертируют цвета кнопок", которые переносятся между приложениями.

Вы можете думать об этом как о разнице между чтением руководства и фактическим вождением автомобиля. Традиционные агенты LLM "читают руководство" веб-API и DOM-деревьев; Lux же проводит миллионы часов за управлением живым программным обеспечением. Этот практический опыт дает ему более интуитивное, человеческое понимание пользовательских интерфейсов — и делает "вашего нового коллегу" менее похожим на хайп и более на грядущую категорию продукта.

Двусторонняя атака Google: скорость и контроверсия

Иллюстрация: Двусторонняя атака Google: скорость и противоречия

Google не ставит всё на длинную память Титанов. Параллельно компания развивает второй фронт: массовое распределение и недорогое генеративное медиа. Данные внутреннего роста, упомянутые сторонними аналитиками, показывают, что количество ежемесячно активных пользователей Gemini растет быстрее, чем у ChatGPT, и Google хочет сопоставимой мощи в изображениях и экспериментах с пользовательским интерфейсом.

Представляем Nano Banana 2 Flash — новую модель изображений, настроенную на минимизацию затрат и скорость, а не на славу в рейтингах. Позиционируется как «почти профессиональная» версия флагманской системы изображений Google, она стремится обеспечить качество почти на уровне Pro за небольшую долю вычислительных затрат. Это важно для миллиардов вызовов изображений с низкой маржой в Поиске, Android, Документах и рекламных инструментах.

Смотрите на Nano Banana 2 Flash как на крупную чернильную картридж для генеративного искусства от Google. Вы не печатаете музейные произведения с его помощью; вы заполняете интернет миниатюрами, социальными карточками, наклейками и макетами продуктов. Если Google сможет предложить более низкие цены, чем Midjourney, DALL·E и Stability, сохраняя при этом качество «достаточно хорошим», он возьмет под контроль массовый рынок изображений на основе ИИ.

В то же время Google тихо проводил совершенно другой эксперимент: новостные заголовки, переписанные с помощью ИИ в Google Discover. Вместо показа оригинальных заголовков издателей, внутренний алгоритм генерировал новые заголовки на лету, иногда переосмысляя истории с более сильными эмоциональными акцентами или другим акцентом. Пользователи видели эти синтетические заголовки без каких-либо четких обозначений или возможности отказаться от них.

Издатели обратили внимание. Отчеты из скандинавских и европейских изданий описывали заголовки, которые искажали тон или смысл, включая криминальные истории, звучавшие более сенсационно, и политические материалы, умалявшие ключевой контекст. Редакторы утверждали, что ИИ Google фактически стал безответственным соавтором, сидящим между их редакцией и аудиторией.

Ответная реакция пришла быстро, так как затрагивает долго назревающую трещину. Платформы уже контролируют распределение, рекламные рынки, а теперь всё больше и язык, который формирует журналистику. Когда заголовок, созданный ИИ, может изменить восприятие расследования по коррупции или отчета о климате, редакционное решение переходит от редакций к системам ранжирования и весам моделей.

Тест Discover показывает, как быстро «помощный ИИ» превращается в редакционный ИИ. Титаны и Nano Banana 2 Flash стремятся к масштабам и скорости, но скандал с заголовком вскрывает торговлю: технологические платформы хотят переписать не только контент, но и то, как мир с ним сталкивается.

Цифры не обманывают: рост Gemini реален

"Красный код" перестал быть метафорой, как только появились диаграммы загрузок. Согласно данным SensorTower, упомянутым в недавних отчетах, мобильное приложение Gemini теперь занимает одно из первых мест среди самых быстрорастущих AI продуктов за всю историю, с количеством ежемесячно активных пользователей, которое растет темпами, затмевающими годовые увеличения ChatGPT.

ChatGPT по-прежнему доминирует по масштабам, имея сотни миллионов пользователей и наиболее узнаваемый бренд в сфере потребительского ИИ. Однако данные SensorTower рассказывают другую историю о динамике: MAU Gemini растут многократно быстрее из месяца в месяц, особенно на рынках, где Google может предустановить или активно продвигать приложение.

Что скорость имеет большее значение, чем права на хвастовство. Быстрый рост MAU запускает маховик: - Большой интерес разработчиков к API Gemini - Больше пилотных проектов от предприятий, которые хотят надежность на уровне Google - Больше доверия потребителей к тому, что это не мертвый эксперимент

Для разработчиков подъем Gemini означает надежную альтернативу OpenAI, которая интегрируется непосредственно в Android, Chrome и Google Cloud. Когда ваши целевые пользователи уже находятся в Gmail, Docs и Поиске, работа на основе технологий Google начинает выглядеть не как риск, а как неизбежность.

Предприятия читают те же диаграммы и видят рычаги для ведения переговоров. Быстрорастущий Gemini дает ИТ-директорам возможность требовать более выгодные цены, гарантии хранения данных и многопоставщицкие стратегии, которые ставят OpenAI, Google, Microsoft и Anthropic друг против друга.

Тем временем Google тихо использует свою распределительную машину. Рекомендации Gemini на Android, функции ИИ в Workspace и эксперименты с поиском на базе Gemini все направляют обычных пользователей в экосистему Google, не требуя отдельного решения о "приложении ИИ".

Это настоящий Код Красный для OpenAI: не в том, что Gemini уже победил, а в том, что Google наконец-то синхронизировал исследования, продукт и дистрибуцию. Титаны, MIRAS и более широкий стек Gemini теперь ориентированы на аудиторию, исчисляемую миллиардами, и каждое обновление функции использует эту инфраструктуру. Для тех, кто отслеживает технические основы, работа Google по долгому контексту соседствует с открытыми реализациями в репозитории Google Research на GitHub, подчеркивая, насколько быстро эти идеи могут распространяться.

Новое поле битвы искусственного интеллекта здесь.

Code Red больше не описывает паники отдельной компании; это описывает новое поле битвы в мире ИИ. Titans предоставляет Google модель, которая может обрабатывать контексты из более чем 2 миллионов токенов с настоящей долгосрочной памятью, обновляя свои воспоминания в реальном времени вместо того, чтобы притворяться, что каждый разговор начинается с нуля. Эталонные тесты, такие как Needle-in-a-Haystack с точностью более 95% и доминирование на bAbI-Long, показывают, что эти достижения не просто маркетинговые слайды.

Наложите MIRAS сверху, и вы получите дорожную карту, а не одноразовую модель. MIRAS переквалифицирует Transformers, Mamba, RWKV и их друзей как разные ответы на четыре вопроса о форме памяти, правилах хранения, скорости распада и динамике обновлений. Это превращает "большее окно контекста" в пространство дизайна для систем, обучающихся непрерывно.

Тем временем Lux атакует с другой стороны: контроля. Lux анализирует ваш экран, распознает элементы пользовательского интерфейса и выполняет клики, прокрутки и нажатия клавиш, чтобы завершить реальные задачи в браузерах, электронных таблицах и почтовых клиентах. В тестировании Mind2Web, где проводятся более 300 реальных задач на веб-сайтах, он демонстрирует около 83,6% успеха, ставя в неловкое положение старые демонстрационные версии "агентов", полагающиеся на хрупкие API.

Давление на дистрибуцию исходит от Gemini и Nano Banana 2 Flash. Данные в стиле Sensor Tower показывают, что количество ежемесячных активных пользователей Gemini растет быстрее, чем у ChatGPT, что стало возможным благодаря глубокой интеграции с Android и Chrome. Nano Banana 2 Flash, более дешевый и быстрый образец изображения, который почти соответствует своему Pro-собрату, позволяет Google заполонить среднебюджетные телефоны и веб-приложения "достаточно хорошим" мультимодальным ИИ.

Google теперь ведет многопрофильную войну:

1Фундаментальная архитектура: Titans и MIRAS переопределяют, как модели запоминают и учатся.
2Практическое агентство: Агенты по использованию компьютеров в стиле Lux превращают LLM в полноценные настольные оператора.
3Распределение на рынке: Рост Gemini, Nano Banana и заголовки, настроенные на ИИ, продвигают этот стек в повседневные ленты и устройства.

Статические модели, обученные один раз и затем застывшие, все больше напоминают план последнего десятилетия. Следующий этап сосредоточен на агентами, которые помнят месяцы истории взаимодействий, адаптируют политики на лету и живут внутри операционных систем, браузеров и пакетов офисных приложений. Все это встает перед OpenAI: его модель нового поколения, Garlic, теперь должна доказать, что может соответствовать памяти Титанов, агентности уровня Lux и охвату масштаба Gemini, иначе рискует наблюдать, как Google устанавливает правила для второго акта ИИ.

Часто задаваемые вопросы

Что такое Google Titans?

Titans — это новая архитектура ИИ от Google Research, разработанная для обеспечения моделям настоящей долгосрочной памяти. Она отделяет краткосрочную обработку от модуля долгосрочной памяти, который учится и обновляется непрерывно в процессе использования.

Как работает память титанов?

Титаны решают, что хранить, исходя из "сюрприза". Чем более неожиданной или новой является информация, тем более вероятно, что она будет сохранена, что позволяет ИИ эффективно формировать память о ключевых фактах.

Является ли Google Titans лучше GPT-4?

На конкретных бенчмарках с длинным контекстом, которые проверяют способность ИИ вспоминать информацию из огромных объемов текста, видео и сопутствующие отчеты утверждают, что Titans значительно превосходит модели, такие как GPT-4 и Llama 3.1.

Что такое MIRAS?

MIRAS — это структура, представленная вместе с Titans. Она предоставляет правила и методы для того, чтобы модели могли непрерывно обучаться на новых данных, не забывая при этом прошедшие знания, приближая ИИ к состоянию постоянного обучения.

𝕏 in ↑↗

Frequently Asked Questions

Что такое Google Titans?

Как работает память титанов?

Является ли Google Titans лучше GPT-4?

Что такое MIRAS?

Искусственный интеллект Google только что эволюционировал.

TL;DR / Key Takeaways

Почему OpenAI объявила «красный код»

Амнезия, терзающая каждую ИИ

Познакомьтесь с Титанами: ИИ, который никогда не забывает.

Гений в 'Сюрпризе'

Разрушая конкуренцию: Титаны против мира

За пределами памяти: MIRAS и непрерывный学习

Ваш новый сотрудник — агент по имени Люкс.

Двусторонняя атака Google: скорость и контроверсия

Цифры не обманывают: рост Gemini реален

Новое поле битвы искусственного интеллекта здесь.

Часто задаваемые вопросы

Что такое Google Titans?

Как работает память титанов?

Является ли Google Titans лучше GPT-4?

Что такое MIRAS?

Frequently Asked Questions

Read Next

Новый агент Anthropic только что уничтожил No-Code

Этот инструмент укрощает хаотичных AI-агентов

Идеальная память ИИ появилась

Stay Ahead of the AI Curve