TriAttention: Как MIT и NVIDIA решили проблему узкого места длинного контекста в ИИ

Кратко / Главное

Исследователи из MIT и NVIDIA только что решили самую большую проблему, преследующую мощные модели ИИ. Эта новая техника, TriAttention, сокращает использование памяти в 10 раз, позволяя запускать массивные модели на вашем домашнем ПК.

Скрытая стена, в которую постоянно упирается ваш ИИ

Запуск мощной модели ИИ локально часто приводит к знакомой, разочаровывающей ошибке: «недостаточно памяти». Энтузиасты, пытающиеся развернуть тяжелые модели рассуждений, такие как DeepSeek R1, на потребительском оборудовании, часто сталкиваются с резкими скачками памяти GPU, быстро выводящими их системы из строя. Эта повсеместная проблема долгое время ошибочно приписывалась самому размеру весов модели, которые, безусловно, потребляют значительный объем VRAM.

Однако веса модели не являются основным и наиболее проблематичным потребителем памяти. Настоящим узким местом, потребляющим непропорционально и экспоненциально растущую долю памяти GPU, является кэш Key-Value (KV-кэш). Этот критически важный компонент функционирует как кратковременная память модели, тщательно сохраняя каждый токен и связанную с ним контекстную информацию из текущего разговора или запроса. Он содержит «ключи» и «значения», которые механизм внимания использует для определения связей между токенами.

Представьте KV-кэш как постоянно расширяющийся блокнот, где ИИ записывает каждую предыдущую мысль и наблюдение в рамках диалога. По мере того как взаимодействие с моделью ИИ расширяется, будь то через длинные запросы или многоходовые разговоры, этот «блокнот» испытывает экспоненциальный взрыв памяти. Каждый новый сгенерированный или обработанный токен требует сохранения предыдущих токенов, что приводит к значительному росту кэша с каждым дополнительным словом, фразой или предложением. Это неустанное расширение быстро исчерпывает даже память высокопроизводительных потребительских GPU, неизбежно приводя к тем печально известным ошибкам «недостаточно памяти» или мучительно медленным, ледниковым скоростям обработки.

Это присущее архитектурное ограничение серьезно ограничивает возможность выполнения рассуждений с длинным контекстом на потребительском оборудовании. Даже мощные карты NVIDIA, такие как RTX 3090 или 4090, обычно оснащенные 24 гигабайтами VRAM, не могут выдерживать требования KV-кэша для сложных, длинных инструкций без немедленного возникновения ошибки. Следовательно, продвинутые агенты рассуждений, критически важные для сложного решения проблем, остаются в значительной степени недоступными для локального развертывания, запертые фундаментальной стеной памяти, которая до сих пор казалась непреодолимой. Полный потенциал сложного ИИ на персональных устройствах постоянно сдерживался этим критическим ограничением.

Почему «забывание» — это неправильное решение

Текущее стандартное решение для уменьшения объема памяти, занимаемого KV-кэшем, — это агрессивная обрезка. Модели пытаются угадать, какие токены менее важны, а затем отбрасывают их, чтобы освободить память GPU. Эта распространенная практика направлена на смягчение ошибок «недостаточно памяти» и ледниковых скоростей обработки, особенно при локальном запуске обширных моделей рассуждений с длинными контекстами разговоров.

Однако этот, казалось бы, логичный подход имеет критический недостаток из-за базовой архитектуры современных больших языковых моделей (LLM). Большинство продвинутых LLM, особенно те, которые преуспевают в сложных рассуждениях, реализуют Rotary Positional Embeddings (RoPE). RoPE интегрирует позиционную информацию путем динамического вращения вложений токенов, фундаментально изменяя то, как модель воспринимает свой контекст.

RoPE заставляет векторы запроса и ключа вращаться в зависимости от их позиции в входной последовательности. Это означает, что один и тот же запрос, если он представлен в разное время или при различной длине последовательности, будет выглядеть совершенно по-разному для модели. Вектор запроса, сгенерированный две секунды назад, мало похож на идентичный запрос, сгенерированный сейчас, именно потому, что его вращательное состояние зависит от его текущего позиционного кодирования.

Эта присущая нестабильность делает традиционные методы обрезки KV cache крайне неэффективными. Попытка идентифицировать и отбросить «лучшие» ключи в таком постоянно меняющемся, вращающемся пространстве сродни «ловле рыбы в блендере». Модель не может установить стабильные ссылки на прошлую информацию, что приводит к непредсказуемым результатам. Этот постоянный поток не позволяет модели последовательно извлекать важные логические связи, заставляя ее часто забывать жизненно важный контекст и неизбежно снижая ее показатели рассуждений на требовательных бенчмарках. «Забывание» — это не функция; это катастрофический побочный эффект ошибочной стратегии управления памятью.

Момент «Эврика» в 'Pre-RoPE'

Исследователи MIT и NVIDIA, совместно с коллегами из Zhejiang University, представили новаторскую работу под названием TriAttention, переопределяющую подход Large Language Models к обработке длинных контекстов. Их работа решает критическую проблему узкого места KV cache, которая обычно вызывает исчерпание памяти и снижение производительности в локальных развертываниях ИИ. Этот инновационный подход обеспечивает 10,7-кратное сокращение памяти KV cache и 2,5-кратное увеличение пропускной способности, позволяя использовать мощные модели на потребительском оборудовании.

Современные LLMs используют Rotary Positional Embeddings (RoPE) для кодирования позиций токенов. Хотя RoPE эффективен, он заставляет векторы запроса и ключа непрерывно вращаться в зависимости от их позиции, превращая KV cache в нестабильную, «блендер-подобную» среду для традиционных методов обрезки. Попытка идентифицировать и отбросить «неважные» токены в этом хаотичном, вращающемся пространстве часто приводит к тому, что модели забывают важную информацию и снижают показатели рассуждений.

Исследователи обнаружили глубокое понимание, изучив векторы до этого хаотического вращения. В этом pre-RoPE space векторы запроса и ключа удивительно стабильны, группируясь вокруг фиксированных, предсказуемых центров. Эта неожиданная согласованность показала, что паттерн внимания фактически следует тригонометрическому ряду, предлагая математическую основу для понимания важности токенов.

Эта присущая стабильность в pre-RoPE space стала краеугольным камнем для более принципиальной и эффективной стратегии сжатия. Вместо угадывания, TriAttention использует это тригонометрическое понимание для точного предсказания того, к каким ключам модель будет обращаться, основываясь на их расстоянии от этих стабильных центров. Это позволяет осуществлять интеллектуальное сжатие KV cache на лету без ущерба для точности, что знаменует собой полный сдвиг парадигмы для рассуждений в длинном контексте. Для более глубокого изучения их методологии обратитесь к TriAttention: Efficient Long Reasoning with Trigonometric KV Compression.

Разблокировка памяти ИИ с помощью тригонометрии

Исследователи MIT и NVIDIA не просто нашли стабильное пространство; они раскрыли его математические секреты. Их новаторский механизм TriAttention основан на глубоком понимании: поведении векторов Query (Q) и Key (K) в pre-RoPE space. Здесь, до сложных позиционных вращений современных LLMs, эти векторы демонстрируют замечательную стабильность, предсказуемо группируясь вокруг фиксированных центров, в отличие от их хаотичных аналогов после вращения.

Что особенно важно, команда обнаружила, что паттерны внимания в этом стабильном пространстве до применения RoPE подчиняются предсказуемому тригонометрическому ряду. Это не абстрактная теория; это фундаментальная математическая зависимость, определяющая, как запросы (queries) и ключи (keys) взаимодействуют на основе их относительных позиций. Этап офлайн-калибровки отображает распределения запросов, позволяя TriAttention точно рассчитывать эти базовые тригонометрические оценки, эффективно отображая потенциальные цели внимания.

Это математическое открытие означает, что модели больше не гадают, какие токены важны. TriAttention использует этот тригонометрический ряд, чтобы точно предсказывать, к каким ключам модель будет обращаться на основе их относительного расстояния, полностью обходясь без необходимости в полном, вычислительно затратном механизме внимания. Эта предсказательная способность обеспечивает ошеломляющее 10.7-кратное сокращение памяти KV cache и 2.5-кратное увеличение пропускной способности на бенчмарках, таких как AIME25, при этом соответствуя точности Full Attention.

Традиционные методы сокращения KV cache пытаются идентифицировать и отбрасывать «неважные» токены после того, как они подверглись RoPE-вращению. Этот реактивный подход оказывается по своей природе нестабильным, поскольку RoPE непрерывно вращает векторы запросов, из-за чего их релевантность сильно колеблется в разных позициях. Попытки выбрать важные ключи в такой динамичной, «блендерной» среде приводят к тому, что модели забывают жизненно важный контекст и, неизбежно, снижают показатели рассуждений.

TriAttention принципиально переопределяет этот процесс. Вместо того чтобы реагировать на нестабильные оценки после вращения, он проактивно оценивает ключи, используя стабильные центры Q/K и нормы до применения RoPE, полученные из его тригонометрической структуры. Этот предсказательный, математически обоснованный подход гарантирует, что модель сохраняет критически важную информацию, такую как ключевые сущности или логические зависимости, поддерживая точность Full Attention при значительном сокращении накладных расходов на память.

В 10 раз меньше, в 2.5 раза быстрее: Потрясающие результаты

TriAttention демонстрирует поистине ошеломляющие показатели производительности, меняя экономику работы больших языковых моделей. Исследователи из MIT и NVIDIA достигли поразительного 10.7-кратного сокращения памяти KV cache, напрямую решая самую насущную проблему для LLMs с длинным контекстом. Эта беспрецедентная экономия памяти сочетается со значительным 2.5-кратным увеличением пропускной способности, делая ранее неразрешимые сложные задачи рассуждений не просто выполнимыми, но и удивительно эффективными.

Это не просто теоретические достижения; TriAttention открывает беспрецедентные возможности для развертывания на локальном оборудовании. Представьте себе запуск 32-миллиардной параметрической модели, такой как OpenClaw или DeepSeek R1, которые, как известно, потребляют огромное количество памяти GPU и обычно приводят к мгновенным ошибкам «недостаточно памяти» при длинных инструкциях. TriAttention теперь позволяет этим высокопроизводительным моделям безупречно работать на одной 24GB потребительской GPU, такой как NVIDIA RTX 3090 или 4090. Он динамически сжимает кэш, позволяя этим мощным агентам идеально выполнять ресурсоемкие задачи на настольных компьютерах.

Что особенно важно, TriAttention достигает этих значительных улучшений эффективности без какого-либо ущерба для качества рассуждений. Техника стабильно соответствует точности Full Attention на требовательных бенчмарках, таких как AIME25, гарантируя, что способность модели понимать, обрабатывать и генерировать сложные, связные ответы остается полностью неизменной. Пользователи получают огромное облегчение в скорости и памяти, сохраняя полную, неискаженную мощь своих больших языковых моделей для критически важных приложений.

Этот прорыв коренным образом переопределяет практические пределы локального развертывания ИИ. Разработчики теперь могут уверенно развертывать сложные агенты рассуждений и LLM с большим контекстом на легкодоступном потребительском оборудовании, избегая непомерных затрат и логистических сложностей специализированной серверной инфраструктуры или постоянной зависимости от облака. TriAttention представляет собой фундаментальный сдвиг парадигмы, эффективно децентрализуя передовые возможности ИИ и перемещая их из эксклюзивной области центров обработки данных непосредственно на рабочий стол.

TriAttention против «Старой гвардии»

Сравнение TriAttention с «старой гвардией», такой как R-KV, выявляет резкое различие в производительности. Предыдущие передовые методы, включая R-KV, пытались управлять кешем KV путем отсечения токенов непосредственно в пространстве post-RoPE. Этот подход оказался фундаментально ошибочным, поскольку динамическая, вращающаяся природа Rotary Positional Embeddings (RoPE) делает представления токенов нестабильными и непредсказуемыми, что делает принятие точных решений о сохранении практически невозможным. Для дальнейшего чтения о RoPE читатели могут ознакомиться с такими статьями, как RoFormer: Enhanced Transformer with Rotary Position Embedding.

Конкурирующие методы страдали от этой присущей им нестабильности. Они, по сути, угадывали, какие токены отбрасывать, что неизбежно приводило к значительному ухудшению возможностей рассуждений, поскольку модели «забывали» важный контекст. Эта нестабильность напрямую влияла на их способность обрабатывать длительные разговоры или сложные многошаговые задачи без ущерба для точности.

TriAttention обходит это основное ограничение, работая в стабильном пространстве pre-RoPE. Это позволяет ему идентифицировать и оценивать ключи с использованием точного тригонометрического ряда, а не нестабильной выборки запросов post-RoPE. Этот принципиальный подход обеспечивает существенные преимущества там, где предыдущие методы терпели неудачу.

Результаты исследований подчеркивают превосходство TriAttention. При сопоставимых уровнях эффективности он достигает почти вдвое большей точности, чем R-KV, на требовательных бенчмарках. Это не незначительное улучшение; это фундаментальный сдвиг в том, насколько эффективно LLM могут управлять своей памятью, сохраняя при этом целостность своих рассуждений.

Это решающее преимущество особенно важно для задач с длительными рассуждениями. Способность TriAttention надежно предсказывать и сохранять важный контекст, основанная на внутренних свойствах модели, гарантирует, что LLM сохраняют связность и точность на обширных входных окнах. Это фундаментально поднимает планку того, чего могут достичь модели ИИ в сложном, зависящем от контекста решении проблем.

Из лаборатории на ваш ноутбук: мощь открытого исходного кода

Путь TriAttention от академического прорыва до практической полезности для разработчиков быстр и прямолинеен. Исследователи сделали полную кодовую базу открытой, обеспечивая немедленный доступ для всех, кто хочет оптимизировать свои развертывания LLM. Эта приверженность доступности значительно снижает барьер для внедрения передовой эффективности памяти в локальные рабочие процессы ИИ.

Развертывание TriAttention требует минимальных усилий благодаря его бесшовной интеграции с vLLM. Разработчики могут использовать реализацию, готовую для vLLM, для развертывания в один клик, мгновенно получая выгоду от значительного 10.7-кратного сокращения памяти кеша KV и 2.5-кратного увеличения пропускной способности, задокументированных в бенчмарках. Это готовое решение ускоряет исследования и разработки, позволяя быстро экспериментировать с моделями с длинным контекстом на ограниченном оборудовании, таком как потребительские графические процессоры.

Усилия сообщества уже расширяют охват TriAttention за пределы его первоначальных реализаций на Python. Активно разрабатывается выделенный порт C/ggml для llama.cpp, обещающий широкую совместимость и надежную поддержку для AMD GPUs, что является критически важным шагом для многих энтузиастов. Кроме того, ведется работа над экспериментальной поддержкой MLX для Apple Silicon, что еще больше демократизирует доступ к высокопроизводительному выводу LLM на персональных устройствах.

Крайне важно, что TriAttention работает ортогонально к существующим методам оптимизации, таким как квантование. Разработчики могут комбинировать TriAttention с такими методами, как TurboQuant, для достижения еще большей, кумулятивной выгоды в эффективности. Этот аддитивный подход означает, что пользователи не жертвуют одной формой оптимизации ради другой, а скорее накладывают их друг на друга для максимальной производительности и экономии памяти, продвигая возможности локального вывода еще дальше.

Этот открытый выпуск меняет подход разработчиков к локальному выводу LLM. Запуск продвинутых агентов рассуждения, ранее ограниченный дорогостоящей облачной инфраструктурой или высокопроизводительными серверными GPU, теперь становится возможным на потребительском оборудовании с 24GB VRAM. Это открывает новую волну локальных AI-приложений, расширяя границы возможного на персональных ноутбуках и рабочих станциях, способствуя инновациям на периферии.

Волновой эффект, выходящий за рамки просто памяти

Влияние TriAttention выходит далеко за рамки оптимизации памяти KV-кэша; оно фундаментально меняет операционный ландшафт для больших языковых моделей. Эта инновация разрушает давнее узкое место памяти, открывая новую эру мощного, локально работающего ИИ. Ранее только облачное или специализированное серверное оборудование могло справляться с огромными требованиями к памяти для сложных задач рассуждения и длинных контекстных окон, что сильно ограничивало доступ и увеличивало эксплуатационные расходы как для разработчиков, так и для исследователей.

Разработчики теперь могут развертывать высокопроизводительные агенты рассуждения непосредственно на повсеместном потребительском оборудовании, демократизируя доступ к передовому ИИ. Рассмотрим модель с 32 миллиардами параметров; такой гигант, ранее мгновенно вызывавший ошибку нехватки памяти для 24GB GPU, такого как NVIDIA RTX 3090 или 4090, при получении длинных инструкций, теперь безупречно выполняет сложные задачи. Этот замечательный сдвиг перемещает мощный вывод из дорогих центров обработки данных на отдельные ноутбуки и рабочие станции, способствуя более широким инновациям и снижая барьер для входа в разработку передового ИИ.

Надежность этой техники проявляется в ее впечатляющей кросс-доменной обобщаемости. TriAttention поддерживает полную точность внимания на требовательных бенчмарках, доказывая свою эффективность в различных приложениях без проблем со стабильностью, присущих традиционным методам обрезки. Исследователи продемонстрировали ее эффективность в сложных задачах кодирования, обрабатывая большие кодовые базы с расширенным контекстом. Она также достигла 6,3-кратного ускорения на бенчмарке MATH500 для сложного математического рассуждения и безупречно управляла обширными чат-взаимодействиями, все это без ущерба для критически важной логики или связности. Эта широкая применимость подчеркивает ее преобразующий потенциал во всем спектре ИИ.

Решение проблемы узкого места длинного контекста на локальных устройствах открывает волну ранее невозможных приложений, предвещая новое поколение интеллектуальных систем. Представьте себе анализ видео с длинным контекстом в реальном времени: ИИ мог бы обрабатывать часы видеоматериалов локально, понимая сюжетные линии, выявляя тонкие закономерности или генерируя исчерпывающие сводки для обеспечения безопасности, медиапроизводства или личного архивирования. Могли бы появиться более мощные ИИ-помощники на устройстве, глубоко понимающие личный контекст из обширных локальных хранилищ данных – электронных писем, документов и разговоров – предлагая беспрецедентную конфиденциальность, отзывчивость и сложное выполнение задач без зависимости от облака. Это знаменует собой ключевой шаг к по-настоящему интеллектуальному периферийному ИИ, принося сложные возможности непосредственно на устройство пользователя и способствуя развитию новой экосистемы персонального ИИ.

Дорожная карта TriAttention

Путь TriAttention за пределы исследовательской работы стремительно ускоряется, становясь немедленно доступным инструментом для разработчиков. Технология недавно была интегрирована в vLLM, ведущий фреймворк с открытым исходным кодом для высокопроизводительного обслуживания LLM. Эта ключевая интеграция расширяет возможности широкого спектра производственных приложений, напрямую обеспечивая 10,7-кратное сокращение памяти KV cache и 2,5-кратное увеличение пропускной способности TriAttention для конвейеров вывода.

Усилия значительно выходят за рамки vLLM, с продолжающейся разработкой для обеспечения работы TriAttention в различных не-vLLM путях вывода и фреймворках. Это обеспечивает более широкую доступность, позволяя большему числу разработчиков использовать значительные приросты производительности. Например, TriAttention уже позволяет сложным моделям с 32 миллиардами параметров, таким как OpenClaw, эффективно работать на одиночных потребительских GPU, оснащенных всего 24 ГБ VRAM, что ранее было невозможно без немедленных ошибок нехватки памяти.

Потенциал TriAttention простирается далеко за пределы традиционных языковых моделей, открывая захватывающие новые горизонты. Исследователи активно изучают его применение в мультимодальном ИИ, включая критически важную поддержку для генерации AR-видео. Эффективно сжимая KV cache для сложных последовательных данных, TriAttention обещает разблокировать задачи генеративного ИИ с более длинным контекстом в области зрения и других областях, ранее ограниченные непомерными требованиями к памяти.

TriAttention представляет собой динамично развивающуюся технологию, а не статичное решение. Вокруг ее реализации с открытым исходным кодом быстро формируется активное сообщество, активно способствующее ее доработке, тестированию и расширению. Эти коллективные усилия обеспечивают непрерывные инновации, продвигая технологию вперед и укрепляя позицию TriAttention на переднем крае разработки энергоэффективного ИИ.

Ожидайте дальнейших оптимизаций, расширенной аппаратной поддержки и более широкого внедрения по мере того, как сообщество будет решать новые задачи и сценарии использования. Основной принцип TriAttention — предиктивное управление KV cache — предлагает универсальный и мощный инструмент для повышения эффективности различных последовательных архитектур ИИ. Эта надежная дорожная карта указывает на будущее, где узкие места памяти больше не будут диктовать масштаб или амбиции приложений ИИ, от локальных агентов рассуждений до сложных мультимодальных систем.

Ваш GPU только что получил масштабное обновление

TriAttention представляет собой смену парадигмы в управлении памятью ИИ, а не просто инкрементальную доработку. Точно предсказывая паттерны внимания через стабильность векторов pre-RoPE и тригонометрические ряды, исследователи из MIT, NVIDIA и Zhejiang University обошли присущую нестабильность и догадки традиционной обрезки KV cache. Эта математическая элегантность, коренящаяся в стабильном пространстве pre-RoPE, предлагает надежное, предсказательное решение проблемы узкого места длинного контекста, фундаментально изменяя то, как большие языковые модели взаимодействуют и сохраняют информацию в памяти.

Запуск моделей с 32 миллиардами параметров, ранее ограниченный дорогими центрами обработки данных или многопроцессорными установками, теперь становится возможным на одной потребительской видеокарте с 24 ГБ памяти, такой как NVIDIA RTX 3090 или 4090. Поразительное 10.7-кратное сокращение памяти KV cache и 2.5-кратное увеличение пропускной способности TriAttention в бенчмарках, таких как AIME25, эффективно переопределяет пределы того, что может достичь локальная машина для серьезных задач ИИ, устраняя постоянные ошибки «недостаточно памяти» и обеспечивая беспрецедентный масштаб.

Разработчики, исследователи и энтузиасты ИИ теперь могут раскрыть весь потенциал рассуждений с длинным контекстом без ранее требуемых непомерных инвестиций в оборудование. Представьте себе создание персональных ИИ-помощников, которые сохраняют контекст в течение нескольких дней, сложных агентов рассуждений, анализирующих целые кодовые базы, или творческих моделей, генерирующих обширные повествования – все это работает приватно, безопасно и эффективно на вашем рабочем столе. Эта инновация демократизирует доступ к расширенным возможностям LLM, способствуя новой эре локальной разработки ИИ.

TriAttention — это больше, чем просто оптимизация; это фундаментальный фактор, способствующий будущему, в котором общий ИИ будет не только невероятно мощным, но и широко доступным для всех. Разрушая «стену памяти», эта ключевая технология ускоряет путь к высокопроизводительному, по-настоящему контекстно-ориентированному ИИ, который работает с беспрецедентной эффективностью и надежностью. Ваша видеокарта только что получила монументальное, программно-управляемое обновление, готовое питать следующее поколение интеллектуальных систем и открывать совершенно новые приложения ИИ прямо у вас под рукой.

Часто задаваемые вопросы

Что такое узкое место KV cache в моделях ИИ?

KV cache хранит пары ключ-значение из прошлых токенов в разговоре, позволяя модели поддерживать контекст. По мере роста контекста этот кэш потребляет огромное количество памяти GPU, становясь основным узким местом, которое вызывает ошибки нехватки памяти или замедление производительности.

Как TriAttention решает проблему KV cache?

Вместо того чтобы угадывать, какие токены отбросить, TriAttention анализирует стабильное векторное пространство до применения Rotary Positional Embeddings (RoPE). Он использует тригонометрические паттерны для предсказания того, какие ключи потребуются модели, что позволяет сжимать KV cache более чем в 10 раз с минимальной потерей точности рассуждений.

Могу ли я использовать TriAttention на своем компьютере?

Да. Кодовая база TriAttention имеет открытый исходный код с интеграцией для популярных фреймворков, таких как vLLM. Также существуют порты сообщества для llama.cpp и экспериментальная поддержка Apple Silicon, что позволяет запускать его на потребительском оборудовании, таком как RTX 3090/4090 или Mac с чипами серии M.

Лучше ли TriAttention других методов KV cache?

Да. Согласно исследованиям, TriAttention значительно превосходит существующие методы, такие как R-KV. Он достигает почти полной точности внимания при тех же уровнях сжатия, где другие методы дают сбой, главным образом потому, что он использует стабильное пространство «до RoPE», которое не подвержено позиционным вращениям.

𝕏 in ↑↗

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

Трюк ИИ от MIT нарушает закон Мура