Кратко / Главное
Новая модель ИИ под названием SubQ утверждает, что обрабатывает огромный контекст в 12 миллионов токенов с использованием в 1000 раз меньших вычислительных ресурсов. Если ее субквадратичная архитектура подтвердится, это может кардинально изменить способы создания и масштабирования ИИ.
Конец квадратичного узкого места
Все современные большие языковые модели (LLM) сталкиваются с фундаментальной вычислительной проблемой: квадратичным масштабированием. Механизм внимания, центральный для архитектур трансформеров, требует, чтобы каждый токен взаимодействовал с каждым другим токеном в последовательности. Удвоение длины входного текста не просто удваивает нагрузку на обработку; оно примерно учетверяет вычислительную работу, делая длинные контексты экспоненциально дорогими и медленными. Этот подход плотного внимания тратит вычислительные ресурсы на бесчисленные несущественные связи.
SubQ решает эту проблему с помощью своей инновационной архитектуры Sub-quadratic Sparse Attention (SSA). SSA интеллектуально идентифицирует и фокусирует вычислительные ресурсы только на наиболее семантически релевантных отношениях между словами в данном контексте. Вместо исчерпывающего вычисления всех возможных взаимодействий, SSA учится выбирать небольшое, критически важное подмножество токенов для каждого слова, выполняя полную математику внимания исключительно для этих ключевых связей. Это значительно снижает вычислительную нагрузку.
SSA принципиально отличается от предыдущих попыток разреженного внимания и альтернативных архитектур. Более ранние методы, такие как Longformer и BigBird, применяли разреженность на основе позиции, ограничивая внимание близлежащими токенами. Архитектуры, такие как Mamba, сжимают информацию в фиксированное состояние памяти, отказываясь от явных вычислений внимания. SSA от SubQ, однако, вычисляет точное внимание на подмножестве токенов, выбранных по содержанию, позволяя словам извлекать релевантную информацию из миллионов токенов на основе семантического соответствия, а не только близости, без потери качества из-за аппроксимации.
Производительность в цифрах
Архитектурные инновации SubQ воплощаются во впечатляющие показатели производительности. Модель предлагает беспрецедентное окно контекста в 12 миллионов токенов, что является значительным расширением для обработки огромных объемов информации за один проход. Эта прорывная архитектура, как сообщается, использует до в 1000 раз меньше вычислительных ресурсов, чем плотное внимание, кардинально изменяя требования к ресурсам для крупномасштабных задач. Кроме того, она работает в 56 раз быстрее, чем FlashAttention 2 при 1 миллионе токенов для одного слоя внимания, что указывает на существенное увеличение скорости обработки.
Возможности извлечения информации демонстрируют способность модели точно определять конкретную информацию в обширных входных данных с замечательной точностью. На сложной бенчмарке Needle-in-a-Haystack SubQ достигла идеальной 100% точности при 2 миллионах токенов. Даже при максимальном контексте в 12 миллионов токенов модель поддерживала впечатляющую 98% точность извлечения, демонстрируя надежное понимание на больших расстояниях.
Эта эффективность приводит к значительному снижению операционных затрат. Например, сообщается, что оценка, стоившая примерно $2,600 на Claude Opus, была выполнена всего за $8 на SubQ. Такое существенное снижение затрат может сделать крупномасштабный анализ экономически жизнеспособным, открывая новые горизонты для приложений ИИ, ранее ограниченных непомерными расходами.
Как на самом деле был создан SubQ
Разработка SubQ не включала обучение совершенно новой модели с нуля. Вместо этого команда начала свою работу с существующей, общедоступной модели с открытым весом. Затем они хирургически заменили ее обычный механизм плотного внимания своими пользовательскими SSA layers.
Этот архитектурный обмен позволил применить новую стратегию обучения. Разработчики постепенно увеличивали длину контекста модели, подавая ей огромные объемы данных в длинном формате, включая исчерпывающие книги и обширные кодовые базы. Такой итеративный, расширяющий контекст исследовательский процесс стал экономически целесообразным только потому, что присущая SSA эффективность значительно сократила связанные с этим вычислительные затраты.
В основе этого дизайна лежали конкретные, высокоценные корпоративные сценарии использования. SubQ был разработан для обеспечения беспрецедентного, полного обзора сложных артефактов, устраняя необходимость в громоздком разбиении на части. Его возможности нацелены на тщательный анализ: - Целых кодовых баз, для всестороннего понимания и рефакторинга - Финансовых отчетов, выявляя сложные закономерности за годы - Сложных юридических документов, гарантируя, что ни одна критическая деталь не будет упущена Эта неразбитая на части перспектива имеет первостепенное значение для сохранения контекстной целостности на протяжении миллионов токенов.
Этот стратегический подход позволил SubQ достичь впечатляющих показателей производительности, в частности, окна контекста в 12 миллионов токенов и значительной экономии вычислительных ресурсов. Для более глубокого технического анализа архитектуры и бенчмарков заинтересованные читатели могут ознакомиться с Техническим отчетом SubQ 1.1 Small.
Прорыв или непроверенная шумиха?
Смелые заявления SubQ вызвали поляризованную реакцию в сообществе ИИ. Энтузиасты отмечают его как потенциальный пост-Transformer прорыв, предвидя смену парадигмы для моделей с длинным контекстом. Тем не менее, значительная часть исследователей остается осторожно скептичной, ожидая строгой, независимой проверки его революционной эффективности и беспрецедентного окна контекста.
Enjoying this? Get one like it in your inbox each morning.
one email a day · unsubscribe in two clicks · no third-party tracking
Этот скептицизм вполне обоснован и проистекает из нескольких критических факторов. Заявленные SubQ основные показатели производительности, включая утверждения о 1000-кратном снижении вычислительных затрат и 56-кратном ускорении, в основном являются самоотчетными и в настоящее время не имеют внешней проверки. Кроме того, веса модели не являются общедоступными, что не позволяет независимым лабораториям проводить собственные всесторонние испытания и воспроизводить результаты.
Еще одна важная область недокументированной производительности заключается в эффективности SubQ при выполнении обычных задач с короткими запросами. Хотя он разработан для огромных окон контекста до 12 миллионов токенов, его сравнительные возможности в более традиционных приложениях LLM в значительной степени не определены количественно, что оставляет вопросы о его более широкой полезности за пределами специализированных сценариев с длинным контекстом.
SubQ в настоящее время внедряется в избранной группе партнеров по дизайну, а более широкое распространение моделей — охватывающих окна контекста от 2 до 12 миллионов токенов — запланировано на конец этого года. Настоящая проверка наступит, когда независимые лаборатории и разработчики получат доступ, что позволит им тщательно проверить, преобразуются ли беспрецедентные заявления SubQ об эффективности и точности в поддающуюся проверке производительность в реальном мире. Только тогда мир ИИ узнает, действительно ли это представляет собой 1000-кратный прорыв в вычислениях.
Часто задаваемые вопросы
Что такое SubQ и почему он важен?
SubQ — это новая большая языковая модель (LLM) от стартапа Subquadratic. Он важен, потому что построен на архитектуре 'sub-quadratic sparse attention', которая, как утверждается, решает проблему огромных вычислительных затрат, ограничивающих размер окна контекста традиционных моделей-трансформеров, таких как GPT и Claude.
Как работает sub-quadratic sparse attention (SSA)?
В отличие от стандартного 'плотного' внимания, где каждое слово взаимодействует с каждым другим словом (что масштабируется квадратично), SSA учится выявлять и вычислять внимание только для небольшого количества действительно важных связей между словами. Это делает обработку чрезвычайно длинных текстов значительно более эффективной.
Является ли SubQ лучше, чем модели вроде GPT-4 или Claude Opus?
SubQ не разработан, чтобы быть лучше во всем. Хотя он хорошо показывает себя в некоторых тестах на рассуждение, его основное преимущество — это чрезвычайная эффективность и производительность в задачах с очень длинным контекстом (например, анализ всей кодовой базы). Для коротких запросов у устоявшихся моделей все еще может быть преимущество в общих возможностях.
Подтверждены ли заявления SubQ о производительности независимыми источниками?
Не полностью. Хотя сторонняя компания, Appen, по сообщениям, проверила некоторые бенчмарки на уровне ядра, многие впечатляющие заявления о производительности и стоимости исходят из собственного тестирования Subquadratic. Более широкое сообщество ИИ ожидает независимой, реальной проверки, поскольку модель еще не является общедоступной.
