DeepSeek V3.2: Открытый ИИ, который обошёл GPT-5 в математике

💡

Кратко / Главное

Открытый искусственный интеллект только что достиг достижения, которое ранее было доступно лишь таким гигантам, как OpenAI и Google. Вот почему новая модель DeepSeek меняет правила игры для разработчиков и AI-агентов навсегда.

Открытый исходный код: выстрел, услышанный по всему миру

Назовите это моментом DeepSeek: открытая лаборатория только что сделала то, к чему триллионные гиганты пытались достигнуть на протяжении многих лет. DeepSeek V3.2-Specialee, максимизированный по способности рассуждения вариант новой семьи V3.2, стал первой открытой моделью, которая завоевала золото на Международной математической олимпиаде (IMO). Не «критерии в стиле IMO», не «вопросы, подобные Олимпиаде» — фактическая золотая медаль за выполнение задач IMO 2025.

Этот результат выводит DeepSeek в диапазон, который ранее был зарезервирован для закрытых систем, таких как GPT‑5 High и Gemini 3.0 Pro. Согласно анализу Мэтью Бермана, GPT‑5 High набирает 94,6, Gemini 3.0 Pro достигает 95, а DeepSeek V3.2-Specialee выходит вперед с 96, хотя и с использованием значительно большего количества токенов. Сырое capability теперь доступно из репозитория, который вы можете клонировать, а не из черного ящика API, защищенного ожиданием в очереди и NDA.

На протяжении десятилетия история становилась всё более жесткой: только такие компании, как OpenAI, Anthropic или Google DeepMind — с закрытыми данными, специализированными процессорами и миллиардами долларов на обучение — могли достичь передового края. DeepSeek только что внес заметную трещину в этот рассказ. Модель имеет полностью открытые веса, лицензирована MIT и обучена на небольшой доле вычислительного бюджета, который, как сообщается, тратят эти лаборатории.

Демократизация здесь не просто модное слово; это исполняемый код. Исследователи могут настраивать V3.2-Specialee в нишевых областях математики, национальных учебных планах или наборах теорем для научных исследований, не прося доступ к корпоративным версиям. Стартапы могут интегрировать его reasoning в продукцию — репетиторство, формальную верификацию, финансовое моделирование — и поставлять по всему миру без привязки к оплате за токены.

Доступ на этом уровне изменяет то, кто может продвигать границы. Теперь математический кружок средней школы может использовать тот же современный движок рассуждений, который только что блестяще справился с Международной олимпиадой по математике, испытывать новые стили задач и публиковать свои собственные эталоны. Университетские лаборатории могут адаптировать модель, исследовать её недостатки и предлагать новые режимы обучения — то, что было невозможно с закрытыми коммерческими системами.

Символическое изменение может иметь даже большее значение, чем повышение в рейтинге. Модель с золотой медалью IMO больше не равняется "строго секретной, закрытой и централизованной". Теперь она включает в себя "открытую, пригодную для форков и самодостаточную", что переопределяет, что считается передовой моделью, и кто сможет создать следующую.

Сравнительный анализ нового чемпиона

Иллюстрация: Бенчмаркинг нового чемпиона

Бенчмаркинг начинается с жестких испытаний: задачи уровня олимпиады и соперничающие вопросы и ответы. На внутреннем воспроизведении задач Международной математической олимпиады (IMO) 2025 года DeepSeek V3.2 Specialee демонстрирует золотую медаль, решая задачи в стиле олимпиады и многослойную геометрию на уровне, который ранее требовал закрытых моделей, таких как GPT-5 High и Gemini 3.0 Pro. На GPQA Diamond, самом сложном публичном бенчмарке научного мышления, Specialee набирает 85.7, сравниваясь с результатом GPT-5 High и отставая от Gemini 3.0 Pro с показателем 91.9, при этом выступая в качестве полностью открытой модели.

Мышление — это не только математика и физика. На Live Codebench, который выполняет сгенерированный код против скрытых юнит-тестов, линейка DeepSeek распределяется: 83.3 для обычной модели V3.2 «мыслитель», 84.5 для GPT-5 High и впечатляющие 88.7 для V3.2 Specialee. Эта разница важна, потому что Live Codebench наказывает за вымышленные API и ошибки в логике, показывая, может ли модель на самом деле создавать работающий код, а не просто говорить об этом.

AMIE 2025, эталонный тест для агентного рассуждения, становится основным достижением DeepSeek. DeepSeek V3.2 Specialee набирает 96 баллов, опережая GPT-5 High с 94.6 и Gemini 3.0 Pro с 95. AMIE объединяет многоступенчатое планирование, вызовы инструментов и задачи с длительным горизонтом, поэтому преимущество в ~1–1.5 балла в верхней категории означает меньшее количество безрезультатных планов и больше завершенных задач без человеческой помощи.

Specialee покупает эти выигрыши с помощью токенов. Графики сравнительных показателей показывают количество токенов в скобках, где Specialee часто использует на 2–3 раза больше токенов за запрос, чем обычная модель V3.2, и заметно больше, чем GPT-5 High или Gemini 3.0 Pro. DeepSeek в основном увеличивает вербозность цепочки размышлений и использование внутреннего рабочего пространства, жертвуя эффективностью токенов ради максимальной точности в конфигурации «агенты на первом месте».

Этот компромисс изменяет способ его использования. Для высокозатратных задач — автоматизированного доказательства теорем, мульти-программ для путешествий, анализа соблюдения норм в 500-страничных контрактах — дополнительные токены Specialee приводят к меньшему количеству тонких ошибок и более надежному пошаговому рассуждению. Для повседневного общения, обобщения или легкого программирования модель V3.2 ближе к качеству GPT-5 High и Gemini 3.0 Pro, при этом используя гораздо меньше токенов, что делает её экономически выгодным выбором и оставляет Specialee на случай, когда вы просто обязаны быть правыми.

Секретный ингредиент: Переосмысление 'внимания'

Внимание раньше было тем элементом трансформеров, который вы увеличивали, а не переосмысляли. DeepSeek V3.2 изменяет это с помощью DeepSeek Sparse Attention (DSA) — нового механизма внимания, который решает основную проблему современных LLM, а не просто увеличивает количество графических процессоров.

Традиционное внимание имеет вычислительные затраты для каждой пары токенов в последовательности. При длине контекста L модель вычисляет оценку внимания примерно для L × L пар, что выражается в математике как сложность O(L²). Удвиньте контекст, и вы увеличите затраты в FLOPs, памяти и задержке в четыре раза.

Для моделей с длинным контекстом этот квадратичный барьер ужасен. Переход от контекстного окна в 32K к 1M токенов не просто добавляет в 30 раз больше работы; наивное плотное внимание потребовало бы порядка 1,000 раз больше вычислительных ресурсов. Вот почему контекстные окна продвигаются вперед в последние годы, а не взрываются.

DSA снижает эти затраты, делая внимание разреженным и выборочным. Вместо того чтобы каждый токен взаимодействовал с каждым другим токеном, каждый токен взаимодействует только с ограниченным набором из K «релевантных» токенов. Сложность падает с O(L²) примерно до O(L × K), где K остается ограниченным, даже когда L растет.

Думайте об этом как о замене комнаты, где все разговаривают со всеми, на тщательно отобранное расписание встреч. Токены по-прежнему видят то, что имеет значение, но модель пропускает комбинаторный взрыв неуместных взаимодействий. DeepSeek утверждает, что это сохраняет точность в сценариях с длинным контекстом, одновременно сокращая количество операций с плавающей запятой на шаг.

На практике такая почти линейная масштабируемость позволяет DeepSeek расширять контекстные окна далеко за пределы диапазона 128К–200К, не превращая процесс вывода в научный проект. Вывод с длинным контекстом может выполняться на 2–3 раза быстрее с 30–40% меньшим потреблением памяти, согласно данным самого DeepSeek, связанным с Introducing DeepSeek-V3.2-Exp. Эта эффективность напрямую сказывается на более низкой цене API за миллион токенов.

DSA также без проблем взаимодействует с архитектурой смешанных экспертов DeepSeek. V3.2 использует 671 миллиард параметров, из которых 37 миллиардов активны при выводе, а разреженное внимание гарантирует, что эти активные эксперты не тонут в накладных расходах на внимание. Больше вычислительных ресурсов затрачивается на фактическое рассуждение, а не на ведение учёта.

Это не просто косметическое изменение «внимание — это всё, что вам нужно». DSA переписывает модель затрат, которая управляла дизайном трансформеров с 2017 года, превращая длинный контекст из роскошной функции в нечто, что вы действительно можете развернуть в масштабах. DeepSeek не просто настроил более крупную модель; он изменил способ, которым модель воспринимает мир.

Открытие окна в 1M токенов (без разрушения бюджета)

DeepSeek Sparse Attention не только выигрывает в бенчмарках; он полностью открывает экономическую составляющую контекстного окна, которая тихо ограничивала большинство крупных моделей. Сократив сложность внимания с O(L²) до примерно O(L·K), DSA резко снижает стоимость просмотра сотен тысяч токенов, делая окно в 1 миллион токенов жизнеспособным без затрат на суперкомпьютер.

Традиционное плотное внимание заставляет каждый токен взаимодействовать с каждым другим токеном, поэтому удвоение контекста более чем в четыре раза увеличивает вычислительные затраты и память. Эта квадратичная проблема — причина, по которой GPT-4, GPT-5 и Gemini 3.0 Pro осторожно обходят длинные контексты с ограничениями в 128K–200K токенов или полагаются на хрупкие приемы, такие как разбивка и поиск.

DSA разрушает эту модель, отбирая, какие токены взаимодействуют друг с другом, сохраняя при этом важную информацию. Инженеры DeepSeek направляют внимание через меньший набор критических позиций, поддерживая точность на длинных контекстных тестах, в то время как снижают как FLOPs, так и VRAM.

На реальной аппаратуре этот сдвиг приводит к 2–3-кратному увеличению скорости вывода для длинных контекстов и снижению потребления памяти на 30–40% для запросов на миллион токенов, согласно внутреннему профилированию DeepSeek. MoE с 671 миллиарда параметров и 37 миллиардами активных параметров становится практичным для работы на 700 ГБ VRAM в FP8, вместо того чтобы переходить в область фантастических кластеров.

Эти достижения меняют то, что вы можете реально использовать в модели. Целые кодовые базы — миллионы токенов TypeScript, Python и YAML — помещаются в одну сессию для рефакторинга, аудита безопасности или архитектурных обзоров, а не представляют собой лабиринт частичных резюме. Многотомные романы, исследовательские корпуса или годы журналов Slack становятся единым контекстом вместо фрагментированных запросов.

Юридическая работа может почувствовать влияние в первую очередь. Окно в миллион токенов охватывает десятки контрактов, цепочек писем и предыдущих юридических материалов одновременно, позволяя проводить обоснованные анализы по нескольким документам, что сегодня требует сложных RAG-пайплайнов и индивидуальной поисковой инфраструктуры.

Эффективность также отражается в счете. С долгосрочными вычислениями, больше не растущими квадратично, DeepSeek может снизить стоимость ввода до $0,07 за миллион токенов с учетом кэширования, обходя закрытые модели на основе чистой производительности на доллар. Такая цена делает рабочие процессы с большим контекстом — ранее доступные только для бюджетов масштаба FAANG — доступными для стартапов и индивидуальных разработчиков.

Менее расточительное внимание также означает меньшее количество GPU-часов, затраченных на каждый запрос, что имеет значение по мере увеличения энергетического воздействия ИИ. Модель с редким вниманием и контекстом в 1 миллион, которая демонстрирует уровень рассуждений, сопоставимый с GPT-5, при использовании значительно меньших вычислительных ресурсов на токен, не только дешевле; это более устойчивый подход к масштабированию следующего поколения базовых моделей.

Создано для Агентов: Автоматизация на пике возможностей

Иллюстрация: Создано для агентов: Автоматизация в самом разгаре

Здесь слово "созданный" — не преувеличение: DeepSeek V3.2 существует прежде всего как агент-движок, а не просто как модель чата. Начиная с архитектуры и заканчивая учебной программой, всё ориентировано на многопользовательское использование инструментов, долгосрочное планирование и тесные взаимодействия с внешними системами.

DeepSeek создала крупномасштабную синтетическую платформу для достижения этой цели. Инженеры развернули более 1,800 уникальных сред и сгенерировали около 85,000 сложных запросов специально для агентных задач, охватывающих такие паттерны, как многопользовательская оркестрация, хореография API и восстановление после сбоев инструментов.

Эти среды больше напоминают рабочие процессы в производстве, чем учебную QA. Подумайте о "предоставлении отчета о расходах через три внутренних сервиса" или "приоритизации проблемы на GitHub, запуске тестов и открытии запроса на слияние", а не просто "вызове калькулятора один раз". Каждое предложение заставляет модель рассуждать о состоянии, выбирать инструменты и адаптироваться, когда результаты оказываются неубедительными или неполными.

Обучение с подкреплением находится в центре этого стремления. DeepSeek выделил более 10% своего бюджета на вычисления перед обучением на постобучение в стиле RL, что является необычно высоким соотношением в мире, где обучение с подкреплением часто кажется второстепенным элементом, добавленным к масштабным контролируемым запускам.

Этот бюджет финансирует масштабируемую основу RL, в которой модель итеративно действует в более чем 1800 окружениях. Успешные траектории вознаграждаются, паттерны неудач наказываются, и политика постепенно смещается к надежному следованию инструкциям в шумных, реальных условиях.

Следование инструкциям здесь означает больше, чем просто выполнение отдельной команды. Установка с обучением с подкреплением оптимизирует многократные цели: соблюдение схем инструментов, поддержание ограничений на разных этапах и согласование противоречивых инструкций из различных системных сообщений, пользовательских вводов и выходов инструментов.

Качество использования инструмента значительно улучшается. DeepSeek V3.2 надежно: - Выбирает правильный инструмент из множества - Заполняет аргументы корректно набранными, проверенными данными - Соединяет несколько инструментов, не теряя промежуточное состояние

Это поведение значительно сокращает разрыв между открытыми моделями и замкнутыми фронтовыми системами в оценках агентов, даже если DeepSeek всё ещё отстает от лучших проприетарных стеков в некоторых рейтингах вызовов инструментов. Крайне важно, что это реализовано с открытыми весами и лицензией MIT, что имеет значение, если вы хотите глубоко интегрировать это в свою инфраструктуру.

В сочетании с DeepSeek Sparse Attention и контекстным окном на 1 миллион токенов, это обучение агента превращает V3.2 в нечто большее, чем демонстрацию рассуждений. Он становится практической основой для автоматизации, способной прочитать вашу полную базу знаний, вызывать внутренние API и удерживать план в голове достаточно долго, чтобы фактически завершить задачу.

Дилемма эффективности против мощности

Эффективность против мощности — это не абстрактный компромисс в DeepSeek V3.2; это буквально закодировано как два отдельных SKU. V3.2 — это «мыслящая» модель, настроенная на экономное потребление токенов, при этом сравнимая с GPT-5 High и Gemini 3.0 Pro по повседневным нагрузкам. V3.2-Specialee — это вариант «максимального мышления», режим высокой вычислительной мощности, который расходует значительно больше токенов, чтобы извлечь максимум возможностей разумного анализа.

На бенчмарках это разделение проявляется очевидно. V3.2 показывает точность, близкую к GPT-5 High, при этом часто использует меньше токенов на задачу, что делает его разумным выбором для чата, помощи в кодировании и агентного оркестрации, где важны задержка и стоимость. V3.2-Specialee нацеливается на победы в рейтингах, демонстрируя результаты, такие как 96 на AMI 2025, при этом сильно увеличивая количество токенов по сравнению как с V3.2, так и с GPT-5 High.

Эффективность токенов становится настоящим отличием. Собственные графики DeepSeek показывают, что обычная модель V3.2 остается «очень эффективной по токенам» по сравнению с GPT-5 High и Gemini 3.0 Pro на тех же запросах. V3.2-Specialee, напротив, запускает огромные цепочки размышлений, обменивая бюджеты токенов на более надежное пошаговое решение задач, которые напоминают задачи Международной математической олимпиады (IMO) и IOI.

Для разработчиков выбор четко соотносится с рисками и бюджетом. Если вы внедряете: - Чат-боты для клиентов - Внутренние помощники - Агентов поддержки с высоким объемом запросов

вы используете V3.2 и сохраняете предсказуемые затраты на каждую беседу.

Если вы проводите: - Научные исследования с высокими ставками - Формальную верификацию и анализ безопасности - Сложное многоэтапное планирование агентов

Вы платите за V3.2-Specialee только за самые сложные вызовы, так же как команды резервируют кластеры A100 для финальных тренировочных запусков. Смешанные развертывания могут направлять 90–95% трафика на V3.2 и автоматически эскалировать крайние случаи на Specialee, что является шаблоном, который DeepSeek специально разработал для фреймворков агентов, основанных на DeepSeek-V3 GitHub Repository.

Свобода оборудования: Выход из замков поставщиков

Аппаратное обеспечение, возможно, является самым тихим преимуществом DeepSeek. V3.2 поставляется с первоклассной поддержкой не-NVIDIA акселераторов, включая китайские чипы от Biren, Moore Threads и Huawei Ascend, а также резервные варианты на базе процессоров x86 и ARM. Собственный стек DeepSeek ориентирован на CUDA, ROCm и новые совместимые с CUDA китайские платформы с практически равными реализациями ядер.

Этот выбор превращает V3.2 в политический объект так же, как и в технический. Страны, под давлением экспортных ограничений США, теперь могут запускать модель уровня передовой технологии, лицензированную MIT, на отечественном кремнии. Китайские провайдеры облачных услуг могут комбинировать DeepSeek с отечественными акселераторами и полностью обойти узкие места A100/H100.

Для DeepSeek аппаратный плюрализм — это стратегия выживания. Зависимость от единственного поставщика, такого как NVIDIA, означает, что каждое улучшение модели зависит от дорожной карты, ценовой политики и геополитики другого человека. Путем валидации китайских акселераторов на этапе запуска, DeepSeek привлекает региональные облачные сервисы, которые не могут стандартизироваться на NVIDIA, даже если бы этого хотели.

Геополитически это подрывает влияние США на глобальную архитектуру ИИ. Вашингтон может ограничить экспорт H100; он не может так же просто ограничить открыющую модель, которая эффективно работает на любых тензорных ядрах, которые поставляет местный производитель. Это делает DeepSeek важным элементом для более устойчивых, устойчивых к санкциям цепочек поставок ИИ от Шэньчжэня до Сан-Паулу.

Кривые затрат тоже изгибаются. Когда модель хорошо работает на разнородном оборудовании, облачные провайдеры могут извлечь выгоду: - Старые видеокарты NVIDIA - Графические процессоры AMD Instinct - Локальные ускорители с благоприятными субсидиями

Эта смесь снижает цены за токен и уменьшает зависимость от дефицитных высококачественных GPU.

Для разработчиков аппаратная возможность означает доступ. Стартап в Джакарте может арендовать оставшиеся A40, техническая лаборатория в Берлине может нацелиться на MI300, а финтех-компания в Мумбаи может протестировать на процессорах, прежде чем перейти к региональным ускорителям. Ставка DeepSeek проста: освободите модель от монокультуры GPU, и остальная часть мира позаботится о масштабировании за вас.

Истинная сила лицензии MIT

MIT в карточке модели тихо перестраивает силовые динамики ИИ. DeepSeek V3.2 поставляется не только с открытыми весами, но и под полной лицензией MIT — теми же ультрапозволительными условиями, которые лежат в основе таких проектов, как инструменты Linux, React и SQLite. Никаких ограничений на использование, никаких тонкостей в духе «только для исследований», никаких переходов на платный уровень при увеличении масштабов.

Большинство "открытых" ИИ сегодня идет с оговоркой. Лицензии, такие как у Llama или OLMo, часто ограничивают коммерческое использование, запрещают конкурирующие услуги или регулируют внедрение в чувствительных областях. MIT меняет эту игру: вы можете копировать, модифицировать, донастраивать, перепродавать или внедрять DeepSeek V3.2 в продукт, который сам остается закрытым, без доли дохода и без согласовательных процессов.

Для стартапов это устраняет самую затратную статью в бизнес-плане. Вместо оплаты 2–10 долларов за миллион токенов поставщику API, команда может развернуть DeepSeek V3.2 на своих собственных GPU или на более дешевых китайских ускорителях, оплачивая только оборудование и операционные расходы. Компания, обрабатывающая 50 миллиардов токенов в день, может сэкономить миллионы долларов в год, заменив вызовы GPT-5 на внутреннюю систему DeepSeek.

Независимые исследователи получают доступ, который ранее требовал лабораторного пропуска или гранта на облачные вычисления. Загрузки полного веса позволяют: - Индивидуальное предварительное обучение на нишевых корпусах - Агрессивную тонкую настройку для исследований безопасности или согласования - Низкоуровневую модификацию реализации DeepSeek Sparse Attention

Поскольку лицензия позволяет перераспределение, могут формироваться целые экосистемы нижнего уровня. Ожидайте специализированные форки: биомедицинскую V3.2, обученную на клинических записях, юридическую V3.2, настроенную на судебные прецеденты, и робототехническую V3.2, подключённую к системам управления в реальном времени. Ни одной из этих команд не нужно вести переговоры с DeepSeek; они просто отправляют свои решения.

Вот как вы можете получить кембрийский взрыв, а не медленное течение благоприятных интеграций. Облачные провайдеры могут предлагать кластеры DeepSeek с одним кликом. Платформы SaaS могут объединять V3.2-Specialee в качестве белого решения для обработки данных. Сообщества с открытым исходным кодом могут итеративно работать над обучающим стеком, токенизатором или агентным каркасом без необходимости запрашивать разрешение.

MIT не просто делает DeepSeek V3.2 бесплатным. Он делает его форкable, составляемым и экономически неизбежным.

Применение на практике: от кода к креативу

DeepSeek V3.2 не выглядит как игрушка для хобби под капотом. Он использует архитектуру смеси экспертов с 671 миллиардом параметров, но только около 37 миллиардов параметров активируются на каждом конкретном токене. Эта структура MoE позволяет DeepSeek повысить общую емкость для рассуждений, сохраняя при этом вычисления на токен, ближе к одному большому плотному модели.

Эти 37 миллиардов активных параметров все еще создают серьезную нагрузку на аппаратное обеспечение. Для самостоятельного размещения полной модели в FP8 требуется около 700 ГБ VRAM; переход на BF16 увеличивает эту цифру примерно до 1,3 ТБ VRAM. Это территория только для дата-центров, даже не учитывая сетевую и хранилищную инфраструктуру для контрольных точек и кешей KV.

Большинство команд будет использовать DeepSeek через API, но его возможности явно нацелены на тяжелые рабочие нагрузки. В качестве помощника по кодированию V3.2 может не только завершать функции, но и рефакторить многосервисные бэкенды, писать тесты интеграции и рассуждать по всему монорепо с помощью своего расширенного контекстного окна. На Live Codebench вариант V3.2-Specialee достигает 88.7, обгоняя обычную модель с 83.3 и позволяя проводить более глубокую многоуровневую отладку.

Научные и информационные команды получают еще более значительное обновление. Модель Международной математической олимпиады (IMO) золотого уровня может проходить через символические выводы, разрабатывать экспериментальные симуляции и критиковать доказательства, а не просто выдавать конечные ответы. Для аналитики DeepSeek может обрабатывать сырые CSV-экспорты, SQL-схемы и PDF-отчеты, затем предлагать пайплайны, генерировать запросы и согласовывать конфликтующие метрики на сотнях тысяч токенов.

Креативная работа также выигрывает от комбинации долгого контекста и высокого уровня рассуждений. Авторы могут предоставлять целые библейские сезоны, документы с историей или дорожные карты продуктов и просить модель поддерживать тон, непрерывность и развитие персонажей на протяжении текстов размером с роман. Контекстное окно в 1 млн токенов плюс DSA означает, что она может отслеживать отсылки, предсказания и ограничения, которые были бы непосильными для меньших помощников.

Агентные навыки превращают эти таланты в реальную автоматизацию. Инструментальный стек DeepSeek V3.2 позволяет ему управлять API, базами данных и SaaS-приложениями, а не просто описывать, что должно произойти. В паре с такими платформами, как Zapier, недевелоперы могут создавать агентов, которые:

1Следите за входящими сообщениями, суммируйте темы обсуждений и готовьте ответы.
2Синхронизируйте обновления CRM, счета и панели аналитики
3Создавайте, тестируйте и публикуйте контент на социальных каналах.

DeepSeek по сути становится умом, отвечающим за рассуждения в области автоматизации с низким кодом. Для более глубокого технического погружения в то, как DeepSeek Sparse Attention делает это возможным в масштабах, смотрите Data Points: DeepSeek 3.2 переходит к экспериментальному вниманию.

Новая гонка вооружений в сфере ИИ – алгоритмическая

DeepSeek V3.2 появляется как тезис: более умные алгоритмы теперь превосходят грубую мощь. MoE с 671 миллиардами параметров и всего 37 миллиардами активных параметров в моменте вывода только что сравнялся или превзошел GPT-5 High и Gemini 3.0 Pro по основным показателям рассуждений, включая золотой уровень на Международной математической олимпиаде (IMO) 2025 года. Этот результат достигнут при использовании лишь части финансовых средств, которые, как сообщается, тратят лаборатории Frontier на объемные гиганты.

На протяжении десятилетия девиз отрасли был прост: больше данных, больше параметров, больше графических процессоров. Победа DeepSeek свидетельствует о том, что эта тенденция склоняется к убыткам от масштабирования, особенно для задач, требующих серьезного reasoning, таких как GPQA Diamond или Live Codebench. Когда модель с лицензией MIT может набрать 96 баллов на ведущем тесте на reasoning, оставаясь при этом относительно маленькой и эффективной, сырой масштаб начинает выглядеть как тупой инструмент.

DeepSeek Sparse Attention (DSA) показывает, где движется настоящая гонка вооружений. Снижая сложность внимания с O(L²) до примерно O(L × K), V3.2 открывает контексты в 1M токенов без обычного квадратичного налога на вычисления и память. Это превращает моделирование долгих контекстов из "это могут позволить себе только гипермасштабные компании" в нечто, что вписывается в более привычный кластер.

Архитектурная креативность теперь важнее, чем очередной раунд накопления GPU. Микс экспертов, разреженное внимание и динамическое распределение токенов позволяют DeepSeek V3.2 вести себя как модель с более чем 600B параметров, когда это необходимо, при этом расходы на инференс соответствуют среднему диапазону систем. V3.2-Specialee акцентирует внимание на этом, обходя токеновую эффективность ради максимальной глубины рассуждений и при этом существенно экономя ресурсы по сравнению с закрытыми моделями.

Стратегия обучения также переписывается. Сообщается, что DeepSeek потратил более 10% своих вычислительных мощностей до обучения снова на обучение с подкреплением, что является огромным скачком по сравнению с предыдущими поколениями, которые рассматривали RL как нечто второстепенное. Этот бюджет финансировал более 1800 синтетических окружений для агентов и 85 000 сложных подсказок, специально настроенных для использования инструментов и многошаговых агентов, а не для общего чата.

Будущие прорывы, скорее всего, будут выглядеть не как «GPT-6, но больше», а скорее как стратегия DeepSeek: новые схемы внимания, более умная маршрутизация MoE и крупномасштабные синтетические учебные программы, оптимизированные для агентов. Поскольку длиннодействующие, насыщенные инструментами рабочие процессы доминируют в корпоративном принятии, модели, которые могут рассуждать на основе миллиона токенов и оркестровывать API, будут иметь большее значение, чем те, которые просто отлично справляются с предсказанием следующего токена.

DeepSeek V3.2 представляет собой новую философию: алгоритмическое преимущество перед капитальными затратами, открытые веса вместо закрытых экосистем, гибкость аппаратного обеспечения вместо зависимости от единственного поставщика. Передовые лаборатории все еще могут тратить больше всех, но V3.2 доказывает, что они больше не владеют границей идей — и именно там переместилась следующая гонка вооружений.

Часто задаваемые вопросы

Что такое DeepSeek V3.2?

DeepSeek V3.2 — это новая, мощная модель языка с открытым исходным кодом, которая продемонстрировала возможности на уровне современного искусства, особенно в задачах математического и логического рассуждения.

Что делает архитектуру DeepSeek V3.2 уникальной?

Его ключевое новшество — это Sparse Attention DeepSeek (DSA), более эффективный механизм внимания, который значительно снижает вычислительные затраты для длинных контекстов, делая его быстрее и менее требовательным к памяти.

Является ли DeepSeek V3.2 лучше, чем GPT-5?

На конкретных тестах, таких как Международная олимпиада по математике (IMO), вариант V3.2-Speciale превзошел зафиксированные результаты таких моделей, как GPT-5 High и Gemini 3.0 Pro, что делает его передовой моделью в области рассуждений.

DeepSeek V3.2 бесплатен для использования?

Да, модель выпущена с открытыми весами под разрешительной лицензией MIT, что позволяет широкое коммерческое и исследовательское использование без ограничений.

Какие основные версии DeepSeek V3.2?

Он доступен в двух основных вариантах: стандартная модель V3.2, которая является крайне эффективной по использованию токенов, и V3.2-Speciale, вариант с высокой вычислительной мощностью, оптимизированный для достижения максимальной производительности в рассуждениях.

𝕏 in ↑↗

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

Часто задаваемые вопросы

Что такое DeepSeek V3.2?

Что делает архитектуру DeepSeek V3.2 уникальной?

Его ключевое новшество — это Sparse Attention DeepSeek , более эффективный механизм внимания, который значительно снижает вычислительные затраты для длинных контекстов, делая его быстрее и менее требовательным к памяти.

Является ли DeepSeek V3.2 лучше, чем GPT-5?

На конкретных тестах, таких как Международная олимпиада по математике , вариант V3.2-Speciale превзошел зафиксированные результаты таких моделей, как GPT-5 High и Gemini 3.0 Pro, что делает его передовой моделью в области рассуждений.

DeepSeek V3.2 бесплатен для использования?

Какие основные версии DeepSeek V3.2?

DeepSeek только что обошел GPT-5. Вот как.

Кратко / Главное

Открытый исходный код: выстрел, услышанный по всему миру

Сравнительный анализ нового чемпиона

Секретный ингредиент: Переосмысление 'внимания'

Открытие окна в 1M токенов (без разрушения бюджета)

Создано для Агентов: Автоматизация на пике возможностей

Дилемма эффективности против мощности

Свобода оборудования: Выход из замков поставщиков

Истинная сила лицензии MIT

Применение на практике: от кода к креативу

Новая гонка вооружений в сфере ИИ – алгоритмическая

Часто задаваемые вопросы

Что такое DeepSeek V3.2?

Что делает архитектуру DeepSeek V3.2 уникальной?

Является ли DeepSeek V3.2 лучше, чем GPT-5?

DeepSeek V3.2 бесплатен для использования?

Какие основные версии DeepSeek V3.2?

One weekly email of tools worth shipping. No drip funnel.

Часто задаваемые вопросы

Читать далее

Межсетевой экран Deno для ИИ прекращает хаос агентов

Этот AI-агент Создает Бизнесы Для Вас

Проверка реальности ИИ: Бенчмарк, который сломал LLM

Будьте в курсе трендов ИИ