Кратко / Главное
Кампания шепота превращается в рев
Волна жалоб разработчиков недавно захлестнула социальные сети, такие как X и Reddit, подробно описывая резкое снижение возможностей Claude в кодировании. Программисты, полагающиеся на помощника ИИ, сообщили о заметном падении качества его выдачи, что вызвало повсеместное разочарование. Многие описывали Claude как внезапно «поглупевшего», испытывающего трудности с задачами, с которыми он ранее справлялся с легкостью.
Это явление не ново; пользователи часто замечают ухудшение, или «нерфинг» ИИ, в производительности модели задолго до официальных признаний. Разработчики, досконально знакомые с тонкостями Claude, немедленно почувствовали изменения. Их анекдотические свидетельства рисовали последовательную картину того, как некогда надежный инструмент становился забывчивым и повторяющимся, особенно во время сложных сеансов кодирования.
Это коллективное беспокойство превратилось в подтверждение, когда Anthropic наконец опубликовала постмортем, подтверждающий широко распространенные подозрения. Разочарование сообщества разработчиков сменилось чувством «мы же говорили», поскольку компания признала конкретные изменения, повлиявшие на производительность Claude. Эта прозрачность, хотя и запоздалая, предоставила важную информацию о первопричинах проблем.
Объяснение Anthropic подробно описывало три основные причины ухудшения в Claude Code: - Снижение стандартных усилий по рассуждению с «высокого» до «среднего» было направлено на уменьшение задержки, непреднамеренно жертвуя возможностями в более сложных задачах кодирования. - Критическая ошибка приводила к тому, что Claude отбрасывал свои предыдущие рассуждения после каждого простоя, из-за чего он казался забывчивым и повторяющимся. - Измененный системный промпт, предназначенный для уменьшения многословности, значительно повлиял на качество кода, вынудив Anthropic отменить изменение.
Важно отметить, что проблемы с производительностью проистекали из «обвязки» (harness) – конкретной реализации, известной как Claude Code – а не из самой базовой модели Claude. Это различие подчеркивает хрупкость всего конвейера ИИ, где, казалось бы, незначительные корректировки могут иметь глубокие последствия. Критики быстро поставили под сомнение протоколы тестирования Anthropic, посчитав «безумием» развертывать такие значимые изменения без тщательной предрелизной проверки.
Беспрецедентное признание Anthropic
Затем Anthropic опубликовала «Обновление по недавним отчетам о качестве Claude Code», продемонстрировав беспрецедентный уровень откровенности. Этот пост в блоге напрямую касался растущего хора жалоб разработчиков, подробно описывая точные технические ошибки, которые действительно ухудшили производительность Claude Code. Публичное признание компании стало выдающимся примером корпоративной прозрачности в часто непрозрачной индустрии ИИ, установив новый стандарт подотчетности.
Постмортем тщательно детализировал три основные причины наблюдаемого снижения возможностей кодирования: - Anthropic призналась в изменении стандартных усилий по рассуждению для Claude Code с «высокого» на «среднее». Это изменение, реализованное для уменьшения задержки и ускорения модели, непреднамеренно скомпрометировало ее эффективность в более сложных задачах программирования, требующих более глубокого аналитического мышления. - Возникла критическая ошибка, из-за которой Claude отбрасывал свои старые рассуждения после каждого простоя. Этот фундаментальный недостаток делал модель забывчивой и повторяющейся, серьезно влияя на многоходовые диалоги кодирования, где сохранение контекста имеет первостепенное значение. - Модификация системного промпта, изначально предназначенная для уменьшения многословности и оптимизации вывода, неожиданно настолько сильно ухудшила качество кода, что Anthropic пришлось быстро отменить изменение, признав его пагубное воздействие.
Члены сообщества ИИ и технические СМИ отреагировали мощной смесью удивления, критики и неохотного уважения. В то время как некоторые, например, создатель Better Stack, выразили шок по поводу того, что такие изменения не были адекватно протестированы перед развертыванием, многие похвалили радикальную прозрачность Anthropic. Эта прямота резко контрастировала с тем, как другие технологические гиганты обычно справляются с аналогичными проблемами снижения производительности своих флагманских продуктов.
Большинство компаний, особенно в конкурентной сфере ИИ, часто прибегают к расплывчатым заявлениям, объясняют проблемы «меняющимися моделями использования» или полностью молчат, оставляя пользователей гадать, а разочарованию — нарастать. Решение Anthropic обнародовать свои внутренние ошибки, однако, значительно укрепило доверие. Оно подтвердило разочарования разработчиков, а не отвергло их, признав ощутимое влияние на их рабочие процессы. Этот уровень открытости устанавливает новую, более высокую планку честности и подотчетности в быстро развивающейся области разработки и развертывания моделей ИИ.
Ошибка №1: Жертвуя интеллектом ради скорости
Первая признанная ошибка Anthropic заключалась в критической корректировке бэкенда в Claude Code. Инженеры изменили стандартное усилие рассуждения модели, понизив его с «высокого» до «среднего». Это изменение напрямую определяло вычислительные ресурсы и внутренние циклы обработки, которые Claude выделял на каждый запрос пользователя, фактически уменьшая его аналитическую глубину.
Переход на «среднее» рассуждение означал, что Claude выполнял меньше внутренних итераций и менее сложную декомпозицию проблем. Хотя явной целью было уменьшение latency и ускорение времени отклика, это стремление к скорости непреднамеренно пожертвовало тщательностью модели. Разработчики заметили заметное снижение качества и accuracy сгенерированного кода, особенно в сценариях, требующих сложного логического мышления.
Этот операционный сдвиг является примером классического инженерного компромисса между скоростью и производительностью, дилеммы, особенно сложной для больших языковых моделей. В отличие от
Ошибка №2: Баг Amnesia
Посмертный анализ Anthropic выявил вторую критическую ошибку: «Баг Amnesia», серьезный недостаток, поразивший Claude Code. Этот коварный дефект приводил к тому, что ИИ полностью отбрасывал свои предыдущие рассуждения и контекст разговора после любого периода бездействия пользователя. Каждый раз, когда разработчик приостанавливал свое взаимодействие – даже ненадолго – Claude Code сбрасывал свою кратковременную память, фактически «забывая» все обсуждаемое и вынуждая начинать все заново.
Этот провал в памяти оказался разрушительным для продуктивности разработчиков и непрерывности рабочего процесса. Представьте себе программиста, работающего с Claude Code над отладкой сложной проблемы, затрагивающей несколько файлов, предоставляющего обширный контекст и архитектурные детали.
После короткого перерыва — возможно, чтобы запустить набор тестов или обратиться к документации — ИИ возвращался, лишенный каких-либо воспоминаний. Он часто требовал повторного объяснения проблемы, повторял уже отклоненные решения и генерировал код, игнорируя часы предыдущих инструкций, что приводило к огромному разочарованию и напрасной трате усилий.
Основная полезность любого продвинутого ИИ-помощника критически зависит от его способности поддерживать conversation context и постоянную память. Без этой непрерывной нити понимания ИИ не может постепенно развиваться на основе предыдущих взаимодействий или предлагать связные, развивающиеся решения сложных проблем. Неспособность Claude Code сохранять свои «старые рассуждения» после периода бездействия фундаментально подорвала его потенциал для совместной работы, превратив его в разочаровывающий, без сохранения состояния чат-бот.
Ошибка №3: Промпт, который дал обратный эффект
Третья ошибка Anthropic заключалась в, казалось бы, безобидном изменении в системном промпте Claude Code. Разработчики изменили промпт с явной целью уменьшить многословность модели, надеясь получить более краткие и прямые результаты кода. Эта корректировка была направлена на оптимизацию взаимодействия и предоставление ответов без излишней разговорной воды.
Однако это небольшое изменение вызвало огромный, непредвиденный цепной эффект, классический пример эффекта бабочки в prompt engineering. Незначительное изменение исходных инструкций резко изменило интерпретационную структуру модели, что привело к значительному ухудшению качества и правильности генерируемого кода. Модель, теперь ограниченная новым промптом, испытывала трудности со сложными логическими структурами и тонкими задачами кодирования, с которыми ранее справлялась с легкостью.
Влияние на качество кода стало настолько серьезным, что Anthropic не оставалось ничего другого, кроме как вернуть системный промпт в исходное состояние. Этот быстрый откат подчеркивает крайнюю хрупкость продвинутых, тонко настроенных систем ИИ. Даже незначительные корректировки базовых инструкций могут дестабилизировать производительность, выявляя сложные зависимости внутри этих комплексных нейронных сетей.
Опыт Anthropic подчеркивает тонкий баланс, необходимый в prompt engineering. Разработчики не могут просто предполагать, что небольшие изменения приведут к предсказуемым результатам; вместо этого, тщательное тестирование и валидация критически важны для предотвращения непредвиденных регрессий. Этот инцидент служит ярким напоминанием о том, как легко может разрушиться тщательно откалиброванная производительность модели ИИ.
Дело не в модели, а в Harness
Посмертный анализ Anthropic выявил критический нюанс: проблема возникла не в самой базовой модели Claude. Разработчики столкнулись с ухудшением работы Claude Code, отдельного приложения, построенного на основе базового ИИ. Это различие имеет первостепенное значение для понимания истинного источника недавних проблем с производительностью.
«Harness» в области больших языковых моделей представляет собой сложный слой, который оптимизирует базовую модель для конкретной задачи. Он включает в себя тщательно подобранную комбинацию компонентов, предназначенных для управления поведением и выводом модели. Эти элементы имеют решающее значение для адаптации общих возможностей LLM к специализированным областям.
Ключевые компоненты harness включают усовершенствованные system prompts, которые определяют персону и инструкции модели, и механизмы извлечения для доступа к внешней информации. Конфигурации, такие как уровень 'reasoning effort' по умолчанию, также находятся в ведении harness. Три ошибки, которые признала Anthropic — изменение 'reasoning effort', баг с амнезией ('amnesia bug') и измененный system prompt — были модификациями этого Claude Code harness, а не базовой модели.
Представьте эту взаимосвязь как высокопроизводительный гоночный автомобиль. Мощный двигатель представляет собой базовую модель Claude, по своей сути способную и надежную. Тогда harness — это специфическая трансмиссия, настройка подвески и аэродинамическая конфигурация, тщательно настроенные для конкретной гоночной трассы и стиля вождения. Плохо настроенная трансмиссия или неправильные настройки подвески серьезно затруднят производительность автомобиля, даже если двигатель останется безупречным.
Ошибки Anthropic были сродни настройке автомобиля без надлежащего тестирования, что привело непосредственно к наблюдаемому снижению качества кодирования. Базовый движок Claude остался неизменным, но его рабочие параметры в рамках Claude Code harness были скомпрометированы. Более подробную информацию о том, как эти конфигурации влияют на производительность LLM, читайте в статье Mystery solved: Anthropic reveals changes to Claude's harnesses and operating instructions likely caused degradation | VentureBeat.
Этот инцидент подчеркивает сложность развертывания передового ИИ. Даже незначительные корректировки операционного harness LLM могут значительно изменить его воспринимаемый интеллект и полезность, подчеркивая критическую необходимость тщательного тестирования перед широким развертыванием. Возможности основной модели никогда не подвергались сомнению; под вопросом было ее конкретное применение.
Реакция сообщества: «Безумие», что они это не протестировали
Возмущение технического сообщества быстро последовало за признанием Anthropic. Видео Better Stack «Claude ACTUALLY got dumber...» подчеркнуло это настроение, при этом создатель выразил недоверие тому, что Anthropic развернул такие значительные изменения без тщательного тестирования. «Для меня это своего рода безумие, что они не тестируют эти вещи, прежде чем внедрять эти изменения», — говорилось в видео, отражая широкое разочарование разработчиков.
Эта острая критика подчеркивает фундаментальное ожидание среди профессионалов: инструменты, на которые они полагаются в своей работе, требуют стабильности. Для разработчиков, интегрирующих ИИ в сложные системы, неожиданное снижение производительности критически важного API, такого как Claude Code, оказывается неприемлемым. Непосредственное влияние на производительность и сроки проектов становится значительным.
Давно укоренившийся в Silicon Valley принцип «move fast and break things» сталкивается с растущим вниманием, когда применяется к базовым инструментам ИИ. Хотя быстрая итерация стимулирует инновации, выпуск непроверенных изменений, которые ставят под угрозу основную функциональность для профессиональных пользователей, рискует подорвать доверие. Модель, подобная Claude Code, разработанная для сложных задач программирования, требует иного стандарта развертывания.
Признанные ошибки Anthropic — изменение значения по умолчанию reasoning effort с «high» на «medium», появление ошибки, стирающей память после бездействующих сессий, и изменение системного запроса для уменьшения многословности — представляют собой значительные модификации. Каждое изменение, если бы оно было адекватно протестировано, должно было выявить результирующее снижение производительности до публичного выпуска. Проблемы были с «harness», Claude Code, а не с основной моделью, но пользовательский опыт оставался нарушенным.
Однако разработка эффективных регрессионных тестов для генеративного ИИ представляет собой уникальные проблемы. В отличие от традиционного программного обеспечения, где результаты в значительной степени детерминированы, модели ИИ производят разнообразные, неточные ответы. Автоматизированные метрики оценки часто с трудом улавливают тонкие изменения качества в генерации кода, что делает оценки с участием человека необходимыми, но ресурсоемкими.
Несмотря на эти сложности, сообщество ожидает надежной валидации для ИИ профессионального уровня. Этот инцидент подчеркивает необходимость передовых методологий тестирования, которые могут выявлять тонкие, но критические регрессии в недетерминированных системах. Восстановление доверия разработчиков требует большего, чем извинения; оно требует демонстративного обязательства по обеспечению строгой гарантии качества.
Мир развертывания LLM с высокими ставками
Признание Anthropic выходит за рамки единичной ошибки продукта; оно отражает системную проблему, охватившую всю индустрию ИИ. Компании, работающие на переднем крае разработки больших языковых моделей, сталкиваются с огромным давлением, требующим инноваций, постоянных обновлений и новых функций для поддержания конкурентного преимущества на быстро развивающемся рынке. Эта беспощадная гонка вооружений в области ИИ часто отдает приоритет скорости над исчерпывающей проверкой.
Такие быстрые циклы разработки часто приводят к внедрению изменений без всестороннего тестирования в реальных условиях, характерного для традиционного программного обеспечения. Следовательно, непредвиденные регрессии могут проскользнуть, напрямую влияя на пользовательский опыт и доверие. Инцидент с Claude Code служит ярким напоминанием о высоких ставках.
Оценка истинного влияния этих непрерывных обновлений представляет собой серьезную проблему. Оценка производительности сложных LLM, особенно для творческих и тонких задач, таких как кодирование, не поддается простым, количественно измеримым показателям. Хотя академические бенчмарки, такие как MMLU или HumanEval, предлагают базовые идеи, они редко охватывают сложные, многоэтапные и зависящие от контекста сценарии, с которыми разработчики сталкиваются на практике.
Традиционное тестирование программного обеспечения часто опирается на четкие критерии прохождения/непрохождения или конкретные показатели производительности. Однако для LLM «лучшая» модель может демонстрировать тонкие улучшения в креативности или связности, в то время как «худшая» может страдать от снижения логической последовательности или увеличения галлюцинаций, все из которых трудно объективно количественно оценить в масштабе. Это делает бенчмаркинг производительности LLM для практических приложений невероятно сложным.
Корректировки Anthropic для Claude Code, такие как изменение значения по умолчанию reasoning effort с «high» на «medium» и модификация системного промпта для многословности, иллюстрируют эту сложность. Эти, казалось бы, незначительные изменения конфигурации, предназначенные для оптимизации задержки или пользовательского опыта, привели к значительному ухудшению качества кодирования. Выявление таких тонких регрессий до широкого развертывания требует сложных, контекстно-ориентированных систем оценки, которые индустрия все еще пытается усовершенствовать.
«Безумная» реакция сообщества на процедуры тестирования Anthropic подчеркивает более широкую уязвимость отрасли. Разработка надежных, динамичных систем оценки, способных по-настоящему отражать полезность LLM в ее обширном и часто субъективном пространстве приложений, остается критической, нерешенной проблемой для каждого крупного разработчика ИИ.
Уроки из промаха Anthropic
Недавний промах Anthropic с Claude Code предлагает бесценный мастер-класс для всей индустрии ИИ. Команды разработчиков должны усвоить, что, казалось бы, незначительные изменения конфигурации или промптов могут привести к значительному снижению производительности и разочарованию пользователей. Изменение значения по умолчанию reasoning effort с «high» на «medium», реализованное для скорости, значительно снизило возможности для сложных задач кодирования.
Более того, коварный «Amnesia Bug» нарушал непрерывность сеанса, заставляя Claude отбрасывать свои старые рассуждения после каждой неактивной сессии, что делало взаимодействия забывчивыми и повторяющимися. Даже, казалось бы, безобидное изменение system prompt, предназначенное для уменьшения многословности, значительно повлияло на качество кода, что привело к немедленному откату. Эти три фактора в совокупности иллюстрируют глубокую хрупкость развертываний LLM при внесении, казалось бы, небольших изменений.
Крайне важно, что инцидент подчеркивает различие между базовой фундаментальной моделью и ее конкретной прикладной оболочкой. В то время как основная модель Claude оставалась надежной, оболочка 'Claude Code' пострадала из-за этих внешних модификаций. Это подчеркивает необходимость тщательного, многостороннего тестирования каждого слоя продукта ИИ, выходящего за рамки внутренних бенчмарков и включающего обширную качественную обратную связь от пользователей.
Как справедливо отметил создатель видео Better Stack, кажется «безумием» внедрять столь значимые изменения без всесторонней проверки. Компании не могут полагаться исключительно на количественные метрики; реальные рабочие процессы и ожидания разработчиков требуют тщательного предпроизводственного тестирования в различных сценариях. Это включает оценку долгосрочных моделей взаимодействия, управление сессиями и тонкие изменения в поведении ИИ во время простоя сессии, обеспечивая надежность перед публичным выпуском.
В конечном итоге, решение Anthropic опубликовать 'An update on recent Claude Code quality reports' является мощным свидетельством долгосрочной ценности корпоративной прозрачности. Признание ошибок и четкое объяснение технических просчетов, даже под пристальным вниманием общественности, формирует большее доверие, чем сокрытие информации. Другим разработчикам ИИ следует принять этот пример, понимая, что открытость, хотя и трудна, создает устойчивость и доверие у их пользовательской базы. Для получения дополнительной информации о реакции отрасли прочтите Anthropic admits it dumbed down Claude when trying to make it smarter - The Register.
Путь Claude к искуплению
Anthropic быстро приняла меры для устранения проблем, преследовавших Claude Code. Они полностью отменили изменение системного промпта, которое значительно повлияло на качество кода, и внедрили критическое исправление для «бага амнезии», из-за которого Claude терял свои рассуждения после простоя сессий, что делало его забывчивым и повторяющимся. Компания также обязалась восстановить значение 'reasoning effort' по умолчанию с 'medium' до 'high' для Claude Code, отдавая приоритет возможностям над чистой скоростью, и пообещала постоянные улучшения производительности и стабильности.
Восстановление доверия сообщества разработчиков, которое полагается на точность, требует большего, чем просто исправление ошибок. Anthropic должна внедрить более надежные протоколы предварительного тестирования перед развертыванием, устраняя «безумное» отсутствие тестирования, подчеркнутое видео Better Stack. Это, вероятно, включает тщательное внутреннее A/B-тестирование, «канареечные» развертывания для критических изменений и выделенный внутренний цикл обратной связи для разработчиков, чтобы выявлять регрессии до публичного выпуска.
Помимо внутренних процессов, Anthropic необходимо восстановить свою внешнюю репутацию надежности. Это требует повышенной прозрачности через подробные журналы изменений и публичные дорожные карты для Claude Code. Прямое взаимодействие с сообществом разработчиков через специализированные форумы, технические брифинги или открытые бета-программы будет иметь решающее значение для укрепления нового доверия и демонстрации проактивного подхода к обеспечению качества.
В конечном итоге, инцидент с Claude подчеркивает ключевой сдвиг в ландшафте ИИ. Разработчики больше не рассматривают помощников по кодированию на основе ИИ как экспериментальные новинки; эти инструменты теперь являются незаменимыми компонентами их ежедневного рабочего процесса, требующими непоколебимой надежности и последовательности. Будущий успех поставщиков LLM зависит от их способности обеспечивать предсказуемую, высококачественную производительность, формируя глубокое чувство доверия у своей пользовательской базы.
Часто задаваемые вопросы
Почему производительность Claude в кодировании ухудшилась?
Anthropic подтвердила три причины: они снизили стандартное «усилие рассуждения» (reasoning effort) для уменьшения задержки, ошибка приводила к тому, что он «забывал» разговоры после периодов бездействия, и изменение системного промпта, разработанное для уменьшения многословности, негативно повлияло на качество кода.
Стала ли основная модель Claude на самом деле глупее?
Нет. По данным Anthropic, сама основная модель Claude не деградировала. Проблемы были специфичны для «Claude Code» harness, который представляет собой систему и промпты, обернутые вокруг модели для задач программирования.
Какие изменения внесла Anthropic, чтобы исправить Claude Code?
Anthropic отменила изменение системного промпта, которое ухудшило качество кода, и исправила ошибку, вызывавшую потерю памяти. Они также работают над балансировкой задержки и производительности для настройки «усилия рассуждения» (reasoning effort).
Что такое AI «harness»?
AI harness относится к конкретному набору конфигураций, системных промптов и инструкций, которые используются для адаптации общей базовой модели под конкретную задачу, такую как кодирование. Это прикладной уровень поверх основной модели.