TL;DR / Key Takeaways
Ваш ИИ-агент терпит неудачу (и вы это знаете)
Вы уже знаете шаблон. Попросите ИИ-агента переименовать переменные, написать модульный тест или подвести итоги запроса на слияние — и это выглядит потрясающе. Попросите его взять на себя полную реализацию функции, охватывающей десятки файлов, несколько сервисов и неделю итераций, и он тихо распадается на незавершенные ветки, сломанные тесты и галлюцинирующие API.
Разработчики все равно продолжают испытывать свои силы. Они создают "автономные" коды-агенты, соединяют их с GitHub, Jira и тестовым инструментом, а затем наблюдают, как система замирает на круговых рефакторах или забывает требования, которые видела 20 минут назад. Показатели производительности выглядят отлично на простых задачах, но в реальных репозиториях агенты все еще упускают крайние случаи, ухудшают производительность или игнорируют ограничения безопасности.
Вот почему Vibe Coding остается в основном мифом. Фантазия выглядит так: опишите функцию в нескольких предложениях, укажите агенту ваш монорепозиторий, и вернитесь к чистому PR, зеленому CI и проходящим интеграционным тестам. На практике модели отклоняются от спецификаций, теряют долгосрочные цели и слишком подстраиваются под то, что последним было зафиксировано в их контекстном окне.
Под капотом сырая мощь языковых моделей перестала накапливаться с такой бешеной скоростью примерно после 2023 года. Большиe контекстные окна и лучшие подсказки помогли, но так и не решили основные проблемы с надежностью: хрупкое использование инструментов, распад контекста и отсутствие реального представления о состоянии на уровне проекта. Инженерия подсказок и контекста подняли потолок; они не изменили архитектуру.
На горизонте появляется новый уровень, призванный исправить это. Agent harnesses оборачивают модели с явным контролем над памятью, инструментами и подсистемами, превращая свободные чат-боты в системы, которые могут удерживать план в течение часов или дней. Проекты, такие как долгосрочный harness от Anthropic, DeepAgent от LangChain и линейный harness от Коула Меди, все указывают в одном направлении.
Эта серия исследует этот переход: как архитектуры на основе привязок наконец сделали агентов надежными для серьезной работы, где они все еще дают сбой и что понадобится, чтобы истинное кодирование настроения перестало быть демонстрацией и стало стандартом.
От запросов к программам: крупный сдвиг ИИ
Инженерия запросов началась как народная наука общения с GPT‑3. Разработчики одержимо работали над отдельными запросами, изменяя формулировки, примеры и форматы ответов, чтобы получить лучшие ответы из одной интеракции на 2,048 токенов. Единицей работы являлся один запрос, один ответ, без памяти, без плана.
С появлением GPT-3.5 и GPT-4 с чатами и большими окнами контекста это мышление изменилось. Инжиниринг контекста взял верх: проблема перестала быть "какой идеальный запрос?" и превратилась в "что модели нужно увидеть сейчас из 100+ предыдущих сообщений и мегабайтов документов?" Команды боролись с разложением контекста, juggling системными подсказками, сводками и каналами поиска, лишь бы поддерживать целостность сессии.
Контекстное проектирование рассматривает сессию ИИ как тщательно подобранный разговор. Вы определяете, какие спецификации, фрагменты кода и решения остаются активными в окне контекста, а какие перемещаются в долгосрочное хранилище. Инструменты, такие как векторный поиск, иерархические резюме и системные сообщения на основе ролей, стали стандартом просто для управления одним длительным чатом.
Агент использует механизм, который выводит прогресс на новый уровень. Вместо оптимизации одного запроса или одной сессии, механизм организует множество сессий, часто между несколькими агентами, чтобы завершить задачу, занимающую несколько часов или дней. Думайте о «доставке этой функции от начала до конца», а не о «рефакторинге этой функции».
Современный агент управляет несколькими движущимися частями одновременно: - Множество сессий LLM с разными ролями - Общие и индивидуальные хранилища памяти - Инструменты для выполнения кода, тестов и внешних API - Контрольные точки, откаты и этапы проверки с участием человека
Проекты, такие как Эффективные системы поддержки долгосрочно работающих агентов от Anthropic, LangChain DeepAgents и система Linear Agent от Коула Мэдина, следуют этой схеме. Один агент планирует, другой пишет код, третий проводит тесты, а система поддержки отслеживает состояние на протяжении десятков или сотен вызовов. Единицей работы становится граф рабочих процессов, а не журнал чата.
Критически важно отметить, что это эволюция, а не амнезия. Программы по-прежнему зависят от точного проектирования запросов внутри каждого вызова и строгого управления контекстом внутри каждой сессии. Они просто рассматривают эти навыки как структурные примитивы в более крупной программе, где настоящая задача заключается в координации множества несовершенных агентов в единую, надежную систему.
Почему плато мощности LLM меняет все
Мощность сырой модели больше не соответствует научно-фантастической графике, которую люди представляли в 2020 году. Переход от GPT-3 к GPT-4 ощущался как скачок от "интересной демонстрации" к "я мог бы использовать это на работе", но GPT-4.1, 4.1-mini и Claude 3.5 Sonnet больше похожи на последовательные компромиссы в задержке, стоимости и надежности, чем на новый класс машинного интеллекта.
Бенчмарки это подтверждают. Академические рейтинги начали насыщаться, и вендоры тихо отказываются от хвастовства результатами MMLU в пользу маркетинга “токенов в секунду” и “запросов на доллар”. Мы все еще получаем более совершенные модели, но график выглядит скорее линейным, чем экспоненциальным.
Исследователи ИИ все чаще вслух говорят о том, что эра масштабирования уступает место эре архитектуры. Использование в 10 раз большего количества графических процессоров для трансформера приносит все меньшую отдачу с каждым годом, поэтому реальное внимание переключается на то, как вы структурируете системы вокруг модели: планировочные циклы, слои памяти, маршрутизаторы инструментов, оценщики и контрольные точки с участием человека.
Этот сдвиг объясняет, почему Anthropic публикует детальные инженерные исследования, такие как Эффективные системы управления длительными агентами, и почему OpenAI, Google и Meta все стремятся к «агентам», а не просто к большим языковым моделям. Передовая технология переходит от одномоментного непрозрачного вызова модели к организованным сетям вызовов с явным состоянием и управлением.
Агент управляет центральным звеном этой новой архитектуры. Он выполняет не самое привлекательно, но критически важное задание по разбиению запроса на функцию на этапы, координации подагентов, управлению памятью и решению, когда следует обратиться к человеку, а не фантазировать о возможном пути вперед.
Вместо того чтобы молиться о том, чтобы GPT-5 волшебным образом отправлял идеальные pull-запросы, команды могут разработать испытательные системы, которые:
- 1Применяйте стандарты кодирования и тестовые шлюзы
- 2Сохранять и извлекать контекст проекта на уровне масштаба
- 3Распределите задачи между агентами-планировщиками, программистами и рецензентами.
- 4Обнаружение циклов, регрессий и дрейфа спецификаций.
Эта управляющая поверхность — это тот момент, когда разработчики вновь обретали влияние. Вы не можете изменить процесс обучения OpenAI, но вы можете решить, сколько агентов вы запустите, как они будут общаться, с какими инструментами работать и когда они должны остановиться и оправдаться.
Агенты-харнессы, а не сырые веса моделей, становятся основным холстом для инноваций. Следующий «прыжок в 10 раз» в возможностях будет выглядеть не как новая модельная карта, а как надежная, отлаживаемая архитектура агента производственного уровня.
Система управления, desperately нужная вашему агенту
Сырые вызовы LLM выглядят впечатляюще на демонстрации, но они ведут себя больше как мощное, пугливое животное, чем как надежный коллега. Пояс агента — это система управления, охватывающая эту модель, превращающая стохастическое предсказание текста во что-то, что начинает напоминать надежное программное обеспечение. Она определяет, как агент запоминает информацию, с какими инструментами он взаимодействует, как он сотрудничает с другими агентами и как остается сосредоточенным на цели в течение часов или дней, а не только в течение одного сеанса общения.
Представьте себе языковую модель как скакового жеребца: быструю, сильную и совершенно не заинтересованную в вашем списке задач. Упряжь — это уздечка, поводья и седло, которые сдерживают эту мощь, направляя её в предсказуемое движение. Без этого вы получаете код, написанный на основе настроения, и воображаемые API; с этим вы получаете кодирующего агента, который действительно может реализовать функцию, запустить тесты и обновить документацию, не сбиваясь на фанфик.
Первое задание системы управления: управление памятью. LLM по-прежнему работают в рамках конечных контекстных окон — 128K токенов, может быть, 200K, если за это заплатить — поэтому система управления решает, что оставить, что обобщить и что забыть. Системы, такие как Manus и собственные системы Anthropic, активно борются с «разложением контекста», удаляя устаревшие инструкции и используя извлечение для подключения только к тем фрагментам репозитория, тикетам и предыдущим решениям, которые важны в данный момент.
Вторая работа: контроль инструментов. Современные агенты используют все, начиная от файловых систем и заканчивая CI-пайплайнами, а сырой модел легко выполнит команду `rm -rf` в вашем репозитории, если подсказка натолкнет на это. Хартии регулируют эти возможности: они решают, когда использовать инструмент, проверяют результаты и обеспечивают соблюдение правил, таких как «тесты должны проходить перед коммитом» или «никогда не касайтесь продакшена без человеческого одобрения».
Третье, система координирует специализированные подагенты. Вместо одной гигантской команды, пытающейся "осуществить всю функцию", вы видите такие паттерны, как: - Агент-планировщик, который превращает спецификацию в задачи - Агент-программист, который редактирует файлы - Агент-тестировщик, который запускает и интерпретирует тесты - Агент-ревизор, который следит за стилем и архитектурой
В конечном итоге, хранилища поддерживают долгосрочные задачи на правильном пути. Они отслеживают глобальное состояние, выявляют циклы, устанавливают контрольные точки и выделяют моменты принятия решений для человека. Обычный вызов LLM не имеет состояния и амнезийный; высокий уровень агент с хранилищем может работать через сотни вызовов, приостанавливать работу на ночь и возобновлять её на следующий день, точно зная, какой крайний случай привел к сбою последнего теста.
Под Капотом: Анатомия Современного Упряжи
Современные системы управления обычно открываются с помощью инициализирующего агента, который ведет себя скорее как руководитель проекта, чем как чат-бот. Он читает спецификации пользователя, проверяет репозиторий или окружение и создает конкретный план: этапы, инструменты для использования, файлы для редактирования и четкие критерии успеха. Собственная система управления Anthropic описывает это как разделение на "инициализатор–кодер", где инициализатор определяет рамки проекта до того, как будут внесены любые изменения в код.
Как только инициализатор завершает работу, управление передается агенту задач, который собственно и выполняет работу. Этот агент работает в цикле, выполняя один шаг, используя инструменты, а затем отбрасывая большую часть своего контекстного окна. Каждая итерация цикла восстанавливает лишь необходимое состояние из памяти, чтобы модель не потонула в 200-сообщениях чата.
Этот цикл обычно выглядит как жесткая система управления, а не как свободный разговор. Агент задач: - Извлекает текущий срез плана и соответствующие файлы из памяти - Предлагает изменение или действие - Запускает инструменты (тесты, линтеры, компиляторы, HTTP-вызовы) - Записывает результаты и различия, затем повторяет процесс
Ограждения окружают каждую итерацию. Предварительная проверка подтверждает, что следующее действие агента соответствует плану и разрешённым инструментам; постпроверка проверяет результаты на соответствие таким ограничениям, как «тесты должны проходить» или «нет секретов в журналах». Системы, такие как LangChain DeepAgent и OutSystems Agent Workbench, встраивают эти проверки в виде политик, которые могут завершаться с ошибкой или требовать проверки человеком.
Контрольные точки придают системе каркас. После значительного прогресса — скажем, успешного прохождения тестового набора или завершённой интеграции API — система фиксирует состояние: позицию плана, хэши файлов, выводы инструментов и ключевые решения. Если агент впоследствии начнет «галлюцинировать» или испортит файл, система может вернуться к последней успешной контрольной точке, вместо того чтобы догадываться, что пошло не так.
Передачи перемещают контекст между специализированными агентами. Агент-планировщик может передать структурированную графическую задачу агенту по программированию; агент по программированию может передать патч с планом тестирования агенту-рецензенту. Каждая передача использует строгие схемы, чтобы агенты не передавали неопределённые формулировки, а машинно-проверяемое состояние.
Ничто из этого не будет работать без серьезного слоя памяти. Современные системы полагаются на RAG для кода и документов, долговременные хранилища для решений и сжатие памяти через обобщение или векторные embeddings, чтобы бороться с потерей контекста. Человеко-в-контуре точки останова располагаются сверху этого стека, приостанавливая цикл для получения одобрений на рискованные действия — миграции схем, платежные потоки или рефакторинг, чувствительный к безопасности — чтобы "кодирование настроения" не привело к тихой катастрофе.
План антропного для непрекращающихся кодовых агентов
Anthropic тихо опубликовала один из самых четких планов для серьезных, долгосрочных код-агентов: приспособление, которое превращает Claude в нечто более похожее на младшего инженера, чем на болтливую автозаполнение. Их длительное агентское приспособление не гонится за новизной; оно систематизирует планирование, выполнение и проверку, чтобы модель могла выполнять многочасовые задачи кодирования, не теряя суть.
В центре находится агент инициализации, который ведет себя как технический руководитель. Он поглощает широкую спецификацию, анализирует репозиторий, перечисляет ограничения и выдает структурированный план: конкретные задачи, списки изменяемых файлов, заметки о зависимостях и критерии приемки. Этот план становится контрактом для отдельного агента-кодера, который выполняет грязную работу по редактированию файлов, вызову инструментов и запуску тестов.
Система управления от Anthropic рассматривает состояние как первостепенную задачу, а не как второстепенное замечание. Вместо того, чтобы сваливать все в одно огромное контекстное окно, она поддерживает: - Каноническую графу задач и контрольный список - Истории и различия на уровне файлов - Резюме предыдущих вызовов инструментов и тестовых запусков
Инициализатор записывает это состояние; кодер считывает его части, а затем добавляет новые артефакты, которые могут быть получены при будущих вызовах. Эта схема позволяет системе перемещаться по множеству небольших, сфокусированных контекстных окон, при этом ведя себя как одна непрерывная сессия.
Инструменты связывают всё воедино. Кодирующий агент не фантазирует о редактировании файлов; он вызывает явные инструменты для: - Чтения и записи файлов - Запуска модульных и интеграционных тестов - Выполнения линтеров и форматтеров
Каждый вызов инструмента возвращает структурированный вывод, который система фиксирует, обобщает и избирательно возвращает в контекст. Проваленные тесты, например, становятся четкими отчетами об ошибках, которые разработчик должен устранить, прежде чем система отметит задачу как выполненную.
Самопроверка присутствует повсюду. Инициализатор критикует свой собственный план по сравнению с оригинальной спецификацией, кодер оценивает изменения по сравнению с планом, а системы контроля обеспечивают контрольные циклы, которые блокируют дальнейший прогресс, когда тесты завершаются неудачей или появляются пробелы в покрытии. Человеческие контрольные точки могут быть интегрированы в тот же цикл для изменений с высоким уровнем риска.
Дизайн Anthropic почти в точности соответствует общему шаблону подключения: прочная память, явные инструменты, специализированные подагенты и жесткие контрольные петли. Проекты, такие как Linear-Coding-Agent-Harness, отражают ту же модель, которая быстро становится де-факто архитектурой для всех, кто пытается сделать «вибрационное кодирование» чем-то большим, чем просто фокус на вечеринке.
Мечта о 'Vibe Coding' теперь стала 'вроде как' реальностью.
Кодирование с помощью "vibe" всегда казалось чем-то из научной фантастики: описываешь функцию "vibe", идешь за кофе, возвращаешься к готовому pull request. С агентскими наладками эта фантазия становится ближе к реальности, но только "в некотором роде". Теперь вы можете нацелить агента на репозиторий Git, и он будет планировать, редактировать, запускать тесты и итеративно работать в течение часов без необходимости внимательно следить за каждым нажатым клавишем.
Упаковки делают это возможным, оборачивая сырой модель в управляющую систему. Хорошо спроектированная упаковка управляет инструментами (git, тестовые запускатели, линтеры), отслеживает состояние при десятках или сотнях вызовов и обеспечивает контрольные точки. Долгосрочная упаковка кодирования Anthropic, например, использует инициализирующий агент для установки плана, а затем цикл кодирования и тестирования для выполнения реализации и проверки.
Радуги и ромашки здесь заканчиваются. Полностью автономное кодирование в стиле "вибрации" всё равно обрушается, когда сталкивается с неаккуратным монолитом, отсутствующими тестами или неясными требованиями к продукту. Устройства усиливают ту инженерную дисциплину, которая у вас уже есть; они не заменяют её.
Успех сильно коррелирует с хорошо структурированной кодовой базой и богатым набором инструментов. Агенты, которые действительно надежно выпускают новые функции, обычно работают в средах с: - Высоким покрытием тестами и быстрым обратным связью (секунды, а не минуты) - Строгими линтерами и форматировщиками (ESLint, Prettier, Ruff) - Ясными границами модулей и типовыми API (TypeScript, mypy)
Человек в процессе остается непременным условием для всего, что имеет значение. Наиболее эффективные настройки кодировки атмосферы включают людей на критических контрольных точках: валидация первоначального плана, утверждение архитектурных изменений, обзор рискованных миграций и объединение запросов на внесение изменений. Примеры использования системы Cole Medin ориентированы на явные этапы проверки, а не на слепые автообъединительные конвейеры.
Итак, vibe coding снова в моде, но в качестве рабочего процесса, а не волшебного трюка. Вы берете на себя рутинную работу — редактирование файлов, шаблоны, рефакторинг — оставаясь в курсе намерений, архитектуры и компромиссов. Фантазия о агентах «настрой и забыла» может подождать; практическая версия доступна уже сегодня, если вы спроектируете обвязку и кодовую базу, которые этого заслуживают.
Две огромные преграды для ИИ-агентов
Агенты, обернутые в упряжки, все же сталкиваются с жесткой проблемой: согласование во времени. Короткие подсказки могут соответствовать требованиям, но 500-ступенчатые марафоны кодирования — нет. Даже при использовании циклов инициализации и кодирования от Anthropic или DeepAgent от LangChain модели беззвучно интерпретируют требования, переосмысляют модели данных или "оптимизируют" ограничения, которые были неприемлемы в исходном задании.
Сдвиг выравнивания проявляется в тонких деталях. Кодировщик может заменить REST на GraphQL в середине рефакторинга или игнорировать ограничения по производительности, как только тесты проходят. Защитные механизмы добавляют рамки — контрольные точки, самоанализ, регрессионные тесты — но у никого нет надежного способа сохранить большую, стохастическую модель в соответствии с архитектурой и спецификацией продукта на протяжении часов или дней использования инструментов.
Ещё труднее: согласование должно пережить изменяющийся контекст. Требования эволюционируют в процессе работы, люди вмешиваются с частичным обратным связью, а внешние системы выходят из строя. Современные системы приближают намерения с помощью эвристик — «не трогать авторизацию», «никогда не редактировать эту директорию», «проводить тесты каждые N шагов» — но при этом они всё ещё упускают более высокие цели, такие как «сохранять паритет пользовательского опыта» или «сделать этот код соответствующим идиоматике».
Затем возникает вопрос стоимости создания серьезной инфраструктуры. Система промышленного класса требует: - Постоянного состояния и хранилищ данных - Оркестрации инструментов (редакторы, тестовые раннеры, CI, тикеты, наблюдаемость) - Проверок безопасности, сценариев отката и участия человека в процессе проверки - Специализированных оценщиков и метрик по доменам
Этот стек больше похож на новый продукт, чем на подсказку. Долговечная система Anthropic охватывает множество агентов, этапов планирования и уровней валидации; система линейного агента Коула Мецина соединяет Git, трекеры задач и выполнение кода. Ничего из этого не приходит "бесплатно" из SDK.
На данный момент не существует универсального стандарта для универсальных систем управления. Финансовый технологический бэкенд, дизайн-система на React и пайплайн для исследовательских данных требуют различных инструментов, различных проверок безопасности и различных определений «завершенности». Такие фреймворки, как LangChain DeepAgent, и платформы, такие как OutSystems Agent Workbench, указывают на возможное сближение, но все еще требуют значительной настройки для каждой команды и области.
Вместо разрушителей сделок эти два препятствия обозначают следующий рубеж. Теперь дело заключается не в незначительно более умной модели, а в осведомленных о контексте повторно используемых системах крепления, которые делают кодирование настроений скучно надежным, а не время от времени волшебным.
С чего начать: Характеристики в дикой природе
Начните с того, чтобы наметить своего агента как состояние в рабочем процессе, а не как волшебную подсказку. Запишите конкретные этапы: загрузка спецификаций, планирование, реализация, тестирование, рефакторинг, развертывание и обзор. Ваше окружение становится слоем, который перемещает состояние между этими этапами, решает, когда вызывать LLM и когда вовлекать человека.
Для практических примеров DeepAgents от LangChain — это самое доступное место для экспериментов. DeepAgents демонстрируют, как объединить планировщики, исполнители и критики, при этом использование инструментов и память связаны в цикл, а не в одном вызове. Вы можете проследить, как они управляют многоступенчатыми задачами, такими как рефакторинг по всему репозиторию или интеграция многослужебных API.
Собственный агент линейного кодирования Коле Медина на GitHub является еще более определённым шаблоном. Он оборачивает кодирующего агента вокруг задач Linear, предоставляя вам конкретные потоки для чтения тикетов, планирования изменений, редактирования файлов и публикации обновлений обратно в Linear. Вы получаете реальные шаблоны для контрольных точек, обработки ошибок и восстановления, когда модель отклоняется от спецификации.
Если вы работаете в корпоративном стеке, OutSystems Agent Workbench поднимает вас на следующую ступень абстракции. Он включает в себя защитные механизмы, возможности мониторинга и утверждения с участием человека, чтобы вы могли определять политики, такие как "никогда не трогать продуктивную среду без проверки" или "требовать прохождения тестов перед слиянием". Команда Outshift компании Cisco описывает подобные подходы для производственных систем в статье Как предприятия могут использовать ИИ-агентов для более умной автоматизации.
Рассматривайте дизайн harness как проблему архитектуры программного обеспечения, а не как манипуляции с подсказками. Определите долгосрочное состояние вашего агента (граф задач, файлы, заявки), ваши инструменты (доступ к репозиторию, CI, поиск документации) и ваши меры безопасности (тесты, линтеры, человеческая проверка). Затем закодируйте эти состояния и переходы как явные, вместо того чтобы надеяться, что модель «помнит».
Практический стартовый рецепт выглядит следующим образом: - Агент-планировщик, который преобразует спецификации в список задач - Агент-исполнитель, который редактирует код и запускает инструменты - Агент-ревьюер, который критически оценивает различия и результаты тестов - Контрольный цикл, который решает, когда необходимо перепланировать или эскалировать
Как только вы начнете так думать, проектирование запросов становится деталью реализации внутри оболочки, которая на самом деле отвечает за надежность.
Будущее сопровождается, а не подсказывается.
Инженерия подсказок имела хороший успех, но центр притяжения сместился. Сила теперь заключена в оркестрации: агентские механизмы, которые управляют памятью, инструментами, подс-agentами и контрольными точками человека, так что единичный вызов LLM становится согласованной, долгосрочной системой, а не ловким трюком автозавершения.
Мы наблюдаем, как ИИ повторяет тот же путь, что и само программное обеспечение. Первоначальные «скрипты» вручную настроенных запросов уступают место надежной системной инженерии: планировщики, проверщики, регрессионные тесты, телеметрия и откат, все это обwrapped вокруг модели, которая может быть всего на 10–20% лучше с каждым поколением вместо 10 раз.
Устраните два основных препятствия — долгосрочное выравнивание и достоверность архитектуры — и агенты перестанут быть игрушками и начнут управлять целыми рабочими процессами. Хорошо спроектированный инструмент может, в принципе, запустить полный цикл роста, воронку по привлечению пользователей от начала до конца или многоเดือนное переоснащение кода длиной в 500,000 строк, оставаясь в рамках заданных спецификаций.
Это момент, когда «AI-кодировщик» превращается в «члена AI-инженерной команды». Тот же паттерн распространяется на научную работу: обзоры литературы, кампании по моделированию и планирование экспериментов, связанные между собой с помощью тысяч вызовов LLM, при этом система контролирует ограничения, фиксирует решения и выводит на поверхность только критически важные задачи для человека.
Разработчики, которые преуспеют в эту эпоху агентности, не будут те, кто запоминает хитрости запросов; это будут те, кто проектирует системы управления. Ваша задача будет состоять не в общении с моделью, а в создании планировщиков, критиков, маршрутизаторов инструментов и контрольных точек, способных работать автономно в течение дней или недель.
Начните с малого, но начните сейчас. Используйте долговечный х Harness от Anthropic, х Harness от Cole Medin’s Linear agent, DeepAgent от LangChain или паттерны контекстного проектирования от Manus и создайте х Harness для одного болезненного рабочего процесса, которым вы управляете сегодня.
Затем настройте его, сломайте и закалите. Следующая волна рычагов в ИИ принадлежит тем, кто управляет моделями, а не тем, кто просто дает им команды.
Часто задаваемые вопросы
Что такое harness для AI-агента?
Агентская подсистема представляет собой систему, построенную вокруг ИИ-агента для управления памятью, контроля инструментов, координации подсистем и поддержания состояния, что позволяет ему надежно выполнять сложные задачи, требующие длительного времени.
Как отличается агентный интерфейс от проектирования запросов?
Инженерия подсказок оптимизирует отдельные взаимодействия с LLM. Агентская оболочка представляет собой полную архитектуру, которая координирует множество взаимодействий и контекстных окон для завершения более крупного проекта, используя методы инженерии подсказок и контекста в своей структуре.
Возможна ли «кодировка атмосферы» с помощью агентов?
Агентские Гарнитуры приближают нас к 'кодированию атмосферы' (реализация функций без вмешательства) благодаря повышению надежности агентов. Тем не менее, это не решена полностью; сложные задачи все еще требуют проверки с участием человека и хорошо продуманных ограничений.
Почему сбруи для агентов становятся важными именно сейчас?
Поскольку сырая мощность языковых моделей начинает стабилизироваться, инновации смещаются к системам, построенным вокруг них. Структуры обеспечивают необходимую основу для раскрытия следующего уровня возможностей для автономных агентов корпоративного уровня.