Я веду эти разборы публично. Каждый день в канале - инструменты, рабочие промпты и провалы вайб-кодинга, на которые я налетел сам. Подпишись там, где удобнее:
Что такое контекст-инжиниринг - в одной строке?
Самое короткое определение дал Andrej Karpathy в твите 25 июня 2025 года:
+1 за 'context engineering' вместо 'prompt engineering'. Prompts у людей ассоциируются с короткими описаниями задач, которые они кидают LLM в повседневной работе. А в любом серьёзном промышленном LLM-приложении context engineering - это тонкое искусство и наука: заполнить context window именно той информацией, которая нужна на следующем шаге.
По-русски: «деликатное искусство и наука заполнить контекстное окно ровно той информацией, которая нужна на следующем шаге».
Термин ввёл в оборот за неделю до Karpathy - 18 июня 2025 года - Tobi Lütke, CEO Shopify:
Мне очень нравится термин 'context engineering' вместо prompt engineering. Он точнее описывает ключевой навык: искусство дать весь нужный контекст так, чтобы LLM могла реально решить задачу.
Anthropic закрепили термин в инженерном блоге 29 сентября 2025 года:
Context engineering - это набор стратегий по подбору и поддержанию оптимального набора tokens (информации) во время inference LLM, включая всё, что туда попадает помимо самих prompts.
Та же статья даёт самую важную фразу для смены оптики:
Разработка с языковыми моделями всё меньше про подбор правильных слов и фраз в prompts и всё больше про ответ на вопрос пошире: 'какая конфигурация контекста с большей вероятностью даст нужное поведение модели?'
Главная мысль: контекст это не сообщение, которое ты пишешь. Контекст это весь набор информации, который ИИ видит до твоего сообщения - системный промпт, описания инструментов, история диалога, файлы из памяти, данные, подгруженные через MCP. Промпт - финальный шаг. Контекст-инжиниринг - архитектура всего, что подаётся в окно.
Я налетел на эту разницу на собственных проектах. Piratix AI собрал за 3-4 часа в декабре 2024 года - получилось, потому что заранее накидал в контекст всю продуктовую логику, а не пытался уговорить модель «понять задачу». Smyslokod.ru за апрель 2026 года вышел в 600 тысяч строк кода без регрессий - потому что весь контекст бизнеса разложен по папкам, и Claude по ним ходит точечно, а не съедает репозиторий целиком.
Почему промпт-инжиниринг устарел в 2026?
Сдвиг произошёл за лето 2025 года. Хронология:
- 18 июня 2025: Lütke вводит термин в твите.
- 25 июня 2025: Karpathy усиливает его - пост лёг в основу 13.4k★ GitHub-template
context-engineering-intro. - 27 июня 2025: Simon Willison фиксирует момент в эссе:
Мне нравится. Думаю, этот термин приживётся.
- Simon Willison, https://simonwillison.net/2025/Jun/27/context-engineering/ - Июль 2025: Chroma Research публикует исследование Context Rot - доказательство, что модели деградируют на длинном контексте.
- 29 сентября 2025: Anthropic закрепляет дисциплину инженерным блогом, дают канон из 4 принципов.
- Март 2026: опрос DataHub среди 250 IT-лидеров показывает, что 95% считают контекст-инжиниринг критичным для ИИ-агентов на масштабе.
Context management - это про то, чтобы у AI-агентов был доступ к релевантному, надёжному и проверенному контексту.
- Shirshanka Das, https://datahub.com/news/datahub-releases-state-of-context-management-report/ - Май 2026: Andrej Karpathy переходит в Anthropic. YouTube-каналы фиксируют 6 из 10 топовых видео в нише «вайб-кодинг» с темой «vibe coding is dead» - и термин «context engineering» окончательно вытесняет «prompt engineering» в массовом дискурсе.
Дополнительные цифры из того же DataHub-отчёта подтверждают, что речь не про моду:
- 91% видят управление контекстом приоритетом уровня C-level в горизонте 1-3 года.
- 89% уже выделили бюджет на инфраструктуру контекста в ближайшие 12 месяцев.
- 87% признают, что готовность данных - главный затык для ИИ в проде.
Промпт-инжиниринг при этом не «умер». Он стал базовой грамотностью, как уметь печатать на клавиатуре. А поверх неё выросла дисциплина, без которой ИИ-агент на длинных задачах ломается - контекст-инжиниринг.
Чем контекст-инжиниринг отличается от промпт-инжиниринга: 5 различий
| Аспект | Промпт-инжиниринг | Контекст-инжиниринг |
|---|---|---|
| Что оптимизируем | Формулировку одного запроса | Весь набор токенов: системный промпт + инструменты + история + retrieved данные |
| Горизонт | Один turn | Многие turn-ы плюс переходы между сессиями |
| Главный риск | Модель не поняла запрос | Модель утонула в шуме (context rot) |
| Главный навык | Копирайтинг плюс понимание модели | Архитектура информации и точечное извлечение |
| Источник в проекте | Твой шаблон промпта | CLAUDE.md, файлы памяти, retrieval, субагенты, compaction |
| Метафора | «Как написать запрос» | «Что ИИ знает в момент запроса» |
Karpathy в том же твите 25 июня 2025 года объяснил баланс:
Слишком мало или не в той форме - и у LLM нет нужного контекста для оптимальной работы. Слишком много или нерелевантного - и стоимость LLM растёт, а качество падает.
Контекст-инжиниринг это не «лей больше». Это точная дозировка. Слишком мало - ИИ не знает контекста и галлюцинирует. Слишком много - ИИ тонет в шуме, теряется в середине, и стоит это дороже.
Промпт-инжиниринг отвечал за финальный шаг. Контекст-инжиниринг отвечает за всё, что было до него.
Хочешь не просто понять разницу, а собрать рабочую связку, которая делает Claude стабильным на длинных задачах? Контекст-инжиниринг - один из трёх китов методологии, по которой я собирал smyslokod.ru и Piratix AI. На практикуме за 3 эфира разбираем всю связку: ИИ-клон + Второй мозг + Контекст-инжиниринг. Это 3 кита, без которых ИИ галлюцинирует.
Почему 1М токенов не значит «лей всё»?
Текущие лимиты по моделям Claude:
| Модель | Контекстное окно | На каких планах |
|---|---|---|
| Claude Haiku 4.5 | 200 000 токенов | все планы |
| Claude Sonnet 4.6 | 1 000 000 токенов | Pro+ с usage credits |
| Claude Opus 4.7 | 1 000 000 токенов | Pro, Max, Team, Enterprise |
1M токенов это примерно 2500 страниц текста. Кажется, что можно загрузить всю документацию проекта, всю переписку, все спецификации - и пусть ИИ разбирается. Но Anthropic в своём инженерном блоге пишут прямо:
К контексту нужно относиться как к конечному ресурсу с убывающей отдачей.
Расшифровка: контекст это конечный ресурс с убывающей отдачей. Каждый дополнительный токен не приносит пользы линейно. Чем длиннее окно, тем хуже модель работает с тем, что в нём лежит.
Boris Cherny, head of Claude Code, в интервью Pragmatic Engineer описывает, как сам работает с контекстом:
Дело даже не в deep work, а в том, насколько хорошо я переключаюсь и быстро прыгаю между разными контекстами.
Главный навык на 2026 - не держать всё открытым. Главный навык - быстро переключать узкие контексты, один на одну задачу.
Главная ошибка: больше контекста = хуже результат?
Chroma Research в июле 2025 года протестировали 18 топовых моделей - Claude Opus 4, Sonnet 4, Haiku 3.5, GPT-4.1, GPT-4 Turbo, Gemini 2.5 Pro, Qwen3-235B и другие. Главный вывод:
Модели не используют свой контекст равномерно. Их качество становится всё менее надёжным по мере роста длины входа.
Конкретные цифры из исследования:
- На задаче Repeated Words проблемы у Gemini-моделей стартуют уже на 500-750 словах.
- GPT-4 Turbo показывает локальный пик качества на 500 словах, после этого качество падает.
- Один отвлекающий фрагмент (distractor) снижает качество. Четыре отвлекающих фрагмента обрушивают качество в разы.
Параллельно работает второй эффект - lost in the middle. Его задокументировали в Stanford в 2024 году (Nelson Liu и коллеги, опубликовано в TACL):
Качество обычно выше всего, когда важная информация лежит в начале или конце входного контекста, и заметно падает, когда модели приходится доставать её из середины длинного контекста - даже у моделей, заявленных как long-context.
На практике это значит: если важное правило стоит в середине файла CLAUDE.md - модель его пропустит.
Anthropic в документации по CLAUDE.md рекомендуют ограничение длины:
Цельтесь держать CLAUDE.md в пределах 200 строк - более длинные файлы сжирают больше контекста и снижают соблюдение инструкций.
200 строк это потолок, после которого модель начинает игнорировать правила. Практический рабочий диапазон, который я обкатал на десятках своих проектов - 80-120 строк. Каждая строка свыше начинает конкурировать с теми, которые реально важны. Подробнее про настройку CLAUDE.md под этот предел - в гайде «Как настроить CLAUDE.md в 2026».
5 принципов контекст-инжиниринга по Anthropic
Принцип 1. Контекст - конечный ресурс
Базовая установка, без неё остальные четыре принципа не работают. Anthropic пишут: Общий совет по всем компонентам контекста (system prompts, tools, примеры, история сообщений и т.д.) - продумывать их и держать контекст информативным, но плотным.
Tight - значит «плотно, без воды». Каждый токен в окне должен материально менять решение модели. Если строка в CLAUDE.md звучит как «мы стараемся писать чистый код» - её можно удалять, она не несёт сигнала.
Принцип 2. Just-in-time retrieval
ИИ-агент тянет данные через инструменты на лету, а не пред-загружает всё в окно заранее. Это и есть архитектура Claude Code: вместо векторной базы или индекса - агент использует glob и grep, как живой инженер ищет в коде вручную. Boris Cherny рассказывал, что это открытие пришло из наблюдения за тем, как инженеры искали в коде, когда у них падал IDE.
Когда применять: ты не знаешь заранее, какие фрагменты понадобятся для задачи.
Принцип 3. Structured note-taking
Агент пишет заметки во внешнее хранилище и подгружает их по нужде. В Claude Code это реализовано через memory tool. Anthropic в своём cookbook описывают это так:
Memory - это структурированные заметки: агент пишет в постоянное внешнее хранилище, чтобы отслеживать прогресс по задачам и сессиям, не держа всё в активном контексте.
Когда применять: долгие сессии, переходы между сессиями, накопление знаний о проекте.
Принцип 4. Compaction
Сжатие истории сообщений в саммари при приближении к лимиту. В Claude Code это команда /compact, плюс автоматическая компакция при достижении ~80% от окна. Anthropic пишут:
Compaction сжимает всё окно, когда оно становится слишком большим.
Когда применять: длинные аналитические диалоги, где история переписки превратилась в балласт и забивает окно вместо того чтобы помогать.
Принцип 5. Sub-agent architectures
Специализированные субагенты работают параллельно в своих контекстных окнах и возвращают сжатые сводки в lead-агента. Anthropic пишут:
Subagents помогают сжатию: работают параллельно со своими context windows и одновременно копают разные аспекты вопроса.
Цифры из их собственного internal-теста: lead-агент Claude Opus 4 + субагенты Claude Sonnet 4 дают +90.2% качества против single Claude Opus 4 на research-задачах. Цена: ~15× больше токенов. Вывод: оправдано там, где исход дорогой.
Подробнее про настройку субагентов на Claude Code - в гайде «Subagents для Claude Code».
7 ошибок, которые сжигают токены и ломают Claude Code
| # | Анти-паттерн | Что происходит | Как чинить |
|---|---|---|---|
| 1 | Залил весь README плюс 5 файлов кода в один промпт | Окно забивается на 50% за один turn, дальше быстро упирается в лимит | Memory tool для long-term фактов плюс just-in-time retrieval - пусть Claude сам читает файлы через read_file/glob |
| 2 | CLAUDE.md на 500 строк | Модель пропускает середину файла (lost in the middle), правила не работают | 80-120 строк, императивы, разделы по командам и стилю. Самое важное - в начало и конец |
| 3 | Не запускаю /compact на длинных сессиях | Сессия на 180k токенов, Claude забывает первые сообщения, ты повторяешь контекст руками | /compact руками или авто-компакция по trigger. Признак стресса - индикатор context usage в десктопном Claude |
| 4 | Один Claude на всё | Один агент делает планирование плюс поиск плюс код плюс ревью плюс тесты - окно растёт лавинообразно | Субагенты: каждый в своём контексте, lead собирает сводки. Anthropic дают +90.2% качества на research-задачах |
| 5 | Файлы памяти растут от tool-result-ов | Агент перечитывает один и тот же файл 5 раз, забивая 96% контекста результатами вызовов инструментов | Tool-result clearing: оставляешь 4-6 свежих результатов, остальное чистится. Сам факт вызова сохраняется |
| 6 | Залил весь репозиторий в examples/ папку | ИИ ищет паттерн среди 200 примеров, теряется | 3-7 канонических паттернов в examples/, каждый под конкретный тип задачи |
| 7 | Markdown-список на 200 строк как «план фичи» | После 50-й строки агент перестаёт держать структуру в голове | HTML-артефакт или нумерованный план в отдельном файле. Thariq Shihipar из Anthropic: «HTML - новый markdown» (полная цитата ниже) |
Anthropic в Cookbook описывают конкретный замер для ошибки №5: в их baseline-сессии первый документ из контекста (про C. elegans) формально лежал в окне, но был погребён под 335k токенами. Технически доступен. Фактически модель его не вспомнила. С memory tool ситуация чинится так: файл с заметками aging_model_organisms_comparison.md весит ~3000 токенов вместо повторной загрузки исходного корпуса.
Бытовая аналогия: контекстное окно это рабочий стол. Если на нём лежит 200 документов, ты не найдёшь нужный, даже если он там есть. Контекст-инжиниринг - дисциплина «держи на столе только то, что нужно сейчас, остальное в архиве, и подгружай по запросу».
Как собрать рабочую связку за вечер?
Семь шагов в порядке выполнения:
-
CLAUDE.md на 80-120 строк. В корне проекта. Императивы, не описания. Anthropic в официальной документации рекомендуют принцип
Specificity: правила должны быть конкретными и однозначными, не общими установками. На практике это значит «никогда не используй inline mocks в тестах» работает лучше, чем «мы стараемся писать чистый код». Подробный шаблон - в гайде «Как настроить CLAUDE.md». -
Папка
examples/с 3-7 проверенными паттернами. Один пример на типовой паттерн: вызов API, написание теста, миграция, обработка ошибки. Когда Claude видит паттерн вexamples/- он его повторяет точно. Без примеров - угадывает на ходу. -
PRP-документы под крупные фичи. PRP = Product Requirements Prompt. Один файл на одну фичу: контекст плюс план плюс валидация плюс примеры. Boris Cherny говорит про это коротко:
Как только есть хороший план, реализация почти всегда выходит с одного захода.
-
Memory tool для long-term фактов вне сессии. Claude в Anthropic Cookbook реализовали memory tool как структурированное хранилище заметок. Когда агент в новой сессии возвращается к задаче - он сначала читает заметки, не перечитывает весь корпус.
-
/compactплюс авто-компакция на 80% от лимита. Не дожидайся, пока окно упрётся в потолок. Включи авто-компакцию через настройки или вызывай/compactсам, когда чувствуешь, что сессия пошла по второму кругу. -
Субагенты для research / review / planning. Каждый субагент - в своём контексте, со своим узким промптом. Lead-Claude получает только сводку, не сырьё. Подробнее - «Subagents для Claude Code» и «Skills для Claude Code» (Skills это способ упаковать узкую экспертизу в навык, который Claude применяет автоматически).
-
Just-in-time retrieval вместо предзагрузки. Не заливай весь репозиторий в окно. Пусть Claude сам ищет через
globиgrep. Это и есть архитектура самого Claude Code - по словам Cherny, открытие пришло из наблюдения, как инженеры искали в коде, когда у них падал IDE.
Дополнительные практические правила, которые я обкатал на своих проектах:
- Одна задача - одно окно. Закончил - закрой, открой новое. Не накапливай историю на нескольких задачах подряд.
- Шаблон первой команды нового окна. Один и тот же текст: «Прочитай в порядке
ai-clone/INDEX.md,business/INDEX.md,CLAUDE.md, зону задачи. Подтверди в одну строку. Не начинай задачу, жди следующего сообщения.» Этот шаблон лежит у меня в snippet-редакторе под одну горячую клавишу. - Контекст-окно заполнено >60% - переходи в новое. Промежуточный приём: попроси Claude «напиши промпт, в котором соседний чат продолжит твою задачу, не потеряв смысл», скопируй, открой новое окно.
- Каждая ошибка ИИ - повод дописать правило. Не пиши правила в файлы памяти руками. Скажи Claude «не так, потому что...» в момент ошибки - он сам оформит правило в файл по канону «Rule → Why → How».
Контекст-инжиниринг как 3-й кит методологии
В моей методологии смысло-кодинга это называется «три кита»:
-
ИИ-клон - папка
ai-clone/рядом с кодом проекта. Цифровая проекция твоего мышления: ценности, принципы, тон, стиль, правила, выученные через ошибки. ИИ читает её и работает как ты, а не «в общем по индустрии». -
Второй мозг - папка
business/рядом с кодом. Структура знаний о бизнесе: аудитория, продукты, цели, экономика, маркетинг. ИИ читает её при каждом запросе и работает с контекстом, а не в вакууме. Подробный разбор - в гайде «Второй мозг в Claude Code». -
Контекст-инжиниринг - дисциплина, которая делает первые два кита работающими. Без неё
ai-clone/иbusiness/превращаются в свалку файлов, которые ИИ не может прочитать целиком. Контекст-инжиниринг отвечает за то, как эти папки структурированы (CLAUDE.md как карта, wiki-ссылки между файлами), как ИИ по ним ходит (just-in-time retrieval), как сжимает прошлые сессии (compaction), как разделяет задачи между субагентами.
Связка трёх китов это и есть «Я-компания» - один человек плюс ИИ работают как команда из 10-100 человек. Без одного кита система рассыпается:
- Без ИИ-клона - ИИ пишет в стиле «как все», твой голос теряется.
- Без Второго мозга - ИИ пишет без контекста бизнеса, решения абстрактные.
- Без контекст-инжиниринга - ИИ тонет в шуме на длинных задачах, теряет контекст, галлюцинирует.
Поэтому ставить только CLAUDE.md или только Skills - это полдела. Связка трёх китов работает в production. Один кит без двух других быстро упирается в потолок. Контекст-инжиниринг здесь - архитектурный слой, без которого первые два кита не масштабируются. Это каркас под всю систему.
Что дальше: как развивать дисциплину контекст-инжиниринга?
Три направления, в которых дисциплина движется прямо сейчас:
1. HTML вместо Markdown для планирования. Thariq Shihipar, engineer из команды Claude Code в Anthropic, в подкасте Lenny от 18 мая 2026 года описал переход:
HTML - это новый markdown.
Идея: вместо плоского списка на 200 строк дать агенту визуальный mockup, который он может править кусками. «Throwaway micro-UIs» - одноразовые интерфейсы для редактирования конкретной части плана. Compute уходит на коммуникацию контекста, а написание кода становится побочной задачей.
2. Dreaming - ночное переосмысление сессий. На Code w/ Claude SF 6 мая 2026 года Anthropic показали фичу: агент ночью пере-смотрит прошлые сессии и обновляет свои собственные заметки. Структурированные файлы памяти теперь растут не только когда ты их пишешь, но и когда агент сам делает выводы из накопленного опыта.
3. Persistent memory между сессиями. Open-source проект claude-mem набрал свою аудиторию на GitHub, Mem0 показал высокую точность на LoCoMo-benchmark. Эти инструменты подсказывают, что слой памяти ИИ перестаёт быть привязан к одной сессии. Память теперь самостоятельный слой системы, как база данных.
Тренд один: контекст-инжиниринг превращается из «как написать CLAUDE.md» в полную дисциплину архитектуры информации для ИИ-агентов. Промпт-инжиниринг был одним из первых уровней этой дисциплины. Контекст-инжиниринг - следующий.
Минимум, который имеет смысл собрать в первый вечер: настрой CLAUDE.md на 80-120 строк (гайд - тут), заведи папку business/ со структурой знаний о бизнесе («Второй мозг»), научись пользоваться /compact и не сжигать лимиты.
Дальше - субагенты (гайд) и Skills, чтобы вынести узкую экспертизу из общего контекста в специализированные навыки.
Источники
- Effective context engineering for AI agents - Anthropic Applied AI team (Prithvi Rajasekaran, Ethan Dixon, Carly Ryan, Jeremy Hadfield), 29.09.2025. Канонический текст с 4 принципами контекст-инжиниринга.
- How we built our multi-agent research system - Anthropic Engineering, 13.06.2025. Источник для цифры +90.2% качества и 15× токенов.
- Anthropic Cookbook - Context engineering with tool use - практические примитивы: compaction, tool-result clearing, memory tool.
- Claude Code Memory docs - рекомендация 80-120 строк для CLAUDE.md, императивы вместо описаний.
- Tobi Lütke twit, 18.06.2025 - origin термина «context engineering».
- Andrej Karpathy twit, 25.06.2025 - каноническое определение «delicate art and science of filling the context window».
- Simon Willison - Context engineering, 27.06.2025 - фиксация момента закрепления термина в сообществе.
- Chroma Research - Context Rot - Kelly Hong, Anton Troynikov, Jeff Huber, июль 2025. Замеры деградации 18 моделей на длинном контексте.
- Stanford «Lost in the Middle» - Nelson Liu et al., TACL 2024. Эффект «потерянной середины» контекста.
- DataHub - State of Context Management Report 2026 - TrendCandy research, 250 IT-лидеров, март 2026. Источник для цифры 95%.
- Boris Cherny - Pragmatic Engineer interview, 04.03.2026 - архитектура Claude Code, just-in-time retrieval через
globиgrep. - Thariq Shihipar - Lenny Podcast «HTML is the new Markdown», 18.05.2026 - сдвиг от Markdown к HTML-артефактам.
- Hamel Husain - Context Rot notes (P6) - резюме Chroma research для практиков.
- Cole Medin - context-engineering-intro template - 13.4k★ GitHub-шаблон production-стека.
- Авторская методология «3 кита» (ИИ-клон + Второй мозг + Контекст-инжиниринг) - опыт практикума Артемия Миллера, проекты Piratix AI, Aishka, smyslokod.ru.
Полная схема по вайб-кодингу за вечер: ИИ-клон + Второй мозг + Контекст-инжиниринг. 3 эфира, 2 000 ₽. Записи остаются у тебя.
Новые материалы - дайджестом, без спама
Гайды выходят регулярно. Подпишись, чтобы не пропускать: пришлю подборку в Telegram или на email. Раз в неделю или каждый день - выбираешь сам.

