Я веду эти разборы публично. Каждый день в канале - инструменты, рабочие промпты и провалы вайб-кодинга, на которые я налетел сам. Подпишись там, где удобнее:
Что такое контекст-инжиниринг - в одной строке?
Самое короткое определение дал Andrej Karpathy в твите 25 июня 2025 года:
+1 for "context engineering" over "prompt engineering". People associate prompts with short task descriptions you'd give an LLM in your day-to-day use. When in every industrial-strength LLM app, context engineering is the delicate art and science of filling the context window with just the right information for the next step.
По-русски: «деликатное искусство и наука заполнить контекстное окно ровно той информацией, которая нужна на следующем шаге».
Термин ввёл в оборот за неделю до Karpathy - 18 июня 2025 года - Tobi Lütke, CEO Shopify:
I really like the term "context engineering" over prompt engineering. It describes the core skill better: the art of providing all the context for the task to be plausibly solvable by the LLM.
Anthropic закрепили термин в инженерном блоге 29 сентября 2025 года:
Context engineering refers to the set of strategies for curating and maintaining the optimal set of tokens (information) during LLM inference, including all the other information that may land there outside of the prompts.
Та же статья даёт самую важную фразу для смены оптики:
Building with language models is becoming less about finding the right words and phrases for your prompts, and more about answering the broader question of "what configuration of context is most likely to generate our model's desired behavior?"
Главная мысль: контекст это не сообщение, которое ты пишешь. Контекст это весь набор информации, который ИИ видит до твоего сообщения - системный промпт, описания инструментов, история диалога, файлы из памяти, данные, подгруженные через MCP. Промпт - финальный шаг. Контекст-инжиниринг - архитектура всего, что подаётся в окно.
Я налетел на эту разницу на собственных проектах. Piratix AI собрал за 3-4 часа в декабре 2024 года - получилось, потому что заранее накидал в контекст всю продуктовую логику, а не пытался уговорить модель «понять задачу». Smyslokod.ru за апрель 2026 года вышел в 600 тысяч строк кода без регрессий - потому что весь контекст бизнеса разложен по папкам, и Claude по ним ходит точечно, а не съедает репозиторий целиком.
Почему промпт-инжиниринг устарел в 2026?
Сдвиг произошёл за лето 2025 года. Хронология:
- 18 июня 2025: Lütke вводит термин в твите.
- 25 июня 2025: Karpathy усиливает его - пост лёг в основу 13.4k★ GitHub-template
context-engineering-intro. - 27 июня 2025: Simon Willison фиксирует момент в эссе:
I like it. I think this one may have sticking power.
— Simon Willison, https://simonwillison.net/2025/Jun/27/context-engineering/ - Июль 2025: Chroma Research публикует исследование Context Rot - доказательство, что модели деградируют на длинном контексте.
- 29 сентября 2025: Anthropic закрепляет дисциплину инженерным блогом, дают канон из 4 принципов.
- Март 2026: опрос DataHub среди 250 IT-лидеров показывает, что 95% считают контекст-инжиниринг критичным для ИИ-агентов на масштабе.
Context management is about ensuring AI agents have access to relevant, reliable and trusted context.
— Shirshanka Das, https://datahub.com/news/datahub-releases-state-of-context-management-report/ - Май 2026: Andrej Karpathy переходит в Anthropic. YouTube-каналы фиксируют 6 из 10 топовых видео в нише «вайб-кодинг» с темой «vibe coding is dead» - и термин «context engineering» окончательно вытесняет «prompt engineering» в массовом дискурсе.
Дополнительные цифры из того же DataHub-отчёта подтверждают, что речь не про моду:
- 91% видят управление контекстом приоритетом уровня C-level в горизонте 1-3 года.
- 89% уже выделили бюджет на инфраструктуру контекста в ближайшие 12 месяцев.
- 87% признают, что готовность данных - главный затык для ИИ в проде.
Промпт-инжиниринг при этом не «умер». Он стал базовой грамотностью, как уметь печатать на клавиатуре. А поверх неё выросла дисциплина, без которой ИИ-агент на длинных задачах ломается - контекст-инжиниринг.
Чем контекст-инжиниринг отличается от промпт-инжиниринга: 5 различий
| Аспект | Промпт-инжиниринг | Контекст-инжиниринг |
|---|---|---|
| Что оптимизируем | Формулировку одного запроса | Весь набор токенов: системный промпт + инструменты + история + retrieved данные |
| Горизонт | Один turn | Многие turn-ы плюс переходы между сессиями |
| Главный риск | Модель не поняла запрос | Модель утонула в шуме (context rot) |
| Главный навык | Копирайтинг плюс понимание модели | Архитектура информации и точечное извлечение |
| Источник в проекте | Твой шаблон промпта | CLAUDE.md, файлы памяти, retrieval, субагенты, compaction |
| Метафора | «Как написать запрос» | «Что ИИ знает в момент запроса» |
Karpathy в том же твите 25 июня 2025 года объяснил баланс:
Too little or of the wrong form and the LLM doesn't have the right context for optimal performance. Too much or too irrelevant, and the LLM costs might go up, and performance might come down.
Контекст-инжиниринг это не «лей больше». Это точная дозировка. Слишком мало - ИИ не знает контекста и галлюцинирует. Слишком много - ИИ тонет в шуме, теряется в середине, и стоит это дороже.
Промпт-инжиниринг отвечал за финальный шаг. Контекст-инжиниринг отвечает за всё, что было до него.
Хочешь не просто понять разницу, а собрать рабочую связку, которая делает Claude стабильным на длинных задачах? Контекст-инжиниринг - один из трёх китов методологии, по которой я собирал smyslokod.ru и Piratix AI. На практикуме за 3 эфира разбираем всю связку: ИИ-клон + Второй мозг + Контекст-инжиниринг. Это 3 кита, без которых ИИ галлюцинирует.
Почему 1М токенов не значит «лей всё»?
Текущие лимиты по моделям Claude:
| Модель | Контекстное окно | На каких планах |
|---|---|---|
| Claude Haiku 4.5 | 200 000 токенов | все планы |
| Claude Sonnet 4.6 | 1 000 000 токенов | Pro+ с usage credits |
| Claude Opus 4.7 | 1 000 000 токенов | Pro, Max, Team, Enterprise |
1M токенов это примерно 2500 страниц текста. Кажется, что можно загрузить всю документацию проекта, всю переписку, все спецификации - и пусть ИИ разбирается. Но Anthropic в своём инженерном блоге пишут прямо:
Context must be treated as a finite resource with diminishing marginal returns.
Расшифровка: контекст это конечный ресурс с убывающей отдачей. Каждый дополнительный токен не приносит пользы линейно. Чем длиннее окно, тем хуже модель работает с тем, что в нём лежит.
Boris Cherny, head of Claude Code, в интервью Pragmatic Engineer описывает, как сам работает с контекстом:
It's not so much about deep work, it's about how good I am at context switching and jumping across multiple different contexts very quickly.
Главный навык на 2026 - не держать всё открытым. Главный навык - быстро переключать узкие контексты, один на одну задачу.
Главная ошибка: больше контекста = хуже результат?
Chroma Research в июле 2025 года протестировали 18 топовых моделей - Claude Opus 4, Sonnet 4, Haiku 3.5, GPT-4.1, GPT-4 Turbo, Gemini 2.5 Pro, Qwen3-235B и другие. Главный вывод:
Models do not use their context uniformly; instead, their performance grows increasingly unreliable as input length grows.
Конкретные цифры из исследования:
- На задаче Repeated Words проблемы у Gemini-моделей стартуют уже на 500-750 словах.
- GPT-4 Turbo показывает локальный пик качества на 500 словах, после этого качество падает.
- Один отвлекающий фрагмент (distractor) снижает качество. Четыре отвлекающих фрагмента обрушивают качество в разы.
Параллельно работает второй эффект - lost in the middle. Его задокументировали в Stanford в 2024 году (Nelson Liu и коллеги, опубликовано в TACL):
Performance is often highest when relevant information occurs at the beginning or end of the input context, and significantly degrades when models must access relevant information in the middle of long contexts, even for explicitly long-context models.
На практике это значит: если важное правило стоит в середине файла CLAUDE.md - модель его пропустит.
Anthropic в документации по CLAUDE.md рекомендуют ограничение длины:
Target under 200 lines per CLAUDE.md file, as longer files consume more context and reduce adherence.
200 строк это потолок, после которого модель начинает игнорировать правила. Практический рабочий диапазон, который я обкатал на десятках своих проектов - 80-120 строк. Каждая строка свыше начинает конкурировать с теми, которые реально важны. Подробнее про настройку CLAUDE.md под этот предел - в гайде «Как настроить CLAUDE.md в 2026».
5 принципов контекст-инжиниринга по Anthropic
Принцип 1. Контекст - конечный ресурс
Базовая установка, без неё остальные четыре принципа не работают. Anthropic пишут: Our overall guidance across the different components of context (system prompts, tools, examples, message history, etc) is to be thoughtful and keep your context informative, yet tight.
Tight - значит «плотно, без воды». Каждый токен в окне должен материально менять решение модели. Если строка в CLAUDE.md звучит как «мы стараемся писать чистый код» - её можно удалять, она не несёт сигнала.
Принцип 2. Just-in-time retrieval
ИИ-агент тянет данные через инструменты на лету, а не пред-загружает всё в окно заранее. Это и есть архитектура Claude Code: вместо векторной базы или индекса - агент использует glob и grep, как живой инженер ищет в коде вручную. Boris Cherny рассказывал, что это открытие пришло из наблюдения за тем, как инженеры искали в коде, когда у них падал IDE.
Когда применять: ты не знаешь заранее, какие фрагменты понадобятся для задачи.
Принцип 3. Structured note-taking
Агент пишет заметки во внешнее хранилище и подгружает их по нужде. В Claude Code это реализовано через memory tool. Anthropic в своём cookbook описывают это так:
Memory is structured note-taking: the agent writes to persistent external storage so it can track progress across tasks and sessions without keeping everything in active context.
Когда применять: долгие сессии, переходы между сессиями, накопление знаний о проекте.
Принцип 4. Compaction
Сжатие истории сообщений в саммари при приближении к лимиту. В Claude Code это команда /compact, плюс автоматическая компакция при достижении ~80% от окна. Anthropic пишут:
Compaction compresses the whole window when it grows too large.
Когда применять: длинные аналитические диалоги, где история переписки превратилась в балласт и забивает окно вместо того чтобы помогать.
Принцип 5. Sub-agent architectures
Специализированные субагенты работают параллельно в своих контекстных окнах и возвращают сжатые сводки в lead-агента. Anthropic пишут:
Subagents facilitate compression by operating in parallel with their own context windows, exploring different aspects of the question simultaneously.
Цифры из их собственного internal-теста: lead-агент Claude Opus 4 + субагенты Claude Sonnet 4 дают +90.2% качества против single Claude Opus 4 на research-задачах. Цена: ~15× больше токенов. Вывод: оправдано там, где исход дорогой.
Подробнее про настройку субагентов на Claude Code - в гайде «Subagents для Claude Code».
7 ошибок, которые сжигают токены и ломают Claude Code
| # | Анти-паттерн | Что происходит | Как чинить |
|---|---|---|---|
| 1 | Залил весь README плюс 5 файлов кода в один промпт | Окно забивается на 50% за один turn, дальше быстро упирается в лимит | Memory tool для long-term фактов плюс just-in-time retrieval - пусть Claude сам читает файлы через read_file/glob |
| 2 | CLAUDE.md на 500 строк | Модель пропускает середину файла (lost in the middle), правила не работают | 80-120 строк, императивы, разделы по командам и стилю. Самое важное - в начало и конец |
| 3 | Не запускаю /compact на длинных сессиях | Сессия на 180k токенов, Claude забывает первые сообщения, ты повторяешь контекст руками | /compact руками или авто-компакция по trigger. Признак стресса - индикатор context usage в десктопном Claude |
| 4 | Один Claude на всё | Один агент делает планирование плюс поиск плюс код плюс ревью плюс тесты - окно растёт лавинообразно | Субагенты: каждый в своём контексте, lead собирает сводки. Anthropic дают +90.2% качества на research-задачах |
| 5 | Файлы памяти растут от tool-result-ов | Агент перечитывает один и тот же файл 5 раз, забивая 96% контекста результатами вызовов инструментов | Tool-result clearing: оставляешь 4-6 свежих результатов, остальное чистится. Сам факт вызова сохраняется |
| 6 | Залил весь репозиторий в examples/ папку | ИИ ищет паттерн среди 200 примеров, теряется | 3-7 канонических паттернов в examples/, каждый под конкретный тип задачи |
| 7 | Markdown-список на 200 строк как «план фичи» | После 50-й строки агент перестаёт держать структуру в голове | HTML-артефакт или нумерованный план в отдельном файле. Thariq Shihipar из Anthropic:
|
Anthropic в Cookbook описывают конкретный замер для ошибки №5: в их baseline-сессии первый документ из контекста (про C. elegans) формально лежал в окне, но был погребён под 335k токенами. Технически доступен. Фактически модель его не вспомнила. С memory tool ситуация чинится так: файл с заметками aging_model_organisms_comparison.md весит ~3000 токенов вместо повторной загрузки исходного корпуса.
Бытовая аналогия: контекстное окно это рабочий стол. Если на нём лежит 200 документов, ты не найдёшь нужный, даже если он там есть. Контекст-инжиниринг - дисциплина «держи на столе только то, что нужно сейчас, остальное в архиве, и подгружай по запросу».
Как собрать рабочую связку за вечер?
Семь шагов в порядке выполнения:
-
CLAUDE.md на 80-120 строк. В корне проекта. Императивы, не описания. Anthropic в официальной документации рекомендуют принцип
Specificity: правила должны быть конкретными и однозначными, не общими установками. На практике это значит «никогда не используй inline mocks в тестах» работает лучше, чем «мы стараемся писать чистый код». Подробный шаблон - в гайде «Как настроить CLAUDE.md». -
Папка
examples/с 3-7 проверенными паттернами. Один пример на типовой паттерн: вызов API, написание теста, миграция, обработка ошибки. Когда Claude видит паттерн вexamples/- он его повторяет точно. Без примеров - угадывает на ходу. -
PRP-документы под крупные фичи. PRP = Product Requirements Prompt. Один файл на одну фичу: контекст плюс план плюс валидация плюс примеры. Boris Cherny говорит про это коротко:
Once there is a good plan, it will one-shot the implementation almost every time.
-
Memory tool для long-term фактов вне сессии. Claude в Anthropic Cookbook реализовали memory tool как структурированное хранилище заметок. Когда агент в новой сессии возвращается к задаче - он сначала читает заметки, не перечитывает весь корпус.
-
/compactплюс авто-компакция на 80% от лимита. Не дожидайся, пока окно упрётся в потолок. Включи авто-компакцию через настройки или вызывай/compactсам, когда чувствуешь, что сессия пошла по второму кругу. -
Субагенты для research / review / planning. Каждый субагент - в своём контексте, со своим узким промптом. Lead-Claude получает только сводку, не сырьё. Подробнее - «Subagents для Claude Code» и «Skills для Claude Code» (Skills это способ упаковать узкую экспертизу в навык, который Claude применяет автоматически).
-
Just-in-time retrieval вместо предзагрузки. Не заливай весь репозиторий в окно. Пусть Claude сам ищет через
globиgrep. Это и есть архитектура самого Claude Code - по словам Cherny, открытие пришло из наблюдения, как инженеры искали в коде, когда у них падал IDE.
Дополнительные практические правила, которые я обкатал на своих проектах:
- Одна задача - одно окно. Закончил - закрой, открой новое. Не накапливай историю на нескольких задачах подряд.
- Шаблон первой команды нового окна. Один и тот же текст: «Прочитай в порядке
ai-clone/INDEX.md,business/INDEX.md,CLAUDE.md, зону задачи. Подтверди в одну строку. Не начинай задачу, жди следующего сообщения.» Этот шаблон лежит у меня в snippet-редакторе под одну горячую клавишу. - Контекст-окно заполнено >60% - переходи в новое. Промежуточный приём: попроси Claude «напиши промпт, в котором соседний чат продолжит твою задачу, не потеряв смысл», скопируй, открой новое окно.
- Каждая ошибка ИИ - повод дописать правило. Не пиши правила в файлы памяти руками. Скажи Claude «не так, потому что...» в момент ошибки - он сам оформит правило в файл по канону «Rule → Why → How».
Контекст-инжиниринг как 3-й кит методологии
В моей методологии смысло-кодинга это называется «три кита»:
-
ИИ-клон - папка
ai-clone/рядом с кодом проекта. Цифровая проекция твоего мышления: ценности, принципы, тон, стиль, правила, выученные через ошибки. ИИ читает её и работает как ты, а не «в общем по индустрии». -
Второй мозг - папка
business/рядом с кодом. Структура знаний о бизнесе: аудитория, продукты, цели, экономика, маркетинг. ИИ читает её при каждом запросе и работает с контекстом, а не в вакууме. Подробный разбор - в гайде «Второй мозг в Claude Code». -
Контекст-инжиниринг - дисциплина, которая делает первые два кита работающими. Без неё
ai-clone/иbusiness/превращаются в свалку файлов, которые ИИ не может прочитать целиком. Контекст-инжиниринг отвечает за то, как эти папки структурированы (CLAUDE.md как карта, wiki-ссылки между файлами), как ИИ по ним ходит (just-in-time retrieval), как сжимает прошлые сессии (compaction), как разделяет задачи между субагентами.
Связка трёх китов это и есть «Я-компания» - один человек плюс ИИ работают как команда из 10-100 человек. Без одного кита система рассыпается:
- Без ИИ-клона - ИИ пишет в стиле «как все», твой голос теряется.
- Без Второго мозга - ИИ пишет без контекста бизнеса, решения абстрактные.
- Без контекст-инжиниринга - ИИ тонет в шуме на длинных задачах, теряет контекст, галлюцинирует.
Поэтому ставить только CLAUDE.md или только Skills - это полдела. Связка трёх китов работает в production. Один кит без двух других быстро упирается в потолок. Контекст-инжиниринг здесь - архитектурный слой, без которого первые два кита не масштабируются. Это каркас под всю систему.
Что дальше: как развивать дисциплину контекст-инжиниринга?
Три направления, в которых дисциплина движется прямо сейчас:
1. HTML вместо Markdown для планирования. Thariq Shihipar, engineer из команды Claude Code в Anthropic, в подкасте Lenny от 18 мая 2026 года описал переход:
HTML is the new markdown.
Идея: вместо плоского списка на 200 строк дать агенту визуальный mockup, который он может править кусками. «Throwaway micro-UIs» - одноразовые интерфейсы для редактирования конкретной части плана. Compute уходит на коммуникацию контекста, а написание кода становится побочной задачей.
2. Dreaming - ночное переосмысление сессий. На Code w/ Claude SF 6 мая 2026 года Anthropic показали фичу: агент ночью пере-смотрит прошлые сессии и обновляет свои собственные заметки. Структурированные файлы памяти теперь растут не только когда ты их пишешь, но и когда агент сам делает выводы из накопленного опыта.
3. Persistent memory между сессиями. Open-source проект claude-mem набрал свою аудиторию на GitHub, Mem0 показал высокую точность на LoCoMo-benchmark. Эти инструменты подсказывают, что слой памяти ИИ перестаёт быть привязан к одной сессии. Память теперь самостоятельный слой системы, как база данных.
Тренд один: контекст-инжиниринг превращается из «как написать CLAUDE.md» в полную дисциплину архитектуры информации для ИИ-агентов. Промпт-инжиниринг был одним из первых уровней этой дисциплины. Контекст-инжиниринг - следующий.
Минимум, который имеет смысл собрать в первый вечер: настрой CLAUDE.md на 80-120 строк (гайд - тут), заведи папку business/ со структурой знаний о бизнесе («Второй мозг»), научись пользоваться /compact и не сжигать лимиты.
Дальше - субагенты (гайд) и Skills, чтобы вынести узкую экспертизу из общего контекста в специализированные навыки.
Источники
- Effective context engineering for AI agents - Anthropic Applied AI team (Prithvi Rajasekaran, Ethan Dixon, Carly Ryan, Jeremy Hadfield), 29.09.2025. Канонический текст с 4 принципами контекст-инжиниринга.
- How we built our multi-agent research system - Anthropic Engineering, 13.06.2025. Источник для цифры +90.2% качества и 15× токенов.
- Anthropic Cookbook - Context engineering with tool use - практические примитивы: compaction, tool-result clearing, memory tool.
- Claude Code Memory docs - рекомендация 80-120 строк для CLAUDE.md, императивы вместо описаний.
- Tobi Lütke twit, 18.06.2025 - origin термина «context engineering».
- Andrej Karpathy twit, 25.06.2025 - каноническое определение «delicate art and science of filling the context window».
- Simon Willison - Context engineering, 27.06.2025 - фиксация момента закрепления термина в сообществе.
- Chroma Research - Context Rot - Kelly Hong, Anton Troynikov, Jeff Huber, июль 2025. Замеры деградации 18 моделей на длинном контексте.
- Stanford «Lost in the Middle» - Nelson Liu et al., TACL 2024. Эффект «потерянной середины» контекста.
- DataHub - State of Context Management Report 2026 - TrendCandy research, 250 IT-лидеров, март 2026. Источник для цифры 95%.
- Boris Cherny - Pragmatic Engineer interview, 04.03.2026 - архитектура Claude Code, just-in-time retrieval через
globиgrep. - Thariq Shihipar - Lenny Podcast «HTML is the new Markdown», 18.05.2026 - сдвиг от Markdown к HTML-артефактам.
- Hamel Husain - Context Rot notes (P6) - резюме Chroma research для практиков.
- Cole Medin - context-engineering-intro template - 13.4k★ GitHub-шаблон production-стека.
- Авторская методология «3 кита» (ИИ-клон + Второй мозг + Контекст-инжиниринг) - опыт практикума Артемия Миллера, проекты Piratix AI, Aishka, smyslokod.ru.
Полная схема по вайб-кодингу за вечер: ИИ-клон + Второй мозг + Контекст-инжиниринг. 3 эфира, 2 000 ₽. Записи остаются у тебя.

