Когда я в первый раз открыл /context на свежей сессии Claude Code, цифра меня удивила: ещё до моего первого сообщения уже занято 60K из 200K. И я не запустил ничего особенного - просто claude в репозитории smyslokod.ru. Шестьдесят тысяч токенов - это треть бюджета, которая ушла на «подготовку» к разговору.
Через две недели я разобрался, куда именно. Дальше - все 9 паттернов, которые жгут твои токены ещё до того, как ты начал писать, и как их закрыть. Цифры взяты из официальных docs Anthropic, из GitHub-issue с замерами реальных сессий, из подкаста Boris Cherny и из независимых замеров инженеров. Каждый источник со ссылкой - проверь, если не веришь.
Каждый день в Telegram-канале - что нового в вайб-кодинге: рабочие промпты, провалы, инструменты, которые я тестил на этой неделе. Подпишись, чтобы быть в курсе:
Что значит «73% токенов теряется до промпта»?
В мае 2026 года в Twitter (X) появился вирусный тред Rahul (@sairahul1) со ссылкой на свежий подкаст Boris Cherny:
Boris Cherny, the creator of Claude Code, just confirmed something I spent 90 days measuring. 73% of tokens are wasted before Claude reads your actual prompt. He breaks it down in a recent podcast: the 14% lost to CLAUDE.md bloat, the 13% paid re-reading old history.
Параллельный тред от Mnimiy (@Mnilax) перечисляет 9 паттернов, которые в сумме дают эти 73%. Я свёл их в одну таблицу с конкретными числами из других источников - GitHub issue #13717 со скриншотом /context на 200K-окне, заметка Cameron Cooke про методологическую ошибку самого /context, и официальная страница Anthropic про cost management.
| Паттерн | Доля потерь | Источник |
|---|---|---|
| 1. Раздутая CLAUDE.md | 14% | Cherny подкаст |
| 2. Пересчитывание старой истории | 13% | Cherny подкаст |
| 3. MCP-серверы | до 49% (исторически), сейчас 8-15% с Tool Search | GitHub #13717, Joe Njenga / Medium |
4. Накопленный output tool_use | 5-15% | Jenny Ouyang / buildtolaunch.substack.com |
| 5. System prompt + system tools | 9.6% (1.6% + 8%) | GitHub #13717 |
| 6. Дублирование skills и плагинов | 2-5% | Vercel research (56% skills never invoked) |
| 7. Agent teams в Plan Mode | до 700% | Anthropic docs |
| 8. Extended thinking budget | 5-20% | Anthropic docs |
9. Фоновая суммаризация при --resume | ~$0.04/сессия пассивно | Anthropic docs |
Я не буду утверждать, что цифра «73» бронебойная - в зависимости от твоего настройки она может быть 60% или 80%. Но порядок верный, и каждый паттерн отдельно поддаётся фиксу. Дальше разбираю по три за раз.
Как Claude собирает контекст до того, как читает твой запрос?
В обсуждении GitHub issue #13717 кто-то открыл /context в сессии с шестью MCP-серверами и получил такую раскладку:
| Слой контекста | Токены | % от 200K |
|---|---|---|
| System prompt | 3 200 | 1.6% |
| System tools (Read/Edit/Bash и т.д.) | 16 100 | 8.0% |
| MCP tools (6 серверов: google-docs + asana + calendar + slack + atlassian + gmail) | 98 700 | 49.3% |
Memory files (memory_files, выгрузки Memory tool) | 3 000 | 1.5% |
| Свободное место | 34 000 | 17.0% |
| Autocompact buffer | 45 000 | 22.5% |
Заметь: даже если ты ничего не написал, занято почти половина окна. На свободное место и autocompact buffer остаётся меньше половины, и в эту половину должен влезть весь твой диалог - сообщения, ответы Claude, прочитанные файлы, выводы команд.
Anthropic в официальных docs про cost management подтверждает: контекстное окно у всех планов одно - 200K токенов, включая Max 20x за $200 в месяц. Поэтому подписка не решает проблему раздутого контекста - вне зависимости от плана ты упираешься в одну стену.
Куда уходит первая треть контекста: CLAUDE.md, история и MCP?
Паттерн 1. CLAUDE.md перед каждым сообщением
Boris Cherny в подкасте назвал именно CLAUDE.md как первую утечку: 14% бюджета уходит на её перечитывание. Файл подгружается перед каждым твоим сообщением, не один раз за сессию. Если CLAUDE.md разрослась до 5 000 токенов (стандартный размер для зрелого проекта), ты платишь эту цену на каждом запросе.
Anthropic в docs пишет напрямую:
Aim to keep CLAUDE.md under 200 lines by including only essentials. Move specialized instructions into skills, which load on-demand only when invoked.
Я держу свою CLAUDE.md в smyslokod.ru на 180 строках - всё, что специализированное (как писать инструкции практикума, формат TG-постов, юр-чек-лист) переехало в Skills и Markdown-файлы внутри business/, которые Claude читает только когда конкретно туда смотрит. Это даёт минус 60-70% базы по сравнению с тем, как было два месяца назад.
Паттерн 2. История диалога перечитывается на каждом ответе
Это паттерн с самой плохой видимостью снаружи, потому что снаружи незаметен. Claude не «помнит» предыдущие сообщения в смысле кэша - на каждом новом сообщении модель перечитывает весь диалог сначала, чтобы поддержать связность. Cherny назвал это в 13% бюджета.
Jenny Ouyang в посте про token optimization описывает это так:
Claude re-reads the entire conversation from the top on every message. Message 50 costs exponentially more than message 5 because Claude processes all 49 prior messages first. Long sessions become token furnaces.
Решение - /clear между несвязанными задачами. У меня правило: новый чат на каждую новую задачу. Если задача длинная и нужна история - используй /compact, чтобы суммаризовать прошлое в короткий summary и продолжить с него.
Подробнее про это правило - в гайде «Как не сжечь лимиты Claude Code за день: 8 правил экономии токенов», там разобрано на примерах из моих сессий.
Паттерн 3. MCP-серверы регистрируют все свои инструменты в контекст
Это историческая боль Claude Code, которая до 2026 года давала самые большие потери. В упомянутом issue #13717 шесть подключённых MCP-серверов (Google Docs, Asana, Calendar, Slack, Atlassian, Gmail) занимали 98 700 токенов - 49% всего окна ещё до старта диалога.
Anthropic выпустил функцию Tool Search в декабре 2025 - январе 2026, которая решает половину этой проблемы. Joe Njenga на Medium измерил эффект:
Tool Search achieved a 46.9% reduction in MCP context consumption, bringing token usage down from 51 000 to 8 500 tokens. Every tool from every connected server used to get preloaded into your model's context window, before you typed anything.
В docs Anthropic описание стало таким:
MCP tool definitions are deferred by default, so only tool names enter context until Claude uses a specific tool. Run
/contextto see what's consuming space. Prefer CLI tools when available - tools likegh,aws,gcloud, andsentry-cliare still more context-efficient than MCP servers because they don't add any per-tool listing.
Что делать на проде:
- Обнови Claude Code до версии с Tool Search (после декабря 2025 - все актуальные).
- Открой
/mcpи отключи серверы, которые не нужны в текущей сессии. У меня в smyslokod.ru постоянно подключены два - Playwright и shadcn. Остальные включаю на одну задачу и/mcp disconnectсразу после. - Замени MCP на CLI там, где возможно. Вместо MCP-сервера для GitHub -
gh. Вместо Google Calendar MCP - календарь в браузере.
Что про MCP-серверы в принципе и как их разумно настроить - разобрал в «MCP-серверы Claude Code в 2026: 7 готовых связок и пошаговая установка».
Часть проблемы CLAUDE.md и Skills - не только в объёме, а в структуре. Один файл инструкций (CLAUDE.md) - это ядро. Дополнительные знания о проекте (аудитория, продукты, юр-документы, инструкции по дням) живут в папке business/ - это и есть Второй мозг в моей методологии. Claude читает только то, что нужно прямо сейчас, и сжатие контекста уже происходит на этом уровне. Полный разбор - в «Втором мозге в Claude Code».
И ещё деталь, которую часто пропускают: чистка CLAUDE.md, переход на Skills и отключение MCP - это первый шаг. Дальше работает методология контекст-инжиниринга - что класть в каждый промпт, в каком порядке, что отдать через Plan Mode, что через /compact. Этот гайд закрывает один кирпичик. Полную связку методологии - ИИ-клон + Второй мозг (business/) + Контекст-инжиниринг - я разбираю на практикуме за три эфира. У меня лично эта связка превращает Claude из «помощника с галлюцинациями» в инструмент, на котором я работаю день без перезагрузок.
Что копится в сессии и что нельзя урезать?
Паттерн 4. Выводы инструментов копятся всю сессию
Деталь, которую мало кто проговаривает: когда Claude выполняет bash cat huge-file.log, ВЕСЬ вывод этой команды попадает в контекст и остаётся там до конца сессии или /clear. То же самое с Read на большой файл - все 10 000 строк лежат, занимая токены на каждом следующем сообщении (см. паттерн 2).
Jenny Ouyang описала это так:
Every file read, MCP response, and shell command appends its complete output permanently to the context window for that session. A 10 000-line log remains in context for every subsequent message, compounding invisibly.
Решения:
- Используй
head,tail,grepвместо чтения целиком.bash tail -100 deploy.logвместоRead deploy.log. Сразу режет в 10-100 раз. - Hooks для предобработки. В
~/.claude/hooksположи скрипт, который фильтрует bash output перед тем, как Claude его увидит. Пример из docs Anthropic - PreToolUse-хук, который запускаетnpm test 2>&1 | grep -A 5 -E 'FAIL|ERROR'вместо полного вывода тестов. Сжимает в 50-100 раз. Подробности - в «Хуки в Claude Code 2026: пошаговая настройка и 7 готовых примеров». /clearпосле большого чтения. Если ты прочитал гигантский файл для одной конкретной задачи и больше он не нужен - не оставляй его в контексте «на всякий случай», начинай новый чат.
Паттерн 5. System prompt + system tools = постоянная база
Это паттерн, который не поддаётся правкам, потому что с ним почти ничего не сделаешь. Claude Code запускается с системным промптом (~3 200 токенов) и описанием всех встроенных инструментов - Read, Edit, Write, Bash, Glob, Grep, WebSearch, WebFetch, TodoWrite (~16 100 токенов). В сумме это 19 300 токенов постоянной базы, которые ты не урежешь.
Что с этим делать на практике:
- Awareness. Знать, что у тебя 19K «налога» базы и 200K - 19K = 181K на всё остальное (минус CLAUDE.md, MCP и буфер autocompact).
- Не плакать по этому поводу. Это инфраструктурная цена, которая платится один раз за сессию. Все цены ниже считаются от этого постоянная база.
Где теряются токены на skills, плагинах и agent teams?
Паттерн 6. Skills и плагины могут регистрироваться дважды
Эта боль появилась с приходом плагинов в Claude Code (конец 2025). Когда ты ставишь плагин, который добавляет skills, эти skills попадают в контекст. Если у тебя ещё стоят аналогичные пользовательские skills в ~/.claude/skills/ - они тоже грузятся. И иногда они дублируются.
Vercel в исследовании своего ИИ-стека поделился цифрой: 56% skills никогда не вызываются за сессию, но грузят описания в контекст постоянно. По 100 токенов на shape - это до 5 600 «балласта» при 100 skills.
Что делать:
/contextсмотрит, что реально занято. Если видишь раздел Skills с цифрой выше 3K - чистить.ls ~/.claude/skills/- проверь, какие skills у тебя реально стоят. Удали то, что не использовал больше месяца./plugin removeдля плагинов, которые ты поставил «попробовать» и забыл.
Что про правильное устройство Skills и чем они отличаются от CLAUDE.md - в «Claude Code Skills в 2026: как собрать библиотеку навыков под себя».
Паттерн 7. Agent teams в Plan Mode жгут в 7 раз больше
Agent teams - это возможность, где Claude Code разворачивает несколько параллельных экземпляров модели, каждый со своим контекстом. Anthropic в docs пишет напрямую:
Agent teams use approximately 7x more tokens than standard sessions when участников команды run in plan mode, because each участников команды maintains its own context window and runs as a separate Claude instance. Keep team tasks small and self-contained to limit per-участников команды token usage.
То есть пять участников команды в Plan Mode = пять параллельных сессий, и каждая загружает свой системный постоянная база + свою копию CLAUDE.md + свои MCP-tools. Полное потребление токенов растёт нелинейно.
Что делать:
- Использовать Sonnet или Haiku для участников команды. Opus только для координирующего лидера команды. Это снижает per-участников команды цену примерно в 2-5 раз.
- Маленькие команды. Два-три участников команды'а вместо десяти.
- Чистить неактивных участников команды. Если задача закрыта, а участников команды ещё запущен - он продолжает жечь токены на фоне.
Подробнее про Plan Mode и когда он реально помогает - в «Plan Mode в Claude Code: пошаговая инструкция и 4 этапа в 2026».
За что Claude списывает токены, пока ты не смотришь?
Паттерн 8. Extended thinking тратит токены без твоего участия
Extended thinking - это режим, где Claude перед ответом «продумывает» решение в скрытом thinking-блоке. С точки зрения расчёта это output-токены, которые считаются как обычный ответ, но ты их не видишь в чате.
Extended thinking is enabled by default because it significantly improves performance on complex planning and reasoning tasks. Thinking tokens are billed as output tokens, and the default budget can be tens of thousands of tokens per request depending on the model.
То есть на одном сложном запросе ты можешь потратить 10-30K thinking-токенов, которые «съели» бюджет, но в чате видишь только короткий итог.
Что делать:
/effort lowна простых задачах. Понижает thinking budget до минимума.MAX_THINKING_TOKENS=8000в env, чтобы зафиксировать потолок./config→ disable thinking для совсем рутинных задач, где «подумать» Claude не нужно.
Когда thinking реально полезен (сложная архитектура, сложного многоэтапного рассуждения), а когда нет - разобрал в «Sonnet или Opus 4.7 в Claude Code: выбор модели и /effort в 2026».
Паттерн 9. Фоновая суммаризация при idle
Это совсем маленький, но любопытный паттерн. Claude Code запускает фоновый процесс, который суммирует прошлые сессии для команды claude --resume. Этот процесс работает даже когда ты не пишешь.
Anthropic в docs про это написали явно:
Claude Code uses tokens for some background functionality even when idle: conversation summarization (background jobs that summarize previous conversations for the
claude --resumefeature) and command processing. These background processes consume a small amount of tokens (typically under $0.04 per session) even without active interaction.
Четыре цента за сессию - не катастрофа. Но если у тебя 10 открытых сессий в день - это уже $0.40 пассивных расходов в день, $12 в месяц. Закрывай сессии, которые тебе не нужны прямо сейчас. Сессию можно восстановить через /resume по индексу - не обязательно держать её открытой.
Как измерить свои потери: команда /context и её нюансы
Сначала про команду. В Claude Code открываешь /context (или /usage для расчёта) и получаешь что-то такое:
Context window: 200 000 tokens
System prompt: 3 200 (1.6%)
System tools: 16 100 (8.0%)
MCP tools: 12 600 (6.3%)
CLAUDE.md: 4 800 (2.4%)
Memory files: 3 000 (1.5%)
Conversation: 18 400 (9.2%)
Free space: 141 900 (71.0%)Это нормальный постоянная база после первой чистки. Здорово - свободно 71% окна.
Известный баг /context - 3x overstate для MCP
Cameron Cooke на async-let.com описал важный нюанс - до недавнего обновления /context показывал в 3 раза больше реальной потери для MCP. Цитата:
The wrapper adds about 460 tokens even when the tool itself is only about 130 tokens, and Anthropic also injects its own system instructions for tool use. When the CLI iterates over 60 tools, it incurs that preamble and wrapper 60 times. XcodeBuildMCP actual cost is 15 282 tokens, reported as 45 018 tokens - 3x inflation.
Cameron указывает: Anthropic это исправил в актуальной версии, теперь report 12 600 для того же XcodeBuildMCP. Так что:
- Если у тебя в
/contextMCP-tools показывает 50K+ - возможно, у тебя старая версия Claude Code. Обнови. - Если MCP стоит 8-15K - это нормально, реальная цена с Tool Search.
- Если MCP стоит 30-50K на новой версии - значит у тебя реально подключено много неиспользуемых серверов. Иди в
/mcpи отключай.
Что ещё смотреть, кроме /context
/usage - смотрит на твою долю плана за последние 24 часа или 7 дней. На Pro и Max показывает раскладку по skills, subagents, plugins и отдельным MCP-серверам. Полезно, чтобы понять, какой именно skill жжёт больше всего.
/cost - для API-пользователей. Показывает дольную стоимость текущей сессии в долларах. Не для подписчиков Pro/Max - им это не нужно.
/usage-credits - на Pro/Max позволяет поставить месячный лимит расхода. Полезно, если ты не хочешь, чтобы один заскриптованный agent team случайно сжёг твою кредитную карту.
Как очистить контекст Claude Code за 15 минут?
Открой свой проект в Claude Code и пройди по пунктам:
/context- запиши текущий расклад. Это твоя точка отсчёта./clear- если в чате накопилась история не по текущей задаче. Свежее окно.ls -la ~/.claude/skills/- посмотри, какие skills у тебя стоят. Удали те, которыми не пользовался месяц. Команда:rm -rf ~/.claude/skills/[имя-skill](или папка через интерфейс)./plugin list- аналогично для плагинов. Что не используешь - убирай через/plugin remove <name>./mcp- проверь подключённые MCP-серверы. Оставь только те, что нужны для текущей задачи. Остальные - через/mcp disconnect <name>.- Открой CLAUDE.md в редакторе. Если файл больше 200 строк - переноси специализированные инструкции в Skills (
~/.claude/skills/[тема]/SKILL.md). Цель - 100-200 строк ядра + 5-15 Skills по темам. Подробный гайд - в «Как настроить CLAUDE.md в 2026: готовый шаблон и 6 правил». - Проверь
/effort- на простых задачах ставь/effort low. Высокий бюджет thinking нужен только для сложной архитектуры. /contextфинальный замер. Сравни с пунктом 1.
Типичный результат у меня - с 60-80K занятого до 25-30K. На той же задаче расход токенов падает на 40-50%, контекст-окно становится в 2-3 раза просторнее, Claude перестаёт «забывать» вещи на длинных диалогах.
Если ты хочешь не только разобраться с токенами, но и собрать полную методологию работы с Claude - ИИ-клон, Второй мозг (business/) и Контекст-инжиниринг - это и есть «Три кита» практикума.
Когда переход на Sonnet или Haiku даёт больше, чем чистка контекста?
Anthropic про модели в docs пишет:
Sonnet handles most coding tasks well and costs less than Opus. Reserve Opus for complex architectural decisions or сложного многоэтапного рассуждения. Use
/modelto switch models mid-session, or set a default in/config. For simple subagent tasks, specifymodel: haikuin your subagent configuration.
Грубая раскладка по цене за input-токен (на 27 мая 2026):
| Модель | Цена / 1M input | Когда использовать |
|---|---|---|
| Opus 4.7 | $15 | Архитектура, сложного многоэтапного рассуждения, сложная отладка |
| Sonnet 4.5 | $3 | 80% обычных задач кодинга: правки, рефакторинг, тесты, доки |
| Haiku 4.5 | $1 | Форматирование, простой парсинг, subagent-задачи, рутинные правки текста |
Настройка у меня такой:
- Default - Sonnet 4.5. Это
/config → default model. Покрывает 80% задач. /model opusруками, когда задача правда сложная (архитектурный выбор, диагностика непонятного бага, новый продукт)./model haikuдля тестов и форматирования. Или явноmodel: haikuв subagent-конфиге./effortотдельно от модели. Можно быть на Opus с/effort low- получаешь мощную модель с минимумом thinking, для быстрых ответов на средние задачи.
Когда чистка контекста выгоднее перехода на модель:
- Контекст забит больше 50% - в первую очередь чистить.
- Контекст ок, но задачи сложные - брать Opus с нормальным effort.
- Контекст ок, задачи рутинные - брать Haiku.
Подробный разбор моделей и effort - в «Sonnet или Opus 4.7 в Claude Code: выбор модели и /effort в 2026».
Какие советы из RU-выдачи ломают расход вместо того, чтобы сэкономить?
Антипаттерн 1. «Удали все MCP, они жгут токены»
Лень самая распространённая ошибка. Да, MCP исторически жгли до 49% контекста - но после Tool Search это упало до 8-15%. И MCP даёт реальные тулы, которые иначе тебе пришлось бы пилить руками. Удалить все MCP = вернуться к ручной работе, которая «съест» больше времени, чем сэкономит токенов.
Правильно: оставь только MCP, которые ты реально используешь регулярно. Я держу Playwright (для тестов посадочных страниц) и shadcn (для генерации интерфейсов). Всё остальное - на одну задачу.
Антипаттерн 2. «Не используй CLAUDE.md, всё пиши прямо в промпте»
Звучит «логично»: если CLAUDE.md грузится на каждом запросе - давай не будем её грузить. На практике без CLAUDE.md ты каждое сообщение начинаешь с тех же инструкций руками, плюс Claude забывает контекст между сообщениями. Это больше токенов, не меньше - просто они идут по другому каналу.
Правильно: держи CLAUDE.md компактной (100-200 строк), ядро в ней, специализированное - в Skills. Подробности - в «Как настроить CLAUDE.md в 2026».
Антипаттерн 3. «Всегда работай через Plan Mode»
Plan Mode - отличный инструмент для сложных задач, где нужно сначала разведать кодовую базу и предложить план. Но он тратит в среднем 7x больше токенов при работе через agent teams (Anthropic docs). На простой задаче «поправь опечатку в README» Plan Mode жжёт в 7 раз больше, чем прямая правка.
Правильно: Plan Mode - для сложных задач от 30 минут работы. Для коротких - прямой запрос без режима плана. Когда какой режим нужен - в «Plan Mode в Claude Code: пошаговая инструкция и 4 этапа в 2026».
Источники
- Anthropic Docs: Manage costs effectively - официальные цифры по расходам, моделям, MCP, agent teams, thinking budget
- Boris Cherny (Anthropic) на Lenny's Newsletter Podcast и Pragmatic Engineer Podcast - источник цитаты «73% токенов теряется до промпта»
- Rahul (@sairahul1) тред на X: https://x.com/sairahul1/status/2056050387678024143 - первый виральный пересказ Cherny с раскладку по паттернам
- Mnimiy (@Mnilax) тред на X: https://x.com/Mnilax/status/2050321700802408552 - параллельный тред с 9 паттернами
- GitHub issue anthropics/claude-code#13717 - реальный замер
/contextна 200K окне с шестью MCP-серверами - Cameron Cooke / async-let.com: MCP Token Reporting: The Double-Counting Problem - разбор 3x overstate бага
/context - Joe Njenga / Medium: Claude Code Just Cut MCP Context Bloat by 46.9% - замеры Tool Search до и после
- Jenny Ouyang / buildtolaunch.substack.com: Claude Code Token Optimization: Full System Guide (2026) - независимый замер от инженера с $1 600/мес расходом
- Внутренние гайды СмыслоКод: методология «Второй мозг + Контекст-инжиниринг» в Как настроить CLAUDE.md, Второй мозг в Claude Code, Контекст-инжиниринг в 2026, Plan Mode в Claude Code, Skills, MCP-серверы, Hooks, Sonnet или Opus, Как не сжечь лимиты.
Дальше - практикум, где я разбираю полную связку ИИ-клон + Второй мозг (business/) + Контекст-инжиниринг. У меня эта связка превращает Claude из «помощника с галлюцинациями» в инструмент, на котором я собрал Piratix AI за 3-4 часа.

