Каждый день в Telegram-канале - что нового в вайб-кодинге: инструменты, примеры, ошибки. Подпишись, чтобы быть в курсе.
Куда утекают лимиты Claude и сколько это стоит
Самый частый страх у тех, кто только начал вайб-кодить: «заплатил $20 и спалил всё за вечер». Это не выдумка, так и бывает.
Когда ты просишь ИИ-агента поправить функцию, модель читает не одну строку. Она тянет связанные файлы, помнит прошлые сообщения, прогоняет команды и читает их вывод. Каждый шаг - это токены. На крошечном проекте разница незаметна, а на реальном продукте с десятками файлов один и тот же запрос обходится в разы дороже, чем кажется на глаз. Я разбирал, как агент за ночь сжёг весь бюджет, в отдельном разборе.
Дальше развилка. Подписка Claude даёт фиксированный объём в сутки: упёрся в потолок - ждёшь сброса или переходишь на оплату по токенам. А там премиальные модели кусаются. Флагманский Fable 5 от Anthropic, например, шёл по $10 за миллион токенов на входе и $50 на выходе, а большой агентный проект перемалывает эти миллионы за день.
И вот тут стоит вспомнить простую вещь: модель - это сменный мотор. В 2026 рядом с дорогими платными встали открытые модели почти той же силы, и часть из них работает бесплатно.
GLM-5.2: китайская модель, которая спорит с платными
GLM-5.2 - та самая новость, из-за которой про открытые модели заговорили даже скептики. Под капотом - 753 миллиарда параметров (активны около 40 миллиардов на запрос) и окно контекста на миллион токенов. По-человечески это значит, что она держит большой проект целиком и не теряет его начало.
Главное - результаты на тестах по программированию. Их любят приводить сами разработчики модели, поэтому я беру цифры из независимых публикаций, а ссылки собрал внизу.
| Тест по коду | GLM-5.2 | GPT-5.5 | Claude Opus 4.8 |
|---|---|---|---|
| SWE-bench Pro | 62.1 | 58.6 | - |
| FrontierSWE | 74.4% | 72.6% | 75.1% |
| Terminal-Bench 2.1 | 81.0 | - | 85.0 |
Читается так: на задачах с кодом GLM-5.2 уверенно обходит GPT-5.5 и идёт почти вплотную к Claude Opus 4.8, самой сильной платной модели на сегодня. На Terminal-Bench она стала первой открытой моделью, которая перешагнула порог 80%, хотя Opus там всё ещё впереди.
«Открытые веса» значит, что компания выложила саму модель, а не только доступ по подписке. Технически её можно скачать с HuggingFace и поднять на своём сервере. Предпринимателю это обычно не нужно - проще подключить готовый доступ за пару долларов в месяц. Как именно, разберу ниже.
Сколько стоит GLM-5.2 и где её взять?
Предпринимателю-непрограммисту проще всего взять подписку Z.ai или доступ через OpenRouter. Самому поднимать модель на сервере не надо, это история для тех, кто дружит с инфраструктурой.
| Способ доступа к GLM-5.2 | Сколько стоит | Кому подходит |
|---|---|---|
| GLM Coding Plan (Lite) | ~$3-6 / месяц | Регулярная работа, хочется фиксированного счёта |
| GLM Coding Plan (Pro) | ~$15-19 / месяц | Много задач, нужен запас по объёму |
| OpenRouter (по токенам) | ~$1 вход / $3 выход за млн | Работаешь нерегулярно, платишь по факту |
| Скачать веса (MIT) | бесплатно + свой сервер | Технарям, кто умеет в инфраструктуру |
Сравни порядок цифр. Премиальная платная модель на пике доходит до $50 за миллион токенов на выходе. У GLM-5.2 через OpenRouter это около $3, а месячная подписка Z.ai стоит дешевле одного обеда. Для большинства задач качество отличается чуть-чуть, а счёт - в десятки раз. И ещё плюс: GLM-5.2 уже встроена в популярные инструменты вроде Cline (бесплатное расширение для редактора), так что возни с командной строкой не будет.
Сменить модель - это полдела. Ровный результат держит обвязка вокруг неё: что ты кладёшь в контекст, как устроены знания о проекте, понимает ли агент твою логику. На практикуме за 3 вечера собираешь все три кита методологии: ИИ-клон, Второй мозг и Контекст-инжиниринг. Именно эта связка превращает любую модель из «болтуна с галлюцинациями» в инструмент, на который можно положиться.
Чем ещё заменить Claude: DeepSeek, Qwen3-Coder и Kimi
Открытых моделей для кода в 2026 стало много, и они реально спорят с платными. Вот те, что стоит знать предпринимателю.
DeepSeek V4. Открытая модель под лицензией MIT, вышла 24 апреля 2026. Старший вариант DeepSeek V4-Pro-Max набирает 80.6% на тесте SWE-bench Verified - это лучший результат среди открытых моделей, вровень с Gemini 3.1 Pro. При этом облегчённый DeepSeek V4-Flash стоит сущие копейки: около $0.14 за миллион токенов на входе. Есть и бесплатный стартовый объём без привязки карты, чтобы спокойно попробовать. Подробнее я сравнивал DeepSeek и Claude в этом разборе.
Qwen3-Coder. Модель от команды Qwen на 480 миллиардов параметров (активны 35), заточенная под код, с окном контекста на миллион токенов. Сейчас её называют сильнейшей бесплатной моделью для кода на OpenRouter - в режиме предпросмотра доступ к ней бесплатный. Когда предпросмотр закончится, цена будет около $0.22 за миллион токенов на входе.
Kimi K2.6. Открытая модель от Moonshot на триллион параметров, вышла 20 апреля 2026. Через OpenRouter обходится примерно в $0.66 за миллион на входе и $3.41 на выходе. Её хвалят именно за баланс: сильная, а денег просит немного.
| Модель | Открытая? | Цена (вход за млн токенов) | Бесплатный вариант |
|---|---|---|---|
| GLM-5.2 | да (MIT) | ~$1 (OpenRouter) | скачать веса |
| DeepSeek V4 | да (MIT) | ~$0.14 (Flash) | стартовый объём без карты |
| Qwen3-Coder | да | ~$0.22 | бесплатно в предпросмотре |
| Kimi K2.6 | да | ~$0.66 | скачать веса |
| Claude Opus 4.8 | нет | подписка + дорого по токенам | нет |
Какие модели для кода реально бесплатные в 2026?
«Бесплатно» в мире моделей бывает разным. Где-то дают стартовый объём, где-то ограничивают число запросов в день, а где-то модель идёт бонусом к подписке, которая у тебя уже есть. Рабочие варианты на 2026 год:
- Qwen3-Coder на OpenRouter. В режиме предпросмотра доступ бесплатный. Заводишь один ключ на OpenRouter - и получаешь сразу несколько бесплатных моделей, включая сильную модель для кода.
- Стартовый объём DeepSeek. Бесплатный лимит без привязки карты. Его хватает, чтобы вдумчиво прогнать модель на настоящей задаче, а не на игрушечной.
- Бесплатный уровень Gemini. Модель Gemini 3 Flash через API даёт до 1500 запросов в день бесплатно. Деталь, о которую легко споткнуться: отдельный инструмент Gemini CLI для частных лиц Google закрыл 18 июня 2026 и зовёт переходить на Antigravity, их новый редактор с ИИ - я расписывал переход на Antigravity пошагово.
- Codex внутри ChatGPT. Если у тебя уже есть подписка ChatGPT Plus за $20, агент Codex для кода входит в неё без доплаты. Он доступен и на бесплатном уровне ChatGPT, только лимит запросов там жёсткий.
Хочешь один доступ ко всем моделям сразу - заведи ключ на OpenRouter. Это посредник: один ключ, а за ним десятки моделей, включая бесплатные. Не нужно регистрироваться у каждого разработчика по отдельности.
Как подключить дешёвую модель за 15 минут?
Командную строку трогать не придётся. Весь путь проходит в обычном окне редактора.
Поставь VS Code и расширение Cline
VS Code - бесплатный редактор кода от Microsoft. Внутри, во вкладке расширений, найди Cline и нажми «Установить». Сам Cline - это ИИ-агент прямо в редакторе, и он бесплатный.Заведи ключ на OpenRouter
Зарегистрируйся на openrouter.ai, открой раздел ключей, создай новый. Это строка вида sk-or-... Положи на счёт пару долларов или сразу выбери бесплатную модель - тогда платить не придётся.Вставь ключ в Cline
В настройках Cline выбери провайдера OpenRouter и вставь ключ. Список доступных моделей подтянется сам.Выбери модель
Найди нужную: z-ai/glm-5.2 ради силы, qwen/qwen3-coder ради бесплатной работы, deepseek ради дешевизны. Переключать их можно когда угодно.Дай задачу словами
Опиши обычным языком, что нужно сделать. Агент прочитает проект, предложит правки, ты подтвердишь. Дальше работа идёт ровно как в Claude.
Если ты уже работал с Claude Code, привыкать почти не к чему - всё то же самое, меняется только сама модель под капотом. Про сам инструмент я подробно писал в гайде Cline против Claude Code.
Где дешёвая модель подведёт
Я не топлю за один инструмент на все случаи - так не бывает. Дешёвая модель часто отличный выбор, но у экономии есть обратная сторона, и про неё скажу прямо.
Данные. Когда работаешь с китайской моделью через её официальный API, твои запросы (а с ними и куски кода) уходят на серверы зарубежного вендора. Для учебного проекта это мелочь. Для продукта с клиентскими данными или коммерческой тайной - уже повод подумать. Выход простой: бери модель через OpenRouter или подними веса на своём сервере, и поток данных будет другим.
Надёжность на длинной дистанции. Поправить одну функцию слабая модель ещё вытянет. А вот когда отпускаешь агента на полчаса самому ковырять большую задачу, открытые модели чаще сыпятся: теряют нить, ломают то, что уже работало. Платный Claude на таких сценариях устойчивее, и сэкономленные доллары легко оборачиваются потерянными часами.
Экосистема. Вокруг Claude Code наросли навыки, расширения, агенты, готовые связки. У открытых моделей всё это тоже есть, просто беднее. Если ты завязан на конкретные инструменты, переезд не всегда бесплатен по времени.
Самая дорогая экономия - это когда дешёвая модель полдня возится с задачей, ломает рабочий код, и ты доплачиваешь нервами и временем. Считай не цену токена, а цену результата. Иногда $5 на Claude выходит дешевле, чем «бесплатно» на слабой модели.
Какую модель выбрать именно тебе?
Универсального ответа нет, но логика по ситуациям простая.
| Твоя ситуация | Что брать | Почему |
|---|---|---|
| Только пробую, учусь | Qwen3-Coder или Gemini (бесплатно) | Ноль риска по деньгам, для практики хватает |
| Кодишь регулярно, хочу понятный счёт | GLM Coding Plan (~$3-6/мес) | Фиксированная цена, сила почти как у платных |
| Нерегулярно, задачи разные | OpenRouter по токенам | Платишь по факту, переключаешь модели |
| Серьёзный продукт, клиентские данные | Claude | Устойчивее на длинных задачах, безопаснее по данным |
| Уже плачу за ChatGPT Plus | Codex в подписке | Уже оплачен, доплачивать не нужно |
Нормальная стратегия - комбинировать. Черновую и учебную работу гоняй на бесплатной или дешёвой модели, а ответственные куски доверяй Claude. Так и работают почти все, кто кодит с ИИ каждый день.
Короткие ответы на частые вопросы
Что на самом деле решает - модель или метод?
Я часто вижу, как человек гоняется за «той самой моделью»: меняет одну на другую и каждый раз разочаровывается. А дело почти никогда не в модели.
Любая модель, хоть платная, хоть бесплатная, выдаёт мусор, если кормить её мусором. А на хорошо подготовленном контексте даже дешёвая модель работает на удивление аккуратно. Так и работает контекст-инжиниринг: ты управляешь тем, что модель видит до того, как нажал «отправить».
Предсказуемый результат на любой модели держится на трёх вещах. Нужна структура знаний о проекте, к которой агент обращается на каждом шаге - я зову это Вторым мозгом. Дальше агента стоит настроить под твою логику, чтобы он предлагал в твоём стиле, а не в среднем по интернету. И сверху - управление контекстом: что подгрузить, что выкинуть, когда начать заново. Освоишь это - и вопрос «какую модель взять» перестанет быть болью. Возьмёшь любую по карману.
Источники
- Z.ai's open-weights GLM-5.2 beats GPT-5.5 on coding benchmarks for 1/6th the cost - VentureBeat
- GLM-5.2 - официальный обзор и веса (HuggingFace, zai-org)
- Z.ai: GLM 5.2 - цены и тесты (OpenRouter)
- GLM Coding Plan - тарифы Z.ai
- GLM-5.2 Open Weights Live: риск данных при работе через API - TechTimes
- DeepSeek V4 - модели и цены (DeepSeek API Docs)
- Qwen3-Coder - цены и тесты (OpenRouter)
- Kimi K2.6 - цены и тесты (OpenRouter)
- Gemini CLI переходит в Antigravity CLI - Google Developers Blog
- Codex в подписке ChatGPT - OpenAI Help Center
Полная схема по вайб-кодингу за вечер: ИИ-клон + Второй мозг + Контекст-инжиниринг. Связка, которая держит результат на любой модели, что дорогой, что бесплатной.
Новые материалы - дайджестом, без спама
Гайды выходят регулярно. Подпишись, чтобы не пропускать: пришлю подборку в Telegram или на email. Раз в неделю или каждый день - выбираешь сам.

