
Как рассчитать затраты на обучение нейросети?
Разбираем как правильно спрогнозировать затраты на обучение ИИ моделей.
Вопрос «сколько стоит обучить модель» звучит просто, но честный ответ на него — «от $20 до $20 миллионов». И обе цифры будут правдой. Разница в десятки тысяч раз зависит не от везения, а от вполне конкретных решений: какую модель учим, на каких данных, на каком железе и насколько грамотно настроен пайплайн.
В этой статье — не маркетинговая «вилка от и до», а рабочая методика расчёта. Читатель должен закрыть страницу с пониманием, как прикинуть бюджет на свой сценарий за 10 минут, а не за неделю экспериментов.
Почему «стоимость обучения» — сложный вопрос
Когда CTO спрашивает у ML-инженера «сколько будет стоить дообучить модель под наш кейс», ответ «ну, тысяч пять-десять долларов» — это не оценка, а гадание. Потому что бюджет складывается из четырёх независимых переменных:
Размер модели — 7 миллиардов параметров или 70? Разница в потреблении VRAM и скорости обучения колоссальная.
GPU и его производительность — H100 быстрее A100 в задачах с FP8 примерно в 2–3 раза, но и стоит дороже. Окупится ли разница — отдельный расчёт.
Объём датасета и количество эпох — обучение на 10 тысячах примерах против 10 миллионов — это разные вселенные по времени.
Качество кода — неоптимизированный пайплайн съедает в 2–3 раза больше GPU-часов, чем нужно. Это самая частая причина переплат.
Большинство команд, которые впервые арендуют GPU в облаке, переплачивают в 2–5 раз. Не потому, что цены высокие, а потому что выбирают «с запасом» — берут H100 там, где хватило бы A100, или арендуют 8-GPU кластер для задачи, которая помещается на одну карту. Иногда забывают остановить инстанс на выходные — счёт за простой может составить 30–40% от бюджета.
Поэтому вместо одной цифры мы пойдём по формуле и трём конкретным сценариям.
Из чего складывается стоимость: формула
Базовая формула — простая до неприличия:
Стоимость = GPU-часы × цена аренды GPU
Сложность — в первом множителе. GPU-часы — это не просто «сколько часов крутилось железо». Это интеграл от трёх величин:
GPU-часы ≈ (объём вычислений модели × размер датасета × эпохи) / производительность GPU
На практике никто не считает это вручную — есть готовые ориентиры для популярных моделей и архитектур, плюс пробный прогон на 1% данных, чтобы экстраполировать. Об этом — ниже.
Скрытые расходы, которые забывают учесть
Цена за час GPU — это вершина айсберга. Что под ней скрыто?
Хранилище данных и чекпоинтов. Датасет в несколько терабайт нужно где-то держать. Чекпоинты модели на 30B параметров занимают по 60–120 ГБ каждый, и сохранять их обычно нужно регулярно. На некоторых провайдерах хранилище бесплатно, пока арендован GPU, на других — отдельный счёт по $0.05–0.10 за ГБ в месяц.
Сетевой трафик. Загрузка датасета и выгрузка обученной модели — это десятки или сотни гигабайт. У гипермасштабируемых облаков (AWS, GCP, Azure) исходящий трафик платный — до $0.09 за ГБ. На специализированных GPU-маркетплейсах исходящий трафик чаще бесплатный или входит в тариф.
Простой при отладке. GPU тарифицируется поминутно с момента запуска, а не с момента, когда вы начали реальное обучение. Если вы 40 минут ставите окружение, ловите ошибки CUDA и качаете датасет — это GPU-часы, которые вы оплатите. Хороший шаблон с предустановленным PyTorch экономит реально много.
Прерывания на спот-инстансах. Спот-инстансы дешевле on-demand на 40–65%, но могут быть отозваны провайдером. Если в коде нет нормального чекпоинтинга, прерывание означает потерю прогресса и пересчёт. Без подготовки спот превращается в дорогое удовольствие.
Примеры расчётов для реальных сценариев
Здесь и далее — ориентировочные цифры по данным рынка на момент написания (весна 2026). Реальные значения зависят от качества кода, специфики данных и текущей загрузки провайдеров. Берите как отправную точку, а не как окончательную смету.
Сценарий 1. Fine-tuning Mistral 7B на корпоративных данных через LoRA
Задача: компания хочет дообучить открытую модель Mistral 7B на своей базе знаний — 5–10 тысяч пар «вопрос-ответ» из тикетов поддержки. Цель — получить ассистента для внутреннего использования.
Конфигурация: одиночный RTX 4090 (24 ГБ VRAM) или A100 40 ГБ. LoRA (метод дообучения, при котором обновляется только 1–2% весов) делает задачу подъёмной даже для потребительской карты.
Время обучения: 8–15 часов на RTX 4090. На A100 — в 1.5–2 раза быстрее за счёт более высокой производительности.
Расчёт стоимости:
На маркетплейсах типа QuData аренда RTX 4090 — около $0.30–0.50 в час
12 часов × $0.40 ≈ $5–8 за весь прогон
Даже с экспериментами и парой неудачных запусков укладывается в $30–50. Этот сценарий — пример, когда слухи о «дорогом ИИ» абсолютно мимо. Дообучение под бизнес-задачу сегодня доступнее, чем месяц подписки на корпоративный софт.
Сценарий 2. Обучение модели среднего размера (1–3B параметров) с нуля
Задача: исследовательская группа или стартап обучает собственную небольшую LLM на специализированных данных — например, медицинских или юридических. Размер — 1.5B параметров, датасет — около 100B токенов (умеренный по меркам LLM).
Конфигурация: 4–8 GPU A100 80 ГБ в одном узле. Это уже распределённое обучение, нужен нормальный код с DDP или FSDP.
Время обучения: 200–400 GPU-часов на узел из 8 A100. То есть около 25–50 часов wall-clock на 8-карточном инстансе.
Расчёт стоимости:
A100 80 ГБ на маркетплейсе: $1.30–2.00 в час за карту
8 GPU × 40 часов × $1.50 ≈ $480
На спот-инстансах с экономией 40% — $280–300
Для сравнения, та же задача на on-demand AWS обошлась бы в $4000–5000 (A100 80GB на p4de — около $40/час за инстанс из 8 карт, плюс трафик). Десятикратная разница.
Сценарий 3. Обучение/дообучение крупной модели (30B+)
Задача: дообучение модели уровня Llama 70B или собственная LLM на 30B параметров с full fine-tuning (полное обновление весов, не LoRA).
Конфигурация: кластер из 8–16 H100. Это уже не «арендовали и забыли» — нужен опыт работы с DeepSpeed ZeRO-3 или FSDP, аккуратная настройка градиентного чекпоинтинга, mixed precision.
Время обучения: для full fine-tuning Llama 70B на качественном датасете в несколько миллиардов токенов — порядка 300–800 GPU-часов на 8 H100. То есть 40–100 часов wall-clock.
Расчёт стоимости:
H100 на маркетплейсе: $2.00–3.00 в час
8 GPU × 60 часов × $2.50 ≈ $1200
С учётом экспериментов, неудачных прогонов, отладки — реалистичный бюджет $3000–8000
Для сравнения: тот же сценарий на гипермасштабируемом облаке — $20 000–50 000. На стороне маркетплейсов — экономия в 5–10 раз без потери качества железа (это те же H100, тот же NVLink). Полное обучение крупной модели с нуля — это уже совсем другие порядки: десятки и сотни тысяч долларов, и здесь грамотный выбор инфраструктуры экономит шестизначные суммы.
Как снизить стоимость без потери качества
Не брать H100 там, где хватит A100
H100 в среднем в 1.5–2 раза дороже A100, но это не значит, что обучение пойдёт в 2 раза быстрее. Для моделей до 13B параметров без активного использования FP8 разница в скорости часто составляет 20–40%, а не двойную. Простой расчёт: если на A100 за $1.50/час обучение займёт 100 часов ($150), а на H100 за $2.80/час — 70 часов ($196), то H100 здесь не выгоднее.
H100 окупается там, где модель упирается в Transformer Engine и FP8 — это в основном модели от 30B и тренировка с очень большими батчами. Для остальных задач A100 80GB остаётся оптимальным выбором.
Spot/preemptible инстансы
Спот-инстансы дают экономию 40–65% по сравнению с on-demand. Главный риск — провайдер может отозвать инстанс без долгого предупреждения. Когда это оправдано:
Обучение реализовано с регулярным сохранением чекпоинтов (каждые 30–60 минут)
Можно автоматически возобновить с последнего чекпоинта
Не критичен дедлайн «закончить к утру»
Когда лучше on-demand: первый прогон на новом коде (отлаживать на споте — ад), inference в продакшене, обучение перед демо инвесторам.
Оптимизация кода
Mixed precision (обучение в FP16/BF16 вместо FP32) — стандарт де-факто. Дает прирост скорости 1.5–2x и снижает потребление VRAM в 1.5 раза. В современных фреймворках включается одной строчкой.
Gradient checkpointing — техника, при которой промежуточные активации не хранятся в памяти, а пересчитываются при backward pass. Замедляет обучение на 20–25%, но экономит до 60% VRAM. Незаменимо, когда модель не помещается в память.
LoRA и QLoRA вместо полного fine-tuning — снижают требования к VRAM в 3–4 раза и время обучения в 5–10 раз. Для большинства бизнес-задач (адаптация под домен, кастомизация стиля) этого достаточно — full fine-tuning часто избыточен.
Сравнение провайдеров — главный рычаг
Самый недооценённый способ снизить бюджет — просто сравнить цены. На один и тот же H100 80GB разброс между провайдерами составляет до 5x: от $1.49 у Vast.ai до $7+ у Azure, по данным мониторинга рынка. A100 80GB — от $1.29 до $3.67. Это не разница в качестве — это разница в бизнес-моделях.
Гипермасштабируемые облака закладывают в цену корпоративные SLA, поддержку 24/7, интеграцию с десятками сервисов. Если вам нужно только обучить модель и забрать веса — вы переплачиваете за то, чем не пользуетесь. Маркетплейсы вроде QuData агрегируют 100+ провайдеров и 50 000+ предложений, позволяя за минуту найти карту, которая нужна, по цене, которая нужна — без долгосрочных контрактов и менеджеров по продажам.
Итого: шаблон для быстрой оценки бюджета
Сводная таблица — отправная точка для расчёта вашего сценария. Цены — ориентировочные диапазоны на спот- и on-demand рынке маркетплейсов; на гипермасштабируемых облаках умножайте на 3–5.
Тип задачи | Рекомендуемый GPU | GPU-часы (ориентировочно) | Диапазон стоимости |
Fine-tuning 7B через LoRA | 1× RTX 4090 / A100 40GB | 8–20 | $5–30 |
Fine-tuning 13B через LoRA | 1–2× A100 80GB | 20–50 | $30–150 |
Обучение 1–3B с нуля | 4–8× A100 80GB | 200–500 | $250–1500 |
Full fine-tuning 30–70B | 8–16× H100 | 300–800 | $1000–5000 |
Обучение 7B с нуля | 8× A100 80GB / H100 | 1500–3000 | $2500–10 000 |
Обучение 30B+ с нуля | 32–128× H100 | 10 000+ | $30 000+ |
Алгоритм расчёта своего бюджета за 5 минут:
Определите размер модели и тип задачи (fine-tuning или обучение с нуля).
По таблице найдите ориентир GPU-часов и тип GPU.
Умножьте на актуальную цену аренды (см. на маркетплейсе).
Добавьте 30–50% запаса на отладку, эксперименты и неудачные прогоны.
Если бюджет превышает $1000 — рассмотрите спот-инстансы и оптимизацию кода (LoRA, mixed precision).
Главный вывод: цена обучения нейросети сегодня — это не приговор, а функция от грамотности выбора. Один и тот же эксперимент может стоить $50 или $500 в зависимости от того, на каком провайдере вы арендовали GPU и насколько внимательно настроили пайплайн. Разница в десятки раз — это норма рынка, а не аномалия.