Как рассчитать затраты на обучение нейросети?

Разбираем как правильно спрогнозировать затраты на обучение ИИ моделей.

8 мая 2026 г.Автор: qudata7 мин чтения

Вопрос «сколько стоит обучить модель» звучит просто, но честный ответ на него — «от $20 до $20 миллионов». И обе цифры будут правдой. Разница в десятки тысяч раз зависит не от везения, а от вполне конкретных решений: какую модель учим, на каких данных, на каком железе и насколько грамотно настроен пайплайн.

В этой статье — не маркетинговая «вилка от и до», а рабочая методика расчёта. Читатель должен закрыть страницу с пониманием, как прикинуть бюджет на свой сценарий за 10 минут, а не за неделю экспериментов.

Почему «стоимость обучения» — сложный вопрос

Когда CTO спрашивает у ML-инженера «сколько будет стоить дообучить модель под наш кейс», ответ «ну, тысяч пять-десять долларов» — это не оценка, а гадание. Потому что бюджет складывается из четырёх независимых переменных:

Размер модели — 7 миллиардов параметров или 70? Разница в потреблении VRAM и скорости обучения колоссальная.
GPU и его производительность — H100 быстрее A100 в задачах с FP8 примерно в 2–3 раза, но и стоит дороже. Окупится ли разница — отдельный расчёт.
Объём датасета и количество эпох — обучение на 10 тысячах примерах против 10 миллионов — это разные вселенные по времени.
Качество кода — неоптимизированный пайплайн съедает в 2–3 раза больше GPU-часов, чем нужно. Это самая частая причина переплат.

Большинство команд, которые впервые арендуют GPU в облаке, переплачивают в 2–5 раз. Не потому, что цены высокие, а потому что выбирают «с запасом» — берут H100 там, где хватило бы A100, или арендуют 8-GPU кластер для задачи, которая помещается на одну карту. Иногда забывают остановить инстанс на выходные — счёт за простой может составить 30–40% от бюджета.

Поэтому вместо одной цифры мы пойдём по формуле и трём конкретным сценариям.

Из чего складывается стоимость: формула

Базовая формула — простая до неприличия:

Стоимость = GPU-часы × цена аренды GPU

Сложность — в первом множителе. GPU-часы — это не просто «сколько часов крутилось железо». Это интеграл от трёх величин:

GPU-часы ≈ (объём вычислений модели × размер датасета × эпохи) / производительность GPU

На практике никто не считает это вручную — есть готовые ориентиры для популярных моделей и архитектур, плюс пробный прогон на 1% данных, чтобы экстраполировать. Об этом — ниже.

Скрытые расходы, которые забывают учесть

Цена за час GPU — это вершина айсберга. Что под ней скрыто?

Хранилище данных и чекпоинтов. Датасет в несколько терабайт нужно где-то держать. Чекпоинты модели на 30B параметров занимают по 60–120 ГБ каждый, и сохранять их обычно нужно регулярно. На некоторых провайдерах хранилище бесплатно, пока арендован GPU, на других — отдельный счёт по $0.05–0.10 за ГБ в месяц.

Сетевой трафик. Загрузка датасета и выгрузка обученной модели — это десятки или сотни гигабайт. У гипермасштабируемых облаков (AWS, GCP, Azure) исходящий трафик платный — до $0.09 за ГБ. На специализированных GPU-маркетплейсах исходящий трафик чаще бесплатный или входит в тариф.

Простой при отладке. GPU тарифицируется поминутно с момента запуска, а не с момента, когда вы начали реальное обучение. Если вы 40 минут ставите окружение, ловите ошибки CUDA и качаете датасет — это GPU-часы, которые вы оплатите. Хороший шаблон с предустановленным PyTorch экономит реально много.

Прерывания на спот-инстансах. Спот-инстансы дешевле on-demand на 40–65%, но могут быть отозваны провайдером. Если в коде нет нормального чекпоинтинга, прерывание означает потерю прогресса и пересчёт. Без подготовки спот превращается в дорогое удовольствие.

Примеры расчётов для реальных сценариев

Здесь и далее — ориентировочные цифры по данным рынка на момент написания (весна 2026). Реальные значения зависят от качества кода, специфики данных и текущей загрузки провайдеров. Берите как отправную точку, а не как окончательную смету.

Сценарий 1. Fine-tuning Mistral 7B на корпоративных данных через LoRA

Задача: компания хочет дообучить открытую модель Mistral 7B на своей базе знаний — 5–10 тысяч пар «вопрос-ответ» из тикетов поддержки. Цель — получить ассистента для внутреннего использования.

Конфигурация: одиночный RTX 4090 (24 ГБ VRAM) или A100 40 ГБ. LoRA (метод дообучения, при котором обновляется только 1–2% весов) делает задачу подъёмной даже для потребительской карты.

Время обучения: 8–15 часов на RTX 4090. На A100 — в 1.5–2 раза быстрее за счёт более высокой производительности.

Расчёт стоимости:

На маркетплейсах типа QuData аренда RTX 4090 — около $0.30–0.50 в час
12 часов × $0.40 ≈ $5–8 за весь прогон

Даже с экспериментами и парой неудачных запусков укладывается в $30–50. Этот сценарий — пример, когда слухи о «дорогом ИИ» абсолютно мимо. Дообучение под бизнес-задачу сегодня доступнее, чем месяц подписки на корпоративный софт.

Сценарий 2. Обучение модели среднего размера (1–3B параметров) с нуля

Задача: исследовательская группа или стартап обучает собственную небольшую LLM на специализированных данных — например, медицинских или юридических. Размер — 1.5B параметров, датасет — около 100B токенов (умеренный по меркам LLM).

Конфигурация: 4–8 GPU A100 80 ГБ в одном узле. Это уже распределённое обучение, нужен нормальный код с DDP или FSDP.

Время обучения: 200–400 GPU-часов на узел из 8 A100. То есть около 25–50 часов wall-clock на 8-карточном инстансе.

Расчёт стоимости:

A100 80 ГБ на маркетплейсе: $1.30–2.00 в час за карту
8 GPU × 40 часов × $1.50 ≈ $480
На спот-инстансах с экономией 40% — $280–300

Для сравнения, та же задача на on-demand AWS обошлась бы в $4000–5000 (A100 80GB на p4de — около $40/час за инстанс из 8 карт, плюс трафик). Десятикратная разница.

Сценарий 3. Обучение/дообучение крупной модели (30B+)

Задача: дообучение модели уровня Llama 70B или собственная LLM на 30B параметров с full fine-tuning (полное обновление весов, не LoRA).

Конфигурация: кластер из 8–16 H100. Это уже не «арендовали и забыли» — нужен опыт работы с DeepSpeed ZeRO-3 или FSDP, аккуратная настройка градиентного чекпоинтинга, mixed precision.

Время обучения: для full fine-tuning Llama 70B на качественном датасете в несколько миллиардов токенов — порядка 300–800 GPU-часов на 8 H100. То есть 40–100 часов wall-clock.

Расчёт стоимости:

H100 на маркетплейсе: $2.00–3.00 в час
8 GPU × 60 часов × $2.50 ≈ $1200
С учётом экспериментов, неудачных прогонов, отладки — реалистичный бюджет $3000–8000

Для сравнения: тот же сценарий на гипермасштабируемом облаке — $20 000–50 000. На стороне маркетплейсов — экономия в 5–10 раз без потери качества железа (это те же H100, тот же NVLink). Полное обучение крупной модели с нуля — это уже совсем другие порядки: десятки и сотни тысяч долларов, и здесь грамотный выбор инфраструктуры экономит шестизначные суммы.

Как снизить стоимость без потери качества

Не брать H100 там, где хватит A100

H100 в среднем в 1.5–2 раза дороже A100, но это не значит, что обучение пойдёт в 2 раза быстрее. Для моделей до 13B параметров без активного использования FP8 разница в скорости часто составляет 20–40%, а не двойную. Простой расчёт: если на A100 за $1.50/час обучение займёт 100 часов ($150), а на H100 за $2.80/час — 70 часов ($196), то H100 здесь не выгоднее.

H100 окупается там, где модель упирается в Transformer Engine и FP8 — это в основном модели от 30B и тренировка с очень большими батчами. Для остальных задач A100 80GB остаётся оптимальным выбором.

Spot/preemptible инстансы

Спот-инстансы дают экономию 40–65% по сравнению с on-demand. Главный риск — провайдер может отозвать инстанс без долгого предупреждения. Когда это оправдано:

Обучение реализовано с регулярным сохранением чекпоинтов (каждые 30–60 минут)
Можно автоматически возобновить с последнего чекпоинта
Не критичен дедлайн «закончить к утру»

Когда лучше on-demand: первый прогон на новом коде (отлаживать на споте — ад), inference в продакшене, обучение перед демо инвесторам.

Оптимизация кода

Mixed precision (обучение в FP16/BF16 вместо FP32) — стандарт де-факто. Дает прирост скорости 1.5–2x и снижает потребление VRAM в 1.5 раза. В современных фреймворках включается одной строчкой.

Gradient checkpointing — техника, при которой промежуточные активации не хранятся в памяти, а пересчитываются при backward pass. Замедляет обучение на 20–25%, но экономит до 60% VRAM. Незаменимо, когда модель не помещается в память.

LoRA и QLoRA вместо полного fine-tuning — снижают требования к VRAM в 3–4 раза и время обучения в 5–10 раз. Для большинства бизнес-задач (адаптация под домен, кастомизация стиля) этого достаточно — full fine-tuning часто избыточен.

Сравнение провайдеров — главный рычаг

Самый недооценённый способ снизить бюджет — просто сравнить цены. На один и тот же H100 80GB разброс между провайдерами составляет до 5x: от $1.49 у Vast.ai до $7+ у Azure, по данным мониторинга рынка. A100 80GB — от $1.29 до $3.67. Это не разница в качестве — это разница в бизнес-моделях.

Гипермасштабируемые облака закладывают в цену корпоративные SLA, поддержку 24/7, интеграцию с десятками сервисов. Если вам нужно только обучить модель и забрать веса — вы переплачиваете за то, чем не пользуетесь. Маркетплейсы вроде QuData агрегируют 100+ провайдеров и 50 000+ предложений, позволяя за минуту найти карту, которая нужна, по цене, которая нужна — без долгосрочных контрактов и менеджеров по продажам.

Итого: шаблон для быстрой оценки бюджета

Сводная таблица — отправная точка для расчёта вашего сценария. Цены — ориентировочные диапазоны на спот- и on-demand рынке маркетплейсов; на гипермасштабируемых облаках умножайте на 3–5.

Тип задачи	Рекомендуемый GPU	GPU-часы (ориентировочно)	Диапазон стоимости
Fine-tuning 7B через LoRA	1× RTX 4090 / A100 40GB	8–20	$5–30
Fine-tuning 13B через LoRA	1–2× A100 80GB	20–50	$30–150
Обучение 1–3B с нуля	4–8× A100 80GB	200–500	$250–1500
Full fine-tuning 30–70B	8–16× H100	300–800	$1000–5000
Обучение 7B с нуля	8× A100 80GB / H100	1500–3000	$2500–10 000
Обучение 30B+ с нуля	32–128× H100	10 000+	$30 000+

Алгоритм расчёта своего бюджета за 5 минут:

Определите размер модели и тип задачи (fine-tuning или обучение с нуля).
По таблице найдите ориентир GPU-часов и тип GPU.
Умножьте на актуальную цену аренды (см. на маркетплейсе).
Добавьте 30–50% запаса на отладку, эксперименты и неудачные прогоны.
Если бюджет превышает $1000 — рассмотрите спот-инстансы и оптимизацию кода (LoRA, mixed precision).

Главный вывод: цена обучения нейросети сегодня — это не приговор, а функция от грамотности выбора. Один и тот же эксперимент может стоить $50 или $500 в зависимости от того, на каком провайдере вы арендовали GPU и насколько внимательно настроили пайплайн. Разница в десятки раз — это норма рынка, а не аномалия.

Блог и статьи