
Сравнение GPU для обучения ИИ
Какую видеокарту выбрать для обучения ИИ модели?
Когда команда выбирает GPU под обучение или инференс, чаще всего происходит одно из двух: либо берут самую дорогую карту «на вырост» и потом полгода смотрят, как она простаивает на 30% загрузки, либо экономят на VRAM и упираются в OOM посреди эпохи. Оба сценария — про деньги: в первом переплачиваешь за железо, во втором — за время инженеров.
Эта статья — попытка свести в одно место то, что обычно приходится собирать по reddit-тредам, бенчмаркам Lambda Labs и собственным шишкам. Без рекламы конкретного железа: только связка «задача → карта → разумная цена аренды».
Почему выбор GPU критичен: не всё решает «самая новая карточка»
Базовая ошибка — выбирать GPU по году выпуска и числу TFLOPS на сайте производителя. На бумаге H100 в разы быстрее A100, а A100 — быстрее RTX 4090. На практике выигрыш сильно зависит от того, во что упирается ваш конкретный пайплайн.
Если вы файнтюните 7B-модель в FP16 с batch size, который влезает в 24 ГБ VRAM, разница между RTX 4090 и H100 на одной и той же задаче будет в районе 2–3x по скорости — но H100 при этом стоит в аренде в 5–8 раз дороже. Простая арифметика: за те же деньги вы запустите три-четыре эксперимента на 4090 вместо одного на H100. Для исследовательской фазы это критично.
Обратная ситуация — обучение модели на 70B параметров. Здесь RTX 4090 не вариант в принципе: 24 ГБ VRAM не хватит даже для весов, не говоря об оптимизаторе и активациях. Тут H100 с 80 ГБ HBM3 или H200 со 141 ГБ HBM3e — не «премиум», а необходимость.
Что реально важно смотреть, кроме FLOPS:
VRAM — определяет, какой размер модели и batch size вы вообще можете загрузить. Для LLM это первое ограничение, в которое упираются.
Пропускная способность памяти — сколько данных GPU может прокачать между HBM и вычислительными блоками за секунду. Для большинства трансформеров инференс упирается именно в memory bandwidth, а не в compute. H200 с 4.8 ТБ/с против A100 с 2 ТБ/с даёт прирост на инференсе LLM просто за счёт памяти, без всяких новых tensor cores.
Tensor cores и поддержка форматов — H100/H200 умеют FP8, A100 — нет. Если ваш стек уже на FP8 (через TransformerEngine, например), Hopper-поколение даёт реальный 2x прирост. Если вы на FP16/BF16 — разница меньше.
NVLink и межкарточная связь — для multi-GPU обучения важнее, чем сами карты. SXM-версии A100/H100 связаны через NVLink на сотни ГБ/с; PCIe-версии — через шину PCIe, что в multi-GPU сетапах становится бутылочным горлом.
Краткие профили GPU
Цены ниже — медианные по рынку аренды на начало 2026 года, по данным агрегаторов GPU-маркетплейсов. Разброс между провайдерами легко достигает 2–3x, об этом отдельно ниже.
GPU | VRAM | Memory bandwidth | Tensor cores | Цена аренды (медиана) | Для чего оптимально |
RTX 4090 | 24 ГБ GDDR6X | 1 ТБ/с | 4-го пок., FP16/BF16 | $0.30–0.60/час | Инференс, fine-tuning до 7B, рендер |
A100 PCIe 40/80 ГБ | 40 или 80 ГБ HBM2e | 1.5–2.0 ТБ/с | 3-го пок. | $0.80–1.60/час | Тренировка средних моделей, научный compute |
A100 SXM 80 ГБ | 80 ГБ HBM2e | 2.0 ТБ/с | 3-го пок., NVLink 600 ГБ/с | $1.20–2.20/час | Multi-GPU обучение 7B–30B |
H100 SXM 80 ГБ | 80 ГБ HBM3 | 3.35 ТБ/с | 4-го пок., FP8, NVLink 900 ГБ/с | $2.50–4.50/час | Тренировка LLM 30B+, FP8-стек |
H200 SXM | 141 ГБ HBM3e | 4.8 ТБ/с | 4-го пок., FP8 | $3.50–6.00/час | LLM 70B+, длинный контекст, инференс больших моделей |
В среднем классе стоит знать про A10 (24 ГБ, около $0.40–0.80/час) — рабочая лошадка для инференса средних моделей, и L40S (48 ГБ, около $1.00–1.80/час) — компромисс между объёмом памяти и ценой, часто разумная альтернатива A100 PCIe для инференса и лёгкого обучения.
Отдельно про A100 PCIe vs SXM: разница не только в NVLink. SXM-версии имеют выше TDP и держат частоты под нагрузкой стабильнее. Для одиночной карты разница в производительности 5–10%, для 8x сетапа — может быть 30–40% за счёт межкарточного обмена.
Какую GPU выбрать под задачу
Обучение больших LLM (30B–70B+ параметров)
Здесь выбор сужается до H100 и H200, и часто — в multi-GPU конфигурациях. Для модели на 70B параметров с оптимизатором Adam в FP16 нужно порядка 1.1 ТБ памяти суммарно (веса + градиенты + состояния оптимизатора + активации). Это минимум 8x H100 80 ГБ или 8x H200 с заметным запасом.
H200 интереснее H100 в двух сценариях: длинный контекст (KV-cache съедает память пропорционально длине) и инференс — 141 ГБ позволяют разместить 70B-модель целиком на одной карте в FP8 с разумным batch size. Для самой тренировки разница H100 vs H200 не радикальная: примерно 1.4–1.8x по скорости в зависимости от того, насколько задача memory-bound.
Что касается споров a100 vs h100 для тренировки больших моделей — A100 ещё актуальна для моделей до 13–30B, особенно если у вас уже отлаженный пайплайн на BF16. Но для всего, что больше, H100 окупается просто за счёт сокращения времени обучения: тренировка, которая на 8x A100 идёт три недели, на 8x H100 укладывается в неделю-полторы. Аренда дороже в 1.8–2.2x, но времени тратится меньше — и инженеры не сидят без дела.
Fine-tuning средних моделей (1B–7B)
Здесь начинается зона, где rtx 4090 для машинного обучения — реально разумный выбор, особенно для исследовательских итераций. С QLoRA или 4-bit квантизацией Llama-7B спокойно файнтюнится на одной 4090. Скорость ниже, чем на A100, но цена аренды в 3–5 раз меньше — для прототипирования и подбора гиперпараметров это золотое соотношение.
A100 80 ГБ становится осмысленной, когда нужен полный fine-tuning без квантизации, или когда модель ближе к 13B, или когда batch size критичен для качества (некоторые методы alignment плохо работают на маленьких батчах).
Если у вас несколько экспериментов параллельно — четыре RTX 4090 за цену одной H100 часто дают больше суммарного полезного времени, чем эта одна H100. Особенно если задачи независимые и не требуют межкарточной коммуникации.
Инференс с низкой латентностью
Здесь простого ответа нет — всё зависит от размера модели и требований по latency.
Для моделей до 7B в production-инференсе A10 и L40S часто выигрывают по cost per request у A100 и тем более H100. У них хуже compute, но для инференса это редко бутылочное горлышко — упор идёт в memory bandwidth и в работу с KV-cache.
Для моделей 13B–70B на инференсе H100 и особенно H200 раскрываются: FP8 даёт реальный 1.5–2x throughput по сравнению с FP16 на A100, плюс H200 умещает большие модели целиком без необходимости tensor parallelism.
RTX 4090 для инференса в production использовать можно, но осторожно: лицензионные ограничения NVIDIA на использование GeForce-карт в датацентрах формально запрещают это в коммерческих сервисах. Для research и внутренних задач — без проблем.
3D-рендеринг, видео, диффузионные модели
RTX 4090 — лучший выбор по соотношению цена/производительность. Stable Diffusion XL, Flux, генерация видео — всё это упирается в compute и в работу с FP16, где у 4090 отличные показатели. A100 и H100 здесь часто избыточны и не дают пропорционального прироста.
Научные вычисления и симуляции
Зависит от того, нужен ли FP64. Если да — A100 и H100 единственный разумный выбор (RTX-карты сильно урезаны по FP64). Если расчёты в FP32/FP16 — 4090 может быть конкурентоспособна.
Цена аренды: где реальная экономия
Самое неочевидное в аренде GPU — это насколько разные провайдеры просят за идентичное железо. На начало 2026 года для H100 SXM разброс цен на рынке выглядит примерно так: AWS p5 instances — около $4.5–6 за GPU/час, GCP A3 — близко к этому, у специализированных GPU-облаков типа Lambda, CoreWeave, RunPod — $2.5–3.5/час, у небольших провайдеров и tier-2 дата-центров — иногда $1.8–2.5/час.
Разница между $1.8 и $5 за час — это x2.7 на одно и то же железо. На месяце непрерывной аренды одной карты — разница в $2 300. На сетапе из 8 карт — $18 000+ в месяц. Для стартапа это часто разница между «дотянули до раунда» и «не дотянули».
Причин такого разброса несколько: гипермасштабируемые облака платят за бренд, SLA и интеграцию с экосистемой; специализированные GPU-провайдеры выигрывают на фокусе; небольшие провайдеры в регионах с дешёвой электроэнергией (Скандинавия, отдельные регионы СНГ, Восточная Европа) дают цены, которых крупные игроки физически не могут предложить.
Проблема в том, что обойти все 50–100 провайдеров вручную нереально, плюс у каждого своя политика по доступности — карта может быть в каталоге, но fact-of-the-day не выдаваться. Поэтому маркетплейсы вроде QuData, которые агрегируют предложения от провайдеров и показывают реальные цены и доступность в одном интерфейсе, экономят не столько на самом железе, сколько на времени и нервах поиска.
Конкретно для аренды серверов с h100, h200 или a100 имеет смысл смотреть не одного провайдера, а сравнивать предложения: разница 1.5–2x — норма, и она не коррелирует с качеством сервиса напрямую.
Итог: как принять решение за 5 минут
Если вкратце, чек-лист выбора GPU выглядит так. Сначала смотрите на размер модели и считаете нужный VRAM с запасом 1.5–2x на оптимизатор и активации. Затем определяете тип задачи: тренировка с нуля больших моделей — Hopper-поколение и multi-GPU; fine-tuning средних — A100 или RTX 4090 в зависимости от метода; инференс — выбор между A10/L40S/H100 по размеру модели и latency-требованиям. Потом смотрите бюджет: если вы в research-фазе с десятками экспериментов, экономия на железе почти всегда оправдана; если в production со стабильной нагрузкой — критичнее SLA и доступность, чем последние 20% цены.
И главное: не берите H100 «на всякий случай». Если ваша модель честно влезает в RTX 4090 и вы не упираетесь в compute, переплата за Hopper — это просто переплата.
Сравнить актуальные цены на A100, H100, H200 и RTX 4090 от разных провайдеров можно на QuData — у нас агрегированы предложения 100+ площадок, и видно сразу, где конкретная карта дешевле в моменте. Часто один и тот же сетап удаётся собрать в 2–3 раза дешевле, чем на странице первого попавшегося провайдера в гугле.