Если ИИ когда‑нибудь откроет кошелёк, он сначала спросит: «А где скидка по промокоду?». DeepSeek, похоже, уже нашла её: компания из Ханчжоу заявила, что обучение их reasoning‑модели R1 обошлось в $294 000 — сумма, от которой у бухгалтеров больших лабораторий нервно дёргается калькулятор.
Подробности — в рецензируемой статье Nature: R1 — модель с акцентом на рассуждения, для её тренировки использовали 512 чипов H800. На фоне привычных для отрасли цифр про «десятки и сотни миллионов» это выглядит почти как челлендж. Для сравнения, Сэм Альтман ещё в 2023‑м говорил, что «обучение базовой модели» стоило значительно больше $100 млн, без конкретики по релизам. Контраст впечатляет.
И это не первый раз, когда DeepSeek раскачивает лодку. В январе компания выпустила «низкостоимостные» модели — и инвесторы дружно подпрыгнули, сбрасывая техакции, опасаясь, что эффективность новых подходов поколеблет доминирование лидеров и производителей чипов. С тех пор команда и основатель Лян Вэньфэн почти пропали с радаров, ограничившись редкими апдейтами. Теперь Лян фигурирует среди соавторов Nature — и дискуссия начинается по новой.
Что означает «$294 000» в реальном железе? Кластер из 512 H800 — это серьёзно, но далеко не гигантский масштаб по меркам «фронтирных» проектов. Если цифра подтверждается, ставка явно сделана на инженерную экономию: грамотное расписание задач, эффективные пайплайны, возможно, более компактные корпуса данных и акцент на способности к рассуждению вместо наращивания параметров. Вопросы, разумеется, остаются: воспроизводимость, качество на бенчмарках, скрытые накладные (данные, подготовка, эксперименты).
Однако сам факт задаёт тон следующему раунду гонки. Не столько «кто имеет больше GPU», сколько «кто умеет думать дешевле». Если R1 действительно держит планку качества при такой стоимости, рынок ждёт переоценка стратегий: от архитектур и датасетов до финансовых моделей. А пока одно ясно точно: в мире ИИ счёт теперь идёт не только на терафлопсы, но и на доллары.