Когда ваш серверный шкаф стоит как квартира в Москве, выключать его ради замены одного кабеля — это не ремонт, а трагикомедия с элементами финансового хоррора. Дженсен Хуанг на CES 2026 ровно об этом и говорил, только языком миллиардных дата‑центров и токенов.
Сначала он аккуратно перевёл разговор с любимых маркетингом терафлопсов к тому, что реально платит деньги, — инференсу. Обучение моделей эпизодично, а вот инференс работает как круглосуточный завод: токены летят, счётчик крутится. Поэтому главный KPI — не «ускорение в бенчмарке», а сколько полезных токенов можно выжать из одного ватта и одного доллара.
Отсюда и Vera Rubin — новая «стойка как продукт». Хуанг честно признаёт: раньше при поломке NVLink или узла весь шкаф за $3 млн уходил в ноль, пока его перебирают. Теперь архитектура лотков и отсутствие десятков кабелей позволяют вытаскивать модуль на ходу, обновлять прошивки «на горячую» и не останавливать ферму. Не ноль отказов, а быстрая реанимация — вот новая религия.
Вторая большая тема — энергия. Современный GPU Rubin ест до 1800 Вт, а когда сотни ускорителей «просыпаются» одновременно, ток скачет до +25%. Обычно это лечат чудовищным оверпроиженингом мощностей или батарейными фермами. NVIDIA идёт другим путём: сглаживает пики прямо в стойке, координируя питание вычислений, сети и памяти. Результат — не рекордный, но стабильный throughput без троттлинга и отключений. Для стран с жёсткими сетевыми ограничениями и холодным климатом вроде России это особенно актуально: можно строить эффективные ИИ‑кластеры, не превращая энергосистему в поле экспериментов.
Отдельным пунктом Хуанг прошёлся по вечному спору «сэкономим на памяти любой ценой». Да, более дешёвые уровни памяти соблазнительны, но каждый экзотический вариант — это ещё один софт‑стек, который придётся поддерживать годами. Чип раз сделали и продали, а вот ПО «кормят» до пенсии. Поэтому ставка NVIDIA — единая программная и мемори‑модель, пусть и ценой жертвы узкой оптимизацией.
И наконец, открытые модели. По оценке Хуанга, уже каждый четвёртый токен в мире генерируется open‑weight‑моделью. Они снимают барьеры входа: компании, университеты, лаборатории — в том числе российские — могут запускать серьёзный инференс без армии ресёрчеров и лицензий уровня hyperscaler. Да, кластеры меньше, зато их несравнимо больше, а суммарный спрос на «железо» растёт так, что, по словам CEO, цены на Hopper в облаках даже идут вверх.
В сухом остатке NVIDIA рисует будущее, где выигрывает не самый громкий бенчмарк, а тот, кто умеет: держать стойки в онлайне, выравнивать энергетику и не плодить зоопарк софта. И чем активнее мир — и Россия в том числе — будет строить свои ИИ‑фабрики, тем важнее окажется именно такая прагматичная инженерия, а не очередной красивый слайд с пиком терафлопсов.
