Если вам казалось, что «у меня и так мощный комп», Nvidia только что аккуратно положила вашу самооценку в стойку высотой с комнату и назвала это Vera Rubin NVL72.
Архитектура «всё сразу»
На CES 2026 Дженсен Хуанг показал Vera Rubin — новое поколение стойковой ИИ‑архитектуры Nvidia. Это не просто «ещё одна видеокарта», а результат «экстремального ко‑дизайна» сразу шести типов чипов:
- Vera CPU — 88 ARM‑ядер Olympus со «спатиальным многопотоком» (до 176 потоков) и до 1,5 ТБ LPDDR5X SOCAMM с пропускной до 1,2 ТБ/с.
- Rubin GPU — по 50 PFLOPS инференса в NVFP4 (в 5 раз больше Blackwell GB200) и 35 PFLOPS обучения (3,5× к Blackwell), плюс восемь стеков HBM4: 288 ГБ и 22 ТБ/с на пакет.
- NVLink 6 — до 3,6 ТБ/с двунаправленной шины на GPU; в стойке девять NVLink‑коммутаторов суммарно на ~260 ТБ/с.
- ConnectX‑9 SuperNIC, BlueField‑4 DPU, Spectrum‑6 Ethernet — для масштабирования за пределы одной стойки.
В итоге одна стойка NVL72 даёт:
- до 3,6 экзафлопс NVFP4‑инференса,
- до 2,5 экзафлопс обучения,
- 54 ТБ LPDDR5X у CPU,
- 20,7 ТБ HBM4 с чудовищными 1,6 ПБ/с суммарной пропускной.
NVL72 против взбесившихся токенов
Мир уходит от «плотных» моделей к Mixture‑of‑Experts (MoE), где на каждый токен включается только часть параметров. Это хорошо для масштаба, но жестоко бьёт по сетевой связности: эксперты должны общаться между собой быстрее, чем вы успеете написать «/retry».
Задача Rubin — уменьшить цену токена:
- до 5× больше производительности инференса на GPU;
- до 10× более низкая стоимость токена MoE‑инференса против Blackwell;
- до 4× меньше GPU для обучения тех же MoE‑моделей.
Для дата‑центров (в том числе российских, где уже строятся мощные ИИ‑кластеры) это переводится на простой язык:
столько же токенов — в меньшей стойке, за меньший счёт за электричество и с более предсказуемым масштабированием.
Спецоперация «контекст на миллион»
Рост контекстов до миллионов токенов неожиданно упёрся в банальный KV‑кэш. Чтобы не тонуть в истории беседы, Nvidia использует BlueField‑4 для нового уровня памяти:
Inference Context Memory Storage Platform.
Идея в том, чтобы:
- переиспользовать KV‑кэш между запросами и даже сервисами;
- разгрузить сами GPU от «возни с памятью»;
- обеспечить стабильную задержку и энергоэффективность для сложных агентных ИИ‑систем.
Для крупных экосистем и гос‑проектов (а Россия в ИИ сейчас заметно ускоряется) это особенно важно: можно строить большие, долговременные ИИ‑сервисы без экспоненциального роста счетов и «проседаний» при нагрузке.
Железный RAS и безопасность «от чипа до стойки»
Vera Rubin NVL72 получила:
- модульный, бескабельный лотковый дизайн — быстрее менять компоненты;
- улучшенную отказоустойчивость NVLink и нулевой простой при обслуживании;
- второе поколение RAS‑движка с онлайновой проверкой «здоровья» системы;
- расширенную Trusted Execution Environment на весь стек — от чипа до сети.
Для тех, кто крутит на таких стойках критичные модели — от медицины до оборонных исследований, — это не маркетинг, а вопрос выживания кластера и сохранности данных.
Когда ждать и зачем следить
Nvidia уже получила все шесть типов чипов с фабрик, и первые стенды крутят реальные нагрузки. Массовый выпуск NVL72 запланирован на вторую половину 2026 года.
Для энтузиастов это пока красивая картинка с CES.
Для облаков, корпораций и национальных ИИ‑платформ — новая планка, под которую придётся подстраивать стратегии. В том числе и в России, где сильная школа математики и физики отлично сочетается с подобного класса «железом»: идеальная почва, чтобы не только пользоваться чужими моделями, но и строить свои — мирового уровня.
А ваш домашний ПК… пусть дальше верит, что «тянет всё на ультрах».
