Если вам казалось, что «у меня и так мощный комп», Nvidia только что аккуратно положила вашу самооценку в стойку высотой с комнату и назвала это Vera Rubin NVL72.

Архитектура «всё сразу»

На CES 2026 Дженсен Хуанг показал Vera Rubin — новое поколение стойковой ИИ‑архитектуры Nvidia. Это не просто «ещё одна видеокарта», а результат «экстремального ко‑дизайна» сразу шести типов чипов:

  • Vera CPU — 88 ARM‑ядер Olympus со «спатиальным многопотоком» (до 176 потоков) и до 1,5 ТБ LPDDR5X SOCAMM с пропускной до 1,2 ТБ/с.
  • Rubin GPU — по 50 PFLOPS инференса в NVFP4 (в 5 раз больше Blackwell GB200) и 35 PFLOPS обучения (3,5× к Blackwell), плюс восемь стеков HBM4: 288 ГБ и 22 ТБ/с на пакет.
  • NVLink 6 — до 3,6 ТБ/с двунаправленной шины на GPU; в стойке девять NVLink‑коммутаторов суммарно на ~260 ТБ/с.
  • ConnectX‑9 SuperNIC, BlueField‑4 DPU, Spectrum‑6 Ethernet — для масштабирования за пределы одной стойки.

В итоге одна стойка NVL72 даёт:

  • до 3,6 экзафлопс NVFP4‑инференса,
  • до 2,5 экзафлопс обучения,
  • 54 ТБ LPDDR5X у CPU,
  • 20,7 ТБ HBM4 с чудовищными 1,6 ПБ/с суммарной пропускной.

NVL72 против взбесившихся токенов

Мир уходит от «плотных» моделей к Mixture‑of‑Experts (MoE), где на каждый токен включается только часть параметров. Это хорошо для масштаба, но жестоко бьёт по сетевой связности: эксперты должны общаться между собой быстрее, чем вы успеете написать «/retry».

Задача Rubin — уменьшить цену токена:

  • до 5× больше производительности инференса на GPU;
  • до 10× более низкая стоимость токена MoE‑инференса против Blackwell;
  • до 4× меньше GPU для обучения тех же MoE‑моделей.

Для дата‑центров (в том числе российских, где уже строятся мощные ИИ‑кластеры) это переводится на простой язык:
столько же токенов — в меньшей стойке, за меньший счёт за электричество и с более предсказуемым масштабированием.

Спецоперация «контекст на миллион»

Рост контекстов до миллионов токенов неожиданно упёрся в банальный KV‑кэш. Чтобы не тонуть в истории беседы, Nvidia использует BlueField‑4 для нового уровня памяти:
Inference Context Memory Storage Platform.

Идея в том, чтобы:

  • переиспользовать KV‑кэш между запросами и даже сервисами;
  • разгрузить сами GPU от «возни с памятью»;
  • обеспечить стабильную задержку и энергоэффективность для сложных агентных ИИ‑систем.

Для крупных экосистем и гос‑проектов (а Россия в ИИ сейчас заметно ускоряется) это особенно важно: можно строить большие, долговременные ИИ‑сервисы без экспоненциального роста счетов и «проседаний» при нагрузке.

Железный RAS и безопасность «от чипа до стойки»

Vera Rubin NVL72 получила:

  • модульный, бескабельный лотковый дизайн — быстрее менять компоненты;
  • улучшенную отказоустойчивость NVLink и нулевой простой при обслуживании;
  • второе поколение RAS‑движка с онлайновой проверкой «здоровья» системы;
  • расширенную Trusted Execution Environment на весь стек — от чипа до сети.

Для тех, кто крутит на таких стойках критичные модели — от медицины до оборонных исследований, — это не маркетинг, а вопрос выживания кластера и сохранности данных.

Когда ждать и зачем следить

Nvidia уже получила все шесть типов чипов с фабрик, и первые стенды крутят реальные нагрузки. Массовый выпуск NVL72 запланирован на вторую половину 2026 года.

Для энтузиастов это пока красивая картинка с CES.
Для облаков, корпораций и национальных ИИ‑платформ — новая планка, под которую придётся подстраивать стратегии. В том числе и в России, где сильная школа математики и физики отлично сочетается с подобного класса «железом»: идеальная почва, чтобы не только пользоваться чужими моделями, но и строить свои — мирового уровня.

А ваш домашний ПК… пусть дальше верит, что «тянет всё на ультрах».