Специфікації Nvidia RTX Pro 6000 Blackwell: понад 24 тисячі CUDA-ядер та 96 ГБ пам'яті GDDR7 при 600 Вт

ronemun · Повідомлення 10.03.2025 05:33

в інтернеті писали що при навчанні (не виводі) AI деколи, залежно від моделі, 2 Geforce 3090 зєднані NVlink були швидші ніж просто 2 Geforce 4090, які не підтриують NVlink. При тому що 4090 і так швидші, і мають fp8.
Все таки NVlink значно швидший за x8 (для х16 на карту тре 32+ лінії від проца) PCIe v4, 56 Гбайт/с в кожну сторону проти 16, і має меньші затримки.

Але в рендері є особливості: при обробці малих сцен чи просто зображень одна 3090 в рази швидша ніж дві зєднані

Можливо проблема в настройках софту при роботі в такій конфігурації
Але при великих сценах NVlink обєднує память відях і рендер знаачно прискорюється

Earanak · Повідомлення 10.03.2025 06:27

ronemun
За тренинг нейронок не шарю. За локальные LLM слабо шарю. Что до генеративных нейронок типа Flux.Dev, то там и одной 4090 хватает. Вот для видео у нас в студии только начали обкатывать с Wan 2.1 + Huinyan + Kling. Ну с клингом ясно, а вот для остального конечно можно 2-3 видяхи взять, но оно и на одной видяхе достаточно быстро работает. То есть я так полагаю что пачка видях для нейронок актуальна только для их тренинга и для каких то специфичных локальных LLM.

Если взять локальный ДиипСиик на 671миллирда параметров, то его и без всяких видях можно на относительно недорогом компе запускать и он даже на норм скорости работает

https://digitalspaceport.com/how-to-run ... -epyc-rig/

https://youtu.be/Tq_cmN4j2yY

Прост мне не особо ясно для чего пихать пачку видях для локальной LLM. В примере выше вариант без видях выдает 4TPS, вроде норм же скорость. Может конечно для того что бы к ней одновременно разные локальные клиенты запросы слали одновременно на полотна текста и тысячи токенов, звучит как то слишком специфично для меня. Типа если нужен локальный LLM на отряд программистов, то конечно 4TPS курам насмех. Ну лан, это вне моей компетенции, просто мысли в слух.

А по поводу GPU рендеров... Далеко не все рендеры умеют объединять VRAM в общий пулл. То есть им пофиг будет там три 3090 с Нвлинком или без. Вообще я бы сказал что большинство из популярных рендеров как раз не умеют делать общий пулл памяти. Или делают это частично, как Redshift который где то 30% памяти делает инклюзивной а остальную общим пуллом. Ещё у разных GPU рендеров сильно отличается работа с Shared GPU Memory, где то Out-Of-Core эффективно отрабатывает, где то его вообще нету. То есть некоторые движки умеют вовремя сбрасывать память в ОЗУ и подгружать обратно в нужный момент. Так же и эффективность mGPU рендера от движка зависит, как и влияние ПСП у PCI-E. Какие то рендеры бакетами рендрят, когда у каждой видяхи отдельный кусочек кадра, какие то прогрессивным методом фишачат пассами. Все индивидуально в общем. Где то больше толку от одной видяхи на 96гб а где то будет лучше три видяхи по 24гб. К тому же специфика того что конкретно рендрится, может разной быть, где то важна скорость рендера, а где то важно что бы сцена в память влезла, иначе она никак вообще не будет рендрится. Ну вот например если рассматривать mGPU в FSTORM, Octane, Redshift, V-Ray RT больше всего профита от трёх видеокарт, дальше с каждой видяхой КПД хуже и хуже. И ПСП PCI-E для них особо не важно, видяхи там рендрят отдельно друг от друга а PCI используют только для пирсинга сцены, т.е хоть там у видяхи будет 3.0 1x линия хоть все 5.0 16x - по барабану будет. Но уверен что есть какие то специфичные рендеры или расклады когда видяха гоняет во время рендера большой объем данных наружу. Прост не в курсе за такое.

Вот Unreal Engine 5 умеет в mGPU только в PathTracer-е, и то только с nVlink, но при этом не объединяет память, никак. А в Люмене он вообще работает только с одной картой, получается толк от нескольких видях мизерный и крайне ограниченный. К тому же в UE5 беда с Shared GPU Memory, чем больше памяти вываливается в ОЗУ тем больше начинает артефактов сыпать и рендер начинает вылетать постоянно. Скажем при 15% нехватки памяти ещё можно рендрить, при 30% уже вагон проблем и нюансов, а при 50% уже ниче не рендрит. Так что в случае с UE5, никакая ОЗУ не спасает, никакие nVlink и mGPU, нужна одна видеокарта с большим объемом памяти.

Короч посыл всего что я настрочил - все слишком индивидуально. Где то нужен линк между видяхами, где то нет. Где то нужно ПСП PCI-E а где то без разницы. Ну и Нвлинк не панацея, если в софте самом нету поддержки общего пула памяти. Взять ту же сферу VFX/Моушендизайн, так там вообще бывают расклады что на GPU рендере важна скорость SSD, и такое бывает )) Лан, сорян за многобукаф и частично оффтоп, чёт пробило на графоманию и размышления по этому поводу.