Серверний ARM-процесор NVIDIA Vera виявився швидшим за AMD EPYC та Intel Xeon у перших тестах

1234waltz · Сообщение 28.05.2026 08:45

kabostebeztak: ↑ 28.05.2026 08:33 Це ж магічний ARM! Він же ж має перемагати не дивлячись ні на що!
І що? Різниця в 1%

+1% продуктивності
+100 Вт споживання

Бо ARM це про енергоефективність.

П.С. Ну по факту зробили бенчмарк розпаяної пам'яті LPDDR5X-9600 в Рубін проти наборної планками DDR5-6400 в Епіку. Виявилось що 9600 швидше за 6400, це дуже неочікувано.

kabostebeztak · Сообщение 28.05.2026 08:48

kabostebeztak: ↑ 27.05.2026 15:45
kabostebeztak: ↑ 27.05.2026 15:32 ЮРААААААААА

Відправлено через 8 хвилин 57 секунд:
7-Zip is a great multi-threaded CPU benchmark and with Vera its performance came in right where expected for being an 88 core part. Fascinatingly the NVIDIA Vera 88-core CPU was outperforming the 128-core Xeon 6980P processor!

7-Zip прекрасний багатопоточний бенчмарк CPU, та продуктивність Vera виявилась такою, яка і очікувалась від залізки з 88 ядрами. Що цікаво, 88-ядерний процесор NVIDIA Vera обганяв 128-ядерний Xeon 6980P!

Але перемогли все ж таки амд.
А в святому для нашого Юрія однопотоці в 7зіп Vera щось тіпа на 1% швидше за ті ж самі епіки. Всьо, біжу в магазин за базовим макбук про м5!

Відправлено через 42 секунди:
Джерело: тести Phoronix на які посилається оригінальна стаття Wccftech
NVIDIA Vera CPU Benchmarks: Olympus Cores Delivering The Best Performance Ever Seen On ARM Review - Phoronix https://www.phoronix.com/review/nvidia-vera-benchmarks

Хто мені поставив мінус на... бенчмарки на які посилається стаття?

waryag · Сообщение 28.05.2026 08:48

uncle_doc: ↑ 28.05.2026 06:42шо, знову розпаяна памʼять біля проца "затащіла" ? це вже колись було з яблуко м*

Правильний підхід до проведення тестів

Було б ДУЖЕ дивно, якщо б проц нвідіа програв тести, вибрані нвідіа, в офісі нвідіа і під контролем її працівників.

Результати цього підходу ми вже бачили в тестах відях від нвідіа, де 5070 обходила 4090...

Filabatya · Сообщение 28.05.2026 09:07

Якщо відкинути подвійну пам'ять то там 55%)

hohlid19 · Сообщение 28.05.2026 09:36

kabostebeztak: ↑ 28.05.2026 08:48
kabostebeztak: ↑ 27.05.2026 15:45

NVIDIA Vera CPU Benchmarks: Olympus Cores Delivering The Best Performance Ever Seen On ARM Review - Phoronix https://www.phoronix.com/review/nvidia-vera-benchmarks
Хто мені поставив мінус на... бенчмарки на які посилається стаття?

Юра?

waryag · Сообщение 28.05.2026 09:55

Alexsandr: ↑ 27.05.2026 19:24Там в тестах столько ограничений, включая замер мощности, что похоже хвастать нечем, кроме теплопакета, он большой.

Там очень жЫрный чип, впритык вписаный в ограничения т/п 3нм. И то, часть обвязки пришлось добавлять чиплетами...

ronemun · Сообщение 28.05.2026 10:24

Ціна проца Vera - 5тис usd, Epyc 9575f - 9238 usd офіційно на сайті, від 7 до 12 тис в магазинах
щодо продуктивності на ядро - це взагалі самий тупий показник в даному випадку:
1/ очевидно що більш багатоядерний проц програє адже ріст продуктивності йде нелінійно через проблеми маштабування софту, і тому ніхто на сервері на 88+ ядер не буде запускати 1 процес, ще й не оптимізований для таких маштабів - ШІ сервери вже навіть на прикорювачах запускають паралельно багато задач, а на проці їх маса, що в рази підвищує ефективність таких проців, особливо коли широка шина памяті і шин звязку (PCIe/Nvlink/NVMe/мережа)
2/ більш багатоядерні мають закладені нижчі частоти турбобуста і на всі ядра, що явно шкодить в періоди підготовки даних і т.п. коли достатня мала кількість ядер або коли навантаження малозатратне по енергії, і в цей період ядра працюють на максимальних частотах які закладені в проц.
3/ зарашні ШІ сервери частіше не для розрахунків, а для підготовки даних і кешування - саме тому важливі максимальні швидкості памяті і шин звязку, в чому Vera на голову вищі за x86 - в 2 рази ширша шина памяті, NVlink, PCIe v6. Це знаачно знижує простій ядер через повільний доступ до памяті і дисків/мережі. В АМД додаткова проблема через вузьку шину IF при 1му лінку на чіплет (тобто коли їх 9 і більше) - запис всього 32-50 ГБ/с, меньше як 1 канал ddr5@6400=51 ГБ/с, а ще через цей лінк йде синхронізація кешів з іншими ядрами і запис в PCIe (прискорювачі/ssd/мережа/інший проц)

MVE · Сообщение 28.05.2026 10:48

Чому тут завжди так топлять за х86? Наче дизелісти у часи розквіту електрокарів, чи володарі коней в часи появи парових двигунів.

denizen · Сообщение 28.05.2026 10:58

MVE: ↑ 28.05.2026 10:48 Чому тут завжди так топлять за х86? Наче дизелісти у часи розквіту електрокарів, чи володарі коней в часи появи парових двигунів.

так, а чим arm кращий за х86 у десктопі?

a_z_z_y · Сообщение 28.05.2026 11:18

General Failure: ↑ 28.05.2026 06:58 The AMD EPYC 9575F server/workstation processor was officially released on October 10, 2024
За 2 роки - 10% це прогресс!!!!!!

NVIDIA VERA TDP - 500W
AMD EPYC 9575F TDP - 400W

88 ядер (VERA) обігнали 64 ядер (EPYC 9575F) на 10% в багатопотокових тестах

Scoffer · Сообщение 28.05.2026 11:37

a_z_z_y: ↑ 28.05.2026 11:1888 ядер (VERA) обігнали 64 ядер (EPYC 9575F) на 10% в багатопотокових тестах

При на 25% більшому тдп і 3нм техпроцесі проти 4/6 в епіку

kabostebeztak · Сообщение 28.05.2026 11:40

hohlid19: ↑ 28.05.2026 09:36
kabostebeztak: ↑ 28.05.2026 08:48

Хто мені поставив мінус на... бенчмарки на які посилається стаття?
Юра?

Там 2 мінуси

Відправлено через 1 хвилину 44 секунди:

a_z_z_y: ↑ 28.05.2026 11:18
General Failure: ↑ 28.05.2026 06:58 The AMD EPYC 9575F server/workstation processor was officially released on October 10, 2024
За 2 роки - 10% це прогресс!!!!!!

NVIDIA VERA TDP - 500W
AMD EPYC 9575F TDP - 400W
88 ядер (VERA) обігнали 64 ядер (EPYC 9575F) на 10% в багатопотокових тестах

88 ядер
У мене з математикою погано звісно але різниця в кількості ядер більша за 10 відсотків, нє?

ronemun · Сообщение 28.05.2026 11:43

a_z_z_y
там середнє геометричне 26.4 у Vera проти 23.25 у Epyc9575Аf
26.4/23.25=1,135
різниця у 13.5% , а не 10
І це при тому що AMD був в явно кращій ситуації - спеціально взяли самий дорогий і високочастотний проц на 64 ядра проти в 2 рази дешевшого на 88 ядер в неоптимізованих для 176 потоків тестах. Як видно з графіків, там навіть 128 ядерники від AMD зливались, отже реально тести малопоточні, особливо web/java і т.п. В якому веб-сервері цілих 176 потоків будуть тратити на 1 запит? У всіх сервер обслуговує масу запитів і продуктівність росте пропорційно. Далі кодувення відео SVT AV1 - 2 проца АМД по 64 ядра відстають від також одного - де таки можливо? Що це за тест такий? Навіщо його взагалі ставити для проців >64 ядер

Alexsandr · Сообщение 28.05.2026 12:16

MVE: ↑ 28.05.2026 10:48 Чому тут завжди так топлять за х86? Наче дизелісти у часи розквіту електрокарів, чи володарі коней в часи появи парових двигунів.

Пока ему нет замены. ARM как правило одноразовые устройства без возможности замены хоть чего-то. более того, установка ОС тоже намертво привязана, как и драйвера. Нельзя взять скачать драйвера на видеочип для новой прошивки.

a_z_z_y · Сообщение 28.05.2026 12:32

ronemun: ↑ 28.05.2026 11:43 a_z_z_y
там середнє геометричне 26.4 у Vera проти 23.25 у Epyc9575Аf
26.4/23.25=1,135
різниця у 13.5% , а не 10
І це при тому що AMD був в явно кращій ситуації - спеціально взяли самий дорогий і високочастотний проц на 64 ядра проти в 2 рази дешевшого на 88 ядер в неоптимізованих для 176 потоків тестах. Як видно з графіків, там навіть 128 ядерники від AMD зливались, отже реально тести малопоточні, особливо web/java і т.п. В якому веб-сервері цілих 176 потоків будуть тратити на 1 запит? У всіх сервер обслуговує масу запитів і продуктівність росте пропорційно. Далі кодувення відео SVT AV1 - 2 проца АМД по 64 ядра відстають від також одного - де таки можливо? Що це за тест такий? Навіщо його взагалі ставити для проців >64 ядер

Про +10% писали копірайтери в статті. Питання до них.

Взагалі залізо роблять під задачі. Тобто є задача декодінг відео, його паралелять в софті як можуть і потім тестують яке залізо краще працює.
Підганяти задачі(тести) під залізо це неправильно. Так замовник(бізнес/користувач) не працює. Залізо має вирішувати його задачі, а не бізнес/користувач має придумувати що може краще зробити той чи інший проц тим бізнес і має займатися?

Умовно кажучі ви ж не будете замість 9800х3д купляти i9-10980XE бо останній краще відео кодує, але ж вам для ігорей треба система.

Melofon · Сообщение 28.05.2026 13:57

MVE: ↑ 28.05.2026 10:48 Чому тут завжди так топлять за х86? Наче дизелісти у часи розквіту електрокарів, чи володарі коней в часи появи парових двигунів.

Видно ты ПК не пользуешься а только смартфонами и планшетами (и возможно ноутбуком на ARM), поэтому и такие глупые вопросы

dext · Сообщение 28.05.2026 14:30

ronemun: ↑ 28.05.2026 10:24 В АМД додаткова проблема через вузьку шину IF при 1му лінку на чіплет (тобто коли їх 9 і більше) - запис всього 32-50 ГБ/с, меньше як 1 канал ddr5@6400=51 ГБ/с

ви ж ніколи не профілювали код за допомогою VTune/аналогів, чи не так? це не є фактичним/практичним обмеженням в реальному коді

а ще через цей лінк йде синхронізація кешів з іншими ядрами і запис в PCIe (прискорювачі/ssd/мережа/інший проц)

що також не є проблемою

hohlid19 · Сообщение 28.05.2026 15:28

MVE
В десктопе он бесполезный. Уж лучше за РИСК топить

ronemun · Сообщение 28.05.2026 15:29

a_z_z_y
у вас дивний підхід -
1/ я писав що phoronix рахує нечесно, нелогічно, і окремо, і в цілому
Якщо б я кодував відео софтом, який використовує проц лише на 50%, я б запускав паралельно 2 задачі, мінімум.
А даний тест це не враховує - реально там системи х2 по 64 ядра повільніші, це навіть для Phoronix занадто тупо виглядає. В інших тестах в них все ок.
Тим більше тест не враховує сумісне використання заліза різними задачами - віртуалізація+кодування відео+ web+ архівація і т.п., але при цьому тестує 512 потоків - це просто ідіотизм якийсь.
І очевидно, що в стійці Vera х88 пірве AMD Zen5 на лоскути - вже зараз в багатьох задачах вона швидша і дешевша, + память швидша в 2 рази, і дешевша

, і оптимальніша по біт/флоп, а вбудований NVlink 14,4 Тбіт/с на проц безкоштовно зєднує до 256 проців в стійку з 22500 ядер і загальною памяттю 400 ТБ і швидкістю 315 Тбайт/с, і це не рахуючи PCIe v6. При цьому NVlink - це відразу протокол+когерентний кеш - повністю спільна память/адреси, і проци і прискорювачі ШІ, по 14.4 Тбіт/с на кожен проц для всіх 256 проців, тоді як в АМД спільна память лише в межах 2х сокетів на одній платі, і то по 64*2*36=4.4 Тбіт/с між процами.
2/ щодо "Підганяти задачі(тести) під залізо це неправильно" - явний глюк мислення, софт автоматично ставить потоки під залізо. Ясно що беруть стільки ядер скільки оптимально, але якщо ваш софт може тільки в 32 потоки то це не значить що 88/128/192 не підходить - можна запустити кілька екземплярів паралельно, чи хоча б на 32 ядра, а не 16. Хоча багатоядерні проци дорожчі ви можете зекономити на спільній дорогій оперативній памяті, прискорювачах, ssd/мережі/материнській платі+живлення+корпус/обслуговуванні/софт і т.п. А тим краще коли лишнє здається в оренду - і собі є і з інших прибуток.

Відправлено через 2 хвилини 15 секунд:

dext: ↑ 28.05.2026 14:30
ronemun: ↑ 28.05.2026 10:24 В АМД додаткова проблема через вузьку шину IF при 1му лінку на чіплет (тобто коли їх 9 і більше) - запис всього 32-50 ГБ/с, меньше як 1 канал ddr5@6400=51 ГБ/с
ви ж ніколи не профілювали код за допомогою VTune/аналогів, чи не так? це не є фактичним/практичним обмеженням в реальному коді
а ще через цей лінк йде синхронізація кешів з іншими ядрами і запис в PCIe (прискорювачі/ssd/мережа/інший проц)
що також не є проблемою

реальні статті які це враховують, наприклад коли 2 лінка на чіплет то в 7zip швидкість зростає в 1,5 рази :insane
а тим більше при нерівномірному доступі
зараз 8 ядер Zen5 на 4,5+ ГГц, 16 потоків, це 40 ядер типу Broadwell@2.5 (без HT), ясно що їм 30 ГБ/c на (запис+обмін даними) це ніщо
як доказ 8*1,5 (це HT)*4,5 (частота)*3,5(IPC)=190, тоді як 40*Broadwell@2.5=40*2,5*1,9(IPC)=190.
HT виключено тому що він збільшує кількість потоків в 2 рази, тоді як сама швидкість обміну даними для синхронізації потоків це все поглине, і все тести доказують що HT тоді краще відключити. І це при 40*3=120 МБ кешу в Broadwell замість 40 в Zen5 в самих паралельних задачах. Та це видно навіть в Skylake.
Вся суть що AMD вигідно рускати пиль в очі - вона ніби продає багато потуних ядер, з великим IPC, AVX512, швидким кешом, але насправді сильно обмежені в багатьох місцях, і потім вона випускає новітні такі ж ядра, але без цих обмежень. Таж сама історія що з Інтел )))

a_z_z_y · Сообщение 28.05.2026 16:10

ronemun: ↑ 28.05.2026 15:32 a_z_z_y
у вас дивний підхід -
...

2/ щодо "Підганяти задачі(тести) під залізо це неправильно" - явний глюк мислення, софт автоматично ставить потоки під залізо. Ясно що беруть стільки ядер скільки оптимально, але якщо ваш софт може тільки в 32 потоки то це не значить що 88/128/192 не підходить - можна запустити кілька екземплярів паралельно, чи хоча б на 32 ядра, а не 16. Хоча багатоядерні проци дорожчі ви можете зекономити на спільній дорогій оперативній памяті, прискорювачах, ssd/мережі/материнській платі+живлення+корпус/обслуговуванні/софт і т.п. А тим краще коли лишнє здається в оренду - і собі є і з інших прибуток.

Ви думаєте як виробник процесорів чи серверів. Це треба, щоб хтось купив. Якщо воно в такому вигляді не підходить для вирішення конкретних задач конкретного споживача, то він не купить ваше залізо. Особливо якщо це якийсь невеличкий бізнес, там ніхто не буде заморочуватися, щоб зашерити кудись/комусь частину ядер, щоб відбити витрати.
Набагато доцільніше ці зайві витрати не нести - купити саме те залізо, яке потрібно для вирішення задач.

Так що підхід дивний якраз у вас