Серверний ARM-процесор NVIDIA Vera виявився швидшим за AMD EPYC та Intel Xeon у перших тестах

Обсуждение статей и новостей сайта
Автор
Сообщение
dext
Member
Откуда: Dnipro

Сообщение

ronemun: 28.05.2026 15:32 реальні статті які це враховують, наприклад коли 2 лінка на чіплет то в 7zip швидкість зростає в 1,5 рази :insane


4585PX повнінстю аналогічний 9950X3D
а тим більше при нерівномірному доступі
типово для синтетичних бенчмарків, а не реального коду
зараз 8 ядер Zen5 на 4,5+ ГГц, 16 потоків, це 40 ядер типу Broadwell@2.5 (без HT), ясно що їм 30 ГБ/c на (запис+обмін даними) це ніщо
як доказ 8*1,5 (це HT)*4,5 (частота)*3,5(IPC)=190, тоді як 40*Broadwell@2.5=40*2,5*1,9(IPC)=190.
беззапаречним доказом є скрін VTune наприклад, де все розписано по рівням пам'яті, а це лише умовні розрахунки
Вся суть що AMD вигідно рускати пиль в очі - вона ніби продає багато потуних ядер, з великим IPC, AVX512, швидким кешом, але насправді сильно обмежені в багатьох місцях, і потім вона випускає новітні такі ж ядра, але без цих обмежень. Таж сама історія що з Інтел )))
чергова маячня, бо в тестах 7-Zip десктопні non-3D Zen5 швидші за інтели - незважаючи на те, що у Zen "половинчастий" IF - тому що ширина IF тут не є вирішальною, ви зачепилися за цей один параметр і банально спекулюєте :dontknow:
ronemun
Advanced Member

Сообщение

щодо ширини IF і її впливу на швидкість є цікава стаття
серед них цікавий графік у вимогливому тесті
спойлер
Изображение
залежно віж режиму доступу до памяті широкий IF дозволяє бути в 1,76 раз до 2,5 раз швидше

вся суть що прості тести підходять лише для невеликої кількості ядер, а для 64-88 тре зовсім інший підхід.
і саме за великою кількістю ядер майбутнє - їх вже під сотню на одному кристалі, а на кількох - сотні. Нікому не цікаві фальшиві тести несумісні з реальністю, особливо коли можна дууууже зекономити на ціні проца/памяті/мережі/шинах, ще й безкоштовно маштабуватись в 10ки раз при потребі без проблем і ультранацінки

dext
1. я ж не кажу що АМД гірша за інтел, а те що вона пішла тим же шляхом - пиль в очі. Вона виставляє сильні сторони, в десктопах, спеціально недаючи розкритись архітектурі приторможууючи її для станцій і серверів, щоб видоїти побільше. Чого тільки вартий т.зв. топовий 64 ядерник за 10к баксів, простий, без кешу 3д, і частота всього 4.5 на всі ядра. А Інтел взагалі не показник - в тих придурків навіть кільце повільніше за шину памяті, самі порахуйте, тож вони взагалі в прольоті, а в серверних в них ще й середній доступ до L3 40+нс, тобто він взагалі відсутній по міркам десктопа.
2. до чого тут 4985x (9950 x3d) на AM5 до широкого IF? в нього кешу багато, але кожний чіплет на 1 лінк, а не 2.
Ось стаття про широкий лінк і нерівномірний доступ, де specfp зростає від 51 до 66 і з 71 до 98 відповідно
dext
Member
Откуда: Dnipro

Сообщение

ronemun: 28.05.2026 19:01 1. інтел взагалі не показник
показник з точки зору різниці в швидкості інтерконекту і на що вона впливає
в тих придурків навіть кільце повільніше за шину памяті, самі порахуйте, тож вони взагалі в прольоті
це ваші вигадки, незрозуміло на чому базовані: https://www.techpowerup.com/review/inte ... 85k/7.html
а в серверних в них ще й середній доступ до L3 40+нс, тобто взагалі відсутній по міркам десктопа, що й видно по тестам
знову дурина, бо там інша топологія (mesh), для інших цілей (багато ядер) і навантажень (локалізованих)
Ось стаття про широкий лінк і нерівномірний доступ, де specfp зростає від 51 до 66 і з 71 до 98 відповідно
I tried modifying every other cacheline to achieve this ratio, but didn’t get better bandwidth probably because the memory controller is limited by a 32B/cycle link to Infinity Fabric
синтетика, де насичення КП відбувається швидше за інше, за повної конфігурації 12/24 або 16/32 замість 8/16 це взагалі буде ще швидше, висмоктане з пальця :dontknow:
ronemun
Advanced Member

Сообщение

dext
вам би лиш картинки привести без розуміння суті. самі порахуйте :
в AIDA64 не чиста швидкість памяті, а з врахуванням кешу. Вона показує 60+ ГБ/с на запис навіть в 1 чіплетного АМД, в якого в теорії може бути лише 32 (ширина лінка IF на вихід 16 байт * 2ГГц), що і показує HWinfo dram write bandwith згідно даних самого проца. Думаю вже показам проца можете повірити :rolleyes: І якщо в АМ4 було достатньо - память мала всього 3,8 ГГц, то ddr5 вже 6,4+, а швидкість на вихід з чіплета не збільшилась.

кільце це послідовна шина
в інтел - ширина кільця 32 байт, але малої ефективності тому що воно довге і там багато затримок і внутрішнього кешування, тому в реалі наміряли ефнктивних 20 байт максимум. Але при цьому частота кільця не рівна частоті ядер, як в АМД, а 3.3+ ГГц, і не вище частоти e-ядер. 20*3,3=66 - швидкість одного каналу ddr5@6400. Для прикладу в АМД швидкість кільця наміряли 150+ Гбайт/с на частоті ядер 5,3 ГГц. На щастя в Інтел можна підняти частоту кільця, якщо підняти частоту e-ядер, ну і воно 2х стороннє - можна одночасно і писати, і зчитувати з памяті, + всілякі копіювання в памяті чи з неї в PCie (ssd кеш чи відяха) відбуваються без участі ядер.
І ще раз, не тре рахувати як однакове сам контролер памяті і доступ ядер до нього - між ними ще багато чого
zaqik
Member
Аватара пользователя
Откуда: Душниличі

Сообщение

- ИИ-агент сколько будет 2+2
- 5
- Что ж ты за суперкомпьютер такой, я на калькуляторе пересчитал, и будет 4
- Ты абсолютно прав, тут я погорячился, конечно 4, но заметь как быстро я ответил.
Ответить