a_z_z_y
у вас дивний підхід -
1/ я писав що phoronix рахує нечесно, нелогічно, і окремо, і в цілому
Якщо б я кодував відео софтом, який використовує проц лише на 50%, я б запускав паралельно 2 задачі, мінімум.
А даний тест це не враховує - реально там системи х2 по 64 ядра повільніші, це навіть для Phoronix занадто тупо виглядає. В інших тестах в них все ок.
Тим більше тест не враховує сумісне використання заліза різними задачами - віртуалізація+кодування відео+ web+ архівація і т.п., але при цьому тестує 512 потоків - це просто ідіотизм якийсь.
І очевидно, що в стійці Vera х88 пірве AMD Zen5 на лоскути - вже зараз в багатьох задачах вона швидша і дешевша, + память швидша в 2 рази, і дешевша

, і оптимальніша по біт/флоп, а вбудований NVlink 14,4 Тбіт/с на проц безкоштовно зєднує до 256 проців в стійку з 22500 ядер і загальною памяттю 400 ТБ і швидкістю 315 Тбайт/с, і це не рахуючи PCIe v6. При цьому NVlink - це відразу протокол+когерентний кеш - повністю спільна память/адреси, і проци і прискорювачі ШІ, по 14.4 Тбіт/с на кожен проц для всіх 256 проців, тоді як в АМД спільна память лише в межах 2х сокетів на одній платі, і то по 64*2*36=4.4 Тбіт/с між процами.
2/ щодо "Підганяти задачі(тести) під залізо це неправильно" - явний глюк мислення, софт автоматично ставить потоки під залізо. Ясно що беруть стільки ядер скільки оптимально, але якщо ваш софт може тільки в 32 потоки то це не значить що 88/128/192 не підходить - можна запустити кілька екземплярів паралельно, чи хоча б на 32 ядра, а не 16. Хоча багатоядерні проци дорожчі ви можете зекономити на спільній дорогій оперативній памяті, прискорювачах, ssd/мережі/материнській платі+живлення+корпус/обслуговуванні/софт і т.п. А тим краще коли лишнє здається в оренду - і собі є і з інших прибуток.
Відправлено через 2 хвилини 15 секунд:
dext: ↑
28.05.2026 14:30
ronemun: ↑
28.05.2026 10:24
В АМД додаткова проблема через вузьку шину IF при 1му лінку на чіплет (тобто коли їх 9 і більше) - запис всього 32-50 ГБ/с, меньше як 1 канал ddr5@6400=51 ГБ/с
ви ж ніколи не профілювали код за допомогою VTune/аналогів, чи не так? це не є фактичним/практичним обмеженням в реальному коді
а ще через цей лінк йде синхронізація кешів з іншими ядрами і запис в PCIe (прискорювачі/ssd/мережа/інший проц)
що також не є проблемою
реальні статті які це враховують, наприклад коли 2 лінка на чіплет то в 7zip швидкість зростає в 1,5 рази :insane
а тим більше при нерівномірному доступі
зараз 8 ядер Zen5 на 4,5+ ГГц, 16 потоків, це 40 ядер типу Broadwell@2.5 (без HT), ясно що їм 30 ГБ/c на (запис+обмін даними) це ніщо
як доказ 8*1,5 (це HT)*4,5 (частота)*3,5(IPC)=190, тоді як 40*Broadwell@2.5=40*2,5*1,9(IPC)=190.
HT виключено тому що він збільшує кількість потоків в 2 рази, тоді як сама швидкість обміну даними для синхронізації потоків це все поглине, і все тести доказують що HT тоді краще відключити. І це при 40*3=120 МБ кешу в Broadwell замість 40 в Zen5 в самих паралельних задачах. Та це видно навіть в Skylake.
Вся суть що AMD вигідно рускати пиль в очі - вона ніби продає багато потуних ядер, з великим IPC, AVX512, швидким кешом, але насправді сильно обмежені в багатьох місцях, і потім вона випускає новітні такі ж ядра, але без цих обмежень. Таж сама історія що з Інтел )))