Вивчаємо будову серверних процесорів AMD EPYC Genoa на архітектурі Zen 4

IvanCh · Сообщение 10.01.2022 16:11

Пропоную обговорити Вивчаємо будову серверних процесорів AMD EPYC Genoa на архітектурі Zen 4

128 не ділиться на 12, тобто вони наростять кільксть ССD?

Vitys11a · Сообщение 10.01.2022 16:15

IvanCh: ↑ 10.01.2022 16:11 Пропоную обговорити Вивчаємо будову серверних процесорів AMD EPYC Genoa на архітектурі Zen 4

128 не ділиться на 12, тобто вони наростять кільксть ССD?

128 делится на 16 , будет по 16 в CCD

И будет 8 ccd

CADR · Сообщение 10.01.2022 16:15

Чиплеты восьмиядерные. 128 на 8 прекрасно делится.
У вас просто EPYC Genoa и EPYC Bergamo в одну кучу сложились.

alexxusss · Сообщение 10.01.2022 16:38

CADR
IvanCh
Bergamo - 8 чіплетів по 16 ядер порізаних (що саме відріжуть - невідомо).
Genoa - 12 чіплетів по 8 ядер.

IvanCh · Сообщение 10.01.2022 16:42

alexxusss
тобто ССD(і 1 ссд на 1 чіплет) буде на 16 ядер? чи тільки чіплети об'єднають але лочіно це все одно буде два ссд ?

alexxusss · Сообщение 10.01.2022 16:59

IvanCh: ↑ 10.01.2022 16:42тобто ССD(і 1 ссд на 1 чіплет) буде на 16 ядер?

Саме так, але мабуть таки кеш поріжуть, щоб воно так сильно не грілось, амазону більше мультикор потрібен.

ronemun · Сообщение 10.01.2022 17:04

PCIe v5 дозволяє підключати навіть інші/чужі проци/FPGA/оперативу/NVMe з/без синхронізації кешу і головне з спільним адресним простором. Затримку доступу обіцяють в 5 нс, що дозволяє підключати навіть кеш L3 , не те що DRAM. Швидкість 32 Гбіт/с на виту пару, довжина 0,5 метра, з копійчаним підсилювачем і більше можна. Виходить, самі канали DDR5 краще б через 8 (16 з запасом) ліній PCIe підключити. DDR5@4800 це 38,4 ГБ/с, але одночасно тільки в одну сторону, а 8 ліній PCIe це 32 ГБ/с, але одночасно і запис і читання, сумарно 64 ГБ/с. PCIe v6 вже в цьому році вийде, там взагалі 8 ГБайт/с на лінію в одну сторону, 15 дротів замінять 300 в DDR5
З іншої сторони потреба в IF стає сумнівною - простіше відразу хаб PCIe v5/6 і все, в тому числі, чіплети, підключати через неї, щоб не було подвійного перетворення

Vitys11a · Сообщение 10.01.2022 17:26

ronemun: ↑ 10.01.2022 17:04 PCIe v5 дозволяє підключати навіть інші/чужі проци/FPGA/оперативу/NVMe з/без синхронізації кешу і головне з спільним адресним простором. Затримку доступу обіцяють в 5 нс, що дозволяє підключати навіть кеш L3 , не те що DRAM. Швидкість 32 Гбіт/с на виту пару, довжина 0,5 метра, з копійчаним підсилювачем і більше можна. Виходить, самі канали DDR5 краще б через 8 (16 з запасом) ліній PCIe підключити. DDR5@4800 це 38,4 ГБ/с, але одночасно тільки в одну сторону, а 8 ліній PCIe це 32 ГБ/с, але одночасно і запис і читання, сумарно 64 ГБ/с. PCIe v6 вже в цьому році вийде, там взагалі 8 ГБайт/с на лінію в одну сторону, 15 дротів замінять 300 в DDR5
З іншої сторони потреба в IF стає сумнівною - простіше відразу хаб PCIe v5/6 і все, в тому числі, чіплети, підключати через неї, щоб не було подвійного перетворення

Такими темпами можно будет все подключить через pcie , кроме видимокарт

IvanCh · Сообщение 10.01.2022 17:35

ronemun
та там мабуть і якась внутрішня кухня з тезнічними даними є.
але мабуть таки круто було б користувацькі дані ганяти по PCIe а IF для внутрішньої кухні лишити.

Відправлено через 1 хвилину 6 секунд:
alexxusss
Та якщо буде такий великий ССД, аж на 16 ядер то мабуть і кешу треба буде менше. Ж не від хорошого життя їм стільки кешу прийшлось насипати.

Dream Machines · Сообщение 10.01.2022 18:17

CPU Epyc на архитектуре Zen 10

спойлер

alexxusss · Сообщение 10.01.2022 18:34

Dream Machines: ↑ 10.01.2022 18:17CPU Epyc на архитектуре Zen 10

4096 ядер

ImperiumAeternum · Сообщение 10.01.2022 18:59

alexxusss: ↑ 10.01.2022 16:59 мабуть таки кеш поріжуть, щоб воно так сильно не грілось, амазону більше мультикор потрібен.

Вряд ли кэш имеет смысл резать, греют в основном маленькие ядра, а не большой кэш. А под заказ амазону и не только кэш отрежут.

Sergey771 · Сообщение 10.01.2022 19:27

Dream Machines: ↑ 10.01.2022 18:17CPU Epyc на архитектуре Zen 10

ronemun · Сообщение 10.01.2022 21:14

ImperiumAeternum: ↑ 10.01.2022 18:59
alexxusss: ↑ 10.01.2022 16:59 мабуть таки кеш поріжуть, щоб воно так сильно не грілось, амазону більше мультикор потрібен.
Вряд ли кэш имеет смысл резать, греют в основном маленькие ядра, а не большой кэш. А под заказ амазону и не только кэш отрежут.

замість кешу можна добавити ядер:
1. на ту саму продуктивність потрібно буде меньшу частоту, отже меньшу напругу, отже в степені трьох зменьшиться споживання, особливо в FPU 512біт.
2. кеш має бути пропорційним швидкості обробки даних, щоб встигати результати з кешу L2 забирати, чи подавати дані при паралельній обробці, а зарашніх 4мб/ядро хватає з запасом навіть для 5ГГц, тож для 2,5-3,5 ГГц хватить і 2 МБ кешу L3 на ядро, враховуючи що ще буде 1МБ L2
3. Загальна кількість кешу може і не зменшиться - адже зменшується кількість кешу на ядро, а ядер стає більше
4. при зменшенні кешу зменшиться затримка.
5. якщо кількість ядер на кристал зростає, то збільшується ефективність використання даних в кеші а) при паралельній обробці - меньше копій потрібно б) кеш L3 заповнюється більш актуальними даними, звісно, якщо кешу хватає для них
6. можливо буде і 3д кеш

Відправлено через 14 хвилин 19 секунд:

Sergey771: ↑ 10.01.2022 19:27
Dream Machines: ↑ 10.01.2022 18:17CPU Epyc на архитектуре Zen 10

тоді буде 3д компоновка проца: там кристали будуть один над одним, але не 8 ядер на кристалі, а взагалі навіть кожне ядро буде розбите на компоненти, які будуть на різних поверхах. Один кристал з масивами кешів L1 даних і інструкцій, інші кристали з L2/L3, між ними кристал/ли з планувальниками/LSU/FPU/шини/датчики/живлення...
зараз добились відстані між кристалами 25 мкм, це в 100-300 раз меньше ніж габарити ядер. Це на порядки зменьшує затримки між компонентами, а також затухання сигналів у внутрішніх супершинах. ТАкож зменьшує потреби в кешах - їх можна використовувати краще/ефективніше, адже простіше буде передати дані напряму в інше ядро ніж ганяти через кеші 2/3/4 рівня. Як не дивно, сама схема від цього лише дуууже сильно спроститься, адже на порядок упаде складність сітки дротів, кешів, хаби стануть значно швидші, можна буде зєднувати ядра в тор, або й взагалі в зірку, а не в кільце чи меш як зараз

manbearboar · Сообщение 10.01.2022 21:32

ronemun: ↑ 10.01.2022 17:04 З іншої сторони потреба в IF стає сумнівною - простіше відразу хаб PCIe v5/6 і все, в тому числі, чіплети, підключати через неї, щоб не було подвійного перетворення

IF это с самой первой версии pcie хаб с работающим поверху протоколом когерентности, который таки нужен.

Hotspur · Сообщение 10.01.2022 21:48

Dream Machines: ↑ 10.01.2022 18:17CPU Epyc на архитектуре Zen 10

нанотехнологии наоборот

ronemun · Сообщение 10.01.2022 22:01

manbearboar
так толку нам з цього, IF тільки для чіплетів, більше нічого приєднати не можна. А в IO-чіпі все одно IF приходиться перетворювати в PCIe, а так відразу можна було б. Також це і кількість ліній звільнило б, якщо чіплетів мало використовується, наприклад замість 8 чіплетів часто є 4, а то і 2, а також більше лійній між IO чіпами приєднати було б при потребі. І так само щодо контролерів памяті, які до того ж в DDR5 з 12 по суті будуть 24 по 32 біт, тобто там навіть 4 ліній PCIe на канал буде з великим запасом. А головне - зарашня IF у 2 рази повільніше за PCIe v5 - в неї всього 2 Біт на такт проти 4, якщо точніше, то вона повільніша навіть ніж PCIe v4. Думаю в нових процах покращать

Scoffer · Сообщение 10.01.2022 23:24

ronemun
IF InterSocket на фізичному рівні абсолютно ідентична PCIe тої версії, котру вміє проц.
IF On-Package на фізичному рівні це просто PCIe x32.
У інтела на аналогічно, DMI i UPI фізично все той же самий PCIe.
А от програмні протоколи, нагорнуті поверх фізичного каналу, відрізняються. Іноді тотально.

Відправлено через 3 хвилини 18 секунд:
І ні, PICe не підтримувала, не підтримує, і ніколи не буде підтримувати когерентність кешів. Як і нуми. Протокол не містить таких понять.
По-перше це абсолютно зайве для 99.(9)% пристроїв на PCIe, ускладнення/здорожчання на рівному місці, а по-друге інтел має багато бабла з UPI свічів і наврядчи від цього бабла відмовиться

ronemun · Сообщение 11.01.2022 02:05

Scoffer
CXL - стандарт вже 2.0, підтримують і Інтел і АМД і всі основні виробники заліза
Intel в нових рапідах введуть
основний ресурс

Scoffer · Сообщение 11.01.2022 02:12

ronemun
Це не частина PCIe, а ще один, окремий програмний протокол поверх фізики PCIe, аналогічний перечисленим вище. Та ж сама фабрика, тільки під іншою назвою і з іншими патентами.