так, якщо є фізика, IF тобто, на основі PCIe, то переробити в CXL простіше простого, але він універсальний для всіх пристроїв всіх виробників з підтримкою CXL, а не тільки для АМД чіплетів. До того ж, можливо, CXL клієнт чіплета з невеликою доробкою міг би працювати відразу як PCIe контролер, і залишилось би тільки CXL контролер памяті причепити - DDR 4/5 на вибір. А оскільки DDR контролери навіть в б/я телефоні вже давно значно крутіші ніж в процах, то їх може виготовляти взагалі хто хоче, і один канал можна взагалі шнурком приєднати прямо в сокет проца, а не виводити суперрозводи на платі
Я ж коли писав мав на увазі навіщо гіпескладний чіплет з 12 каналів памяті і 8/12 вхід/вихід IF якщо це відразу в PCIe можна запхати. Ти ж подивись який величезний IO/чіп буде - це ж ще 40 ядер можна було б запхати, та ще й одним кристалом. А там вже буде на 7 чи 6+ нм, це дорогий кристал. Тільки 24 канали по 40 біт памяті чого варті. І в більшості такий ІО чіп буде на більшу половину невикористовуватись - або чіплетів буде замало, або канали памяті вільні.
CXL це відкритий стандарт. До того ж Інтел вже цього року в Rapid його включить
весь прикол що сама Інтел хвалить що затримка між точками буде меньше 10 нс, тоді як у неї прямо на кристалі між ядрами більше 30, десь під 40 Можливо кеші накладають, а може розміри повідомлень різні, все ж кеші великі повідмлення мають, не те що прості девайси. Ну або PCIe5 такий крутий
Останні статті і огляди
Новини
Вивчаємо будову серверних процесорів AMD EPYC Genoa на архітектурі Zen 4
-
Scoffer
Member
ronemun
В усіх мені відомих актуальних процесорних інтерконектах фізика аналогічна PICe. Ну і правильно, чого вигадувати якісь особливі прийомопередатчики.
Але на тому подібність до PCIe і закінчується. CXL це просто ще один з мало не десятка протоколів аналогічного призначення. На програмному рівні він сильно відрізняється від PCI, і, відповідно, не призначений для підключення простих пристроїв типу відях, звуковух, мереж і тому подібного. Без конвертора CXL->PCI ніяк не обійтись. В цьому плані (та і в інших теж) він аж нічим не кращий за IF або UPI.
Ти подивись що саме вони збираються по CXL підрубати: ті ж самі FPGA, котрі зараз втикаються в UPI. Просто інтел по якійсь причині не захотіла відкривати протокол UPI, і замутила відкритий аналог.
Відправлено через 2 хвилини 17 секунд:
Ну а чому AMD мутить такий здоровений IO питання філософське. З кожної щілини віщають що так дешевше. Особисто я цьому не вірю, але більшість впевнена що їх не обдурюють
В усіх мені відомих актуальних процесорних інтерконектах фізика аналогічна PICe. Ну і правильно, чого вигадувати якісь особливі прийомопередатчики.
Але на тому подібність до PCIe і закінчується. CXL це просто ще один з мало не десятка протоколів аналогічного призначення. На програмному рівні він сильно відрізняється від PCI, і, відповідно, не призначений для підключення простих пристроїв типу відях, звуковух, мереж і тому подібного. Без конвертора CXL->PCI ніяк не обійтись. В цьому плані (та і в інших теж) він аж нічим не кращий за IF або UPI.
Ти подивись що саме вони збираються по CXL підрубати: ті ж самі FPGA, котрі зараз втикаються в UPI. Просто інтел по якійсь причині не захотіла відкривати протокол UPI, і замутила відкритий аналог.
Відправлено через 2 хвилини 17 секунд:
Ну а чому AMD мутить такий здоровений IO питання філософське. З кожної щілини віщають що так дешевше. Особисто я цьому не вірю, але більшість впевнена що їх не обдурюють
-
ronemun
Advanced Member
так в самої ж АМД PCIe лінії перетворються в IF/SATA/USB при потребі. Тож навіщо весь цей зоопарк, якщо є відкритий стандарт, який підтримують всі гранди, ну і головне Інтел, а всі на неї орієнтуються - це ж 80+ % ринку. Сам по собі протокол шини, якщо фізика та сама, це ж просто порядок і дожина ланцюжків біт, і все. Ну і ще узгодження передачі/розподіл якщо ліній багато.
я так розумію що ні Інтел, ні АМД, ні НВідія/IBM не хочеться далі тратити купи місця на кристалах для підтримки всього зоопарку інтерфейсів, це ж і не просто, а головне за них вже не платять як раніше - 4 сокетні платформи коштували у 8-10 раз дорожче за 2х сокетні. Зараз ядер прямо в проці вагон, як в АМД/ARM, зараз за чисту продуктивність платять, без обвязки, тож інтерконекти відійшли на другий план. А крутий контролер PCie будь-хто може замовити готовий в TSMC, і тупо маштабувати - там все давно готове
я так розумію що ні Інтел, ні АМД, ні НВідія/IBM не хочеться далі тратити купи місця на кристалах для підтримки всього зоопарку інтерфейсів, це ж і не просто, а головне за них вже не платять як раніше - 4 сокетні платформи коштували у 8-10 раз дорожче за 2х сокетні. Зараз ядер прямо в проці вагон, як в АМД/ARM, зараз за чисту продуктивність платять, без обвязки, тож інтерконекти відійшли на другий план. А крутий контролер PCie будь-хто може замовити готовий в TSMC, і тупо маштабувати - там все давно готове
Востаннє редагувалось 11.01.2022 03:09 користувачем ronemun, всього редагувалось 1 раз.
-
Scoffer
Member
ronemun
Підтримують це ти сильно оптимістично. Вже другу версію протоколу намалювали, а жодного пристрою так і не випустили. Колись може і зіллють все в купу, але не так швидко.
Підтримують це ти сильно оптимістично. Вже другу версію протоколу намалювали, а жодного пристрою так і не випустили. Колись може і зіллють все в купу, але не так швидко.
-
ronemun
Advanced Member
ну так Інтел вже зробила, якщо врахувати що розробка Rapid не меньше 3х років іде, а вони цього року вийдуть. А також, напевно, CXL використовується в чіплетах відеокарт/gpgpu PonteVeccio
-
Scoffer
Member
ronemun
В будь-якому випадку для нас CXL не змінює нічого. Особисто мені якось по барабану що проци будуть між собою або з якимись унікальними пристроями спілкуватись замість IF/UPI по CXL. Все одно ніхто не допустить щоб, наприклад, проци інтел з амд працювали в одній системі Зарублять десь на іншому рівні.
В будь-якому випадку для нас CXL не змінює нічого. Особисто мені якось по барабану що проци будуть між собою або з якимись унікальними пристроями спілкуватись замість IF/UPI по CXL. Все одно ніхто не допустить щоб, наприклад, проци інтел з амд працювали в одній системі Зарублять десь на іншому рівні.
-
ImperiumAeternum
Member
Хватает/не хватает это слишком условные понятия, для стопроцентного cache hit и 128 МБ 96-ассоциативного кэша на ядро не хватит.ronemun: ↑ 10.01.2022 21:28 зарашніх 4мб/ядро хватає з запасом навіть для 5ГГц,
Это больше от типа кэша зависит, чем от их количества на ядро. Слишком большим себе ноги стараются не отстреливать.
И в том и дело, что насыпать кэша все-таки проще, чем насыпать ещё больше ядер. Кристаллы маленькие, горячие и гораздо сложнее (а значит больше брака), чем кэш. 3Д кэш сложнее обычного, но опять таки на порядок проще чем 3Д ядра и бесконечная война с тем как какой I/O соединить ещё больше кристаллов.
-
ronemun
Advanced Member
ImperiumAeternum
1. 4мб на ядро це в середньому, а в реалі там буде ті самі 32 на кристал, або і більше. щодо 3д кешу в АМД процах малось на увазі що для Amazon AMD створить 12 ядерні кристали з меньшим кешем, напевно, а сам кеш, якщо його можна причепити в 3д на швидкості до 1 ТБ/с, добавить при потребі скільки необхідно. Заодно зможе зменшити брак кристалів з ядрами, а то 55% площі під кеш, як зараз, та ще й з жорсткою умовою в 32 МБ на чіплет, навіть при 1 ядрі на чіплет, напевно дуже важко дотримати без браку, хіба що там лишні банки з запасом солідним
2. Про зєднання окремих блоків ядра в 3д, як зараз зєднують флеш чи dram, розповіла сама Інтел ще влітку. Якщо TSMC може приєднати чіп кешу на швидкості 1 ТБайт/с, то і Інтел зможе модулі ядра наскрізними зєднаннями зшити, і це значно спрощує розводку металізації, а отже і втрати енергії в ній. Уяви, що складніше, розвести доріжки для паралельного зєднання 4х чіпів памяті на планці DDR, чи просто чіпи зєднати наскрізь в наперед готових місцях. Щодо охолодження то тут багато надуманого, тому що тепло на 80% виділяється в FPU блоці, а його можна зробити довгим вузьким, як зараз і роблять, збільшуючи периметр, а також тупо між кристалами залишати проміжки для водяних каналів. А головне що і вода може поступати тепер в середину чіпа, наскрізь, в багатьох місцях - просто крізь чіп по нормалі, а не вздовж поверхні як зараз.
Scoffer
змінює для нас, в тому плані, що при дефіциті потужностей АМД могла б випускати просто ядра, і кеш, і то кеш під питанням - це ж TSMC просто готовий IP дає, що там нового, під себе сконфігурував і все. А всілякі PCIe хаби і контролери памяті під різну память ddr4, 5, 6 і т.п. можна було б купляти в інших, і виготовляти на різних потужностях, а також краще їх використовувати - не всім тре 12 каналів памяті, може комусь більше необхідно PCIe ліній для відях/nvme, а комусь навпаки, відях меньше, а памяті більше. Я читав, що багато хто бере epyc щоб на 120 ліній pcie приєднати 120 nvme дисків - їм просто супер великий швидкісний диск потрібен, їм і 1 лінію на диск хватає, 2ГБ/с паралельно в кожну сторону, а от 120 ліній все одно замало (тоді, звичайно ж, можна мультиплікатор портів)
Також підключення FPGA напряму зі спільною памяттю, а також затримка 4-8 нс, дозволяють робити гібридний код з паралельним використанням інструкцій cpu i fpga, ну і gpgpu звичайно ж. Про паралельну роботу Інтел і АМД ясно не йдеться, це ж ті самі ядра, тільки в профіль, але різні кеші і затримки спортять код і т.п., хіба що поєднання дуже різних ядер - економічних наприклад, як bigLittle
1. 4мб на ядро це в середньому, а в реалі там буде ті самі 32 на кристал, або і більше. щодо 3д кешу в АМД процах малось на увазі що для Amazon AMD створить 12 ядерні кристали з меньшим кешем, напевно, а сам кеш, якщо його можна причепити в 3д на швидкості до 1 ТБ/с, добавить при потребі скільки необхідно. Заодно зможе зменшити брак кристалів з ядрами, а то 55% площі під кеш, як зараз, та ще й з жорсткою умовою в 32 МБ на чіплет, навіть при 1 ядрі на чіплет, напевно дуже важко дотримати без браку, хіба що там лишні банки з запасом солідним
2. Про зєднання окремих блоків ядра в 3д, як зараз зєднують флеш чи dram, розповіла сама Інтел ще влітку. Якщо TSMC може приєднати чіп кешу на швидкості 1 ТБайт/с, то і Інтел зможе модулі ядра наскрізними зєднаннями зшити, і це значно спрощує розводку металізації, а отже і втрати енергії в ній. Уяви, що складніше, розвести доріжки для паралельного зєднання 4х чіпів памяті на планці DDR, чи просто чіпи зєднати наскрізь в наперед готових місцях. Щодо охолодження то тут багато надуманого, тому що тепло на 80% виділяється в FPU блоці, а його можна зробити довгим вузьким, як зараз і роблять, збільшуючи периметр, а також тупо між кристалами залишати проміжки для водяних каналів. А головне що і вода може поступати тепер в середину чіпа, наскрізь, в багатьох місцях - просто крізь чіп по нормалі, а не вздовж поверхні як зараз.
Scoffer
змінює для нас, в тому плані, що при дефіциті потужностей АМД могла б випускати просто ядра, і кеш, і то кеш під питанням - це ж TSMC просто готовий IP дає, що там нового, під себе сконфігурував і все. А всілякі PCIe хаби і контролери памяті під різну память ddr4, 5, 6 і т.п. можна було б купляти в інших, і виготовляти на різних потужностях, а також краще їх використовувати - не всім тре 12 каналів памяті, може комусь більше необхідно PCIe ліній для відях/nvme, а комусь навпаки, відях меньше, а памяті більше. Я читав, що багато хто бере epyc щоб на 120 ліній pcie приєднати 120 nvme дисків - їм просто супер великий швидкісний диск потрібен, їм і 1 лінію на диск хватає, 2ГБ/с паралельно в кожну сторону, а от 120 ліній все одно замало (тоді, звичайно ж, можна мультиплікатор портів)
Також підключення FPGA напряму зі спільною памяттю, а також затримка 4-8 нс, дозволяють робити гібридний код з паралельним використанням інструкцій cpu i fpga, ну і gpgpu звичайно ж. Про паралельну роботу Інтел і АМД ясно не йдеться, це ж ті самі ядра, тільки в профіль, але різні кеші і затримки спортять код і т.п., хіба що поєднання дуже різних ядер - економічних наприклад, як bigLittle