Підтверджено характеристики настільних процесорів Intel Core Ultra 200

Обсуждение статей и новостей сайта
Автор
Повідомлення
vmsolver
Member

Повідомлення

ronemun: 09.10.2024 18:13 кільце - послідовна структура, ане паралельна, де чим більше - тим краще. Тут навпаки - чим більше кроків - тим гірше.
Якщо ви почнете переносити дані по всім слайсам - швидкість не збільшиться, а навпаки, зменшиться, навіть для 1го ядра, не те що всіх. Адже це займе такти шини (кільця), але в пустоту, бо це просто передача, а дані лише віддаляться від виконавця, а основний закон каже що вони мають бути якомога ближче. Також зайнятий такт шини одним ядром забере цей же такт в іншого, і сумарна швидкість шини впаде пропорційно кількості кроків (в середньому)
Звичайно, коли найближчі банки заповнені, то тре передавати далі, але там діють теорії які нам навітьне снились, зі своїми механізами.
Заповнення дальніх банок можливе якщо є інформація про їх вільне місце в найближчому агенті, тобто дані про це вже передані перед тим.
Але якщо всі ядра загружені, ще й 2 потоки на ядро, і переповення кешу L2, та ще й всі щось пишуть/читають з памяті, та ще й між собою синхронізують - там маса проблем
Это ваши фантазии, реальность такова:
L3 caches on recent Intel processors are built up of multiple independent slices. Physical addresses are mapped across the slices using an undocumented hash function with cache line granularity. I.e., consecutive cache lines will be mapped to different L3 slices.
Выше написал, что интерконект не доминирует в общей латентности L3, и ранее это было сказано ещё в октябре 2022 года, а вы до сих упираетесь.
Yaroslav308
Member
Аватар користувача

Повідомлення

vmsolver: 09.10.2024 13:40Все запросы идут всегда во все слайсы по кольцу, потому что не известно в каком слайсе L3 будет нужная информация.
Но ведь известно. Данные по слайсам распределяются на основании хеш-функции с адресом памяти в качестве входных данных. При чтении достаточно ещё раз посчитать хеш и сходить куда он указывает. Если данных в том слайсе не оказалось(привет эксклюзивный LLC), в игру вступает распределённый инклюзивный snoop filter, который следит за когерентностью L1/L2.

Вот занятное чтиво по реверс-инжиниринг этих функций - Efficient and Generic Microarchitectural Hash-Function Recovery.
vmsolver
Member

Повідомлення

Yaroslav308
А вот и уточнение подъехало, спасибо!
l-m
Member

Повідомлення

vmsolver: 09.10.2024 13:40 У кольца нет проблемы латентности, у кольца есть проблема полосы.
Та ні, тести на тіж міжядерні затримки показують що є проблеми латентності з ростом кількості "абонентів" навіть якщо смуга не забита (дані в тестах ганяються між всього двома "абонентами" кільця).
dext
Member
Звідки: Dnipro

Повідомлення

vmsolver: 09.10.2024 17:49 Латентность увеличивается при увеличении датасета потому что он перестаёт влезать в L1, а потом и в L2, поэтому латентность сначала низкая, а потом повышается, если рассматривать механизм работы только L3, то данные размазываются по всем слайсам, так как это распределённый кеш, кольцо сшивает все слайсы в единый L3 и никакая его часть не принадлежит какому-то ядру. Данные вытесненные из ядра тоже распределяются по всем слайсам с некоторой гранулярностью.

Миф про принадлежность слайсов L3 к какому-то ядру тут норма, и я давно пытаюсь его отсюда вывести. Пока бесполезно, но я буду стойким :gigi:
Ну, це зайві пояснення: головне як саме росте ця латентність, я таки переміряв на 14900k на 2Мб, 4Мб та 18Мб: на 4мб вона виявилась чітко (2Мб + 18Мб)/2 і росте по гіперболічний регресії тож математиці нічого доказувати не треба :beer:
vmsolver
Member

Повідомлення

l-m: 10.10.2024 00:40 Та ні, тести на тіж міжядерні затримки показують що є проблеми латентності з ростом кількості "абонентів" навіть якщо смуга не забита (дані в тестах ганяються між всього двома "абонентами" кільця).
Во-первых у кольца всё в порядке с задержками, они на хорошем уровне, всё хорошо, интел не зря с кольца не слезает в десктопе.
Во-вторых, а что такое вообще межядерные задержки?
l-m
Member

Повідомлення

vmsolver: 10.10.2024 01:54 у кольца всё в порядке с задержками, они на хорошем уровне, всё хорошо, интел не зря с кольца не слезает в десктопе.
Ага, всього в пару разів вже гірше ніж у Райзенів та наприклад Комет Лейків.
Все добре, але замість, наприклад 16 P-ядер, ліплять геморой, де вішають 4 Е-ядра ядра на один лінк кільцевої шини. Все добре, але викидаються графіку з кільця.
Tout va très bien, Madame la Marquise ;)

Відправлено через 1 хвилину 4 секунди:
l-m: 10.10.2024 02:09 интел не зря
Враховуючи справи Інтел, аргумент не валідний більше
vmsolver
Member

Повідомлення

dext: 10.10.2024 01:26 Ну, це зайві пояснення: головне як саме росте ця латентність, я таки переміряв на 14900k на 2Мб, 4Мб та 18Мб: на 4мб вона виявилась чітко (2Мб + 18Мб)/2 і росте по гіперболічний регресії тож математиці нічого доказувати не треба :beer:
Да ладно, не то что не лишние, а необходимые :learn: , вы же в кучу всё смешали. Мы говорили про то, что задержка кольца не доминирует в формировании задержки распределённого L3, а вы просто про измерение задержки подсистемы памяти, которая есть статистика задержек случайного доступа датасета определённого размера. При увеличении датасета он перестаёт помещаться в кеш одного уровня, но ещё помещается в кеш следующего уровня, при этом размер датасета работает как сглаживающее окно, поэтому когда датасет полностью помещается в кеш формируется полочка, помещается частично - график плавно растёт.
А если угодно именно математики, то выше выложили доку, там есть математика ;)

Відправлено через 7 хвилин 19 секунд:
l-m: 10.10.2024 02:10 Ага, всього в пару разів вже гірше ніж у Райзенів та наприклад Комет Лейків.
Все добре, але замість, наприклад 16 P-ядер, ліплять геморой, де вішають 4 Е-ядра ядра на один лінк кільцевої шини. Все добре, але викидаються графіку з кільця.
Разный подход к проектирования SoC, АМД делает мелкий кластер поэтому там чуть лучше с внутриконнектом. Интел делает кластером всю систему, чуть хуже, но однородно, очень гибко масштабируется и т.д. АМД же до сих пор сидит на двух кластерах в разных чипах.
Да ладно, какой геморой, элегантно прицепили кучу ядер к кольцу не меняя его размера.
Ну выкинули графику с кольца и что? Там всю систему раздробили, графике в вычислительном тайле делать нечего. Вам будто делать нечего и вы всякую ерунду придумываете.
l-m: 10.10.2024 02:10 Враховуючи справи Інтел, аргумент не валідний більше
А что там у Интела такого ужасного? Деньги есть, продажи большие, новые продукты делает. Тоже мне катастрофа.

Відправлено через 2 хвилини 57 секунд:
l-m: 10.10.2024 02:10наприклад 16 P-ядер
не делают, потому что это не эффективно использовать высокочастотный дизайн в средних частотах.
l-m
Member

Повідомлення

vmsolver
Ну ясно, в АМД 8 ядер у кластері це погано, а в Інтел 4 ядра в кластері це добре.
vmsolver: 10.10.2024 02:32 очень гибко масштабируется
Якщо заперечувати очевидне, то можливо :D
vmsolver: 10.10.2024 02:32 прицепили кучу ядер к кольцу не меняя его размера.
і навіщо не міняти розмір якщо "очень гибко масштабируется"? :gigi:

vmsolver: 10.10.2024 02:32 АМД же до сих пор сидит на двух кластерах в разных чипах.
І що? ;)
Відповісти