Розкрито специфікації процесорів Intel Core Ultra 200 для платформи LGA1851

l-m · Повідомлення 19.08.2024 18:41

Scoffer: ↑ 19.08.2024 18:05 Логичне вимикання ні на що енергетично не впливає оскільки більшість запчастин беруть участь в ОоО основного потока.

Цікаво чому тоді має допомогти фізичне вимикання, якщо більшість запчастин все одно потрібні.
Тому очевидно ж що фізичне випилювання не дасть мінус 18% споживання й близько. Навіть 5% не дасть.

Scoffer: ↑ 19.08.2024 18:05 Дві архітектури не від гарного життя довелось пилити.

Ну так це ж проблеми Інтела, який може собі дозволити розробляти купу архітектур, але не може (чи вже й не хоче) зробити більш-менш універсальну.

Scoffer: ↑ 19.08.2024 18:05 де є приріст і в 200, і в 300%

Ну, ми тут, по-перше, про енергоефективність, а по друге подібні прирости можливі або на якісь специфічній синтетиці, або це просто дуже поганий (специфічний) баланс між фронт-ендом та виконавчими блоками у процесора.
Та енергоефективність навпаки завжди була перевагою SMT. Ось, наприклад дослідження зі старими архітектурами Інтела за 2011, SMT має кращу енергоефективність ніж Атоми — https://www.steveblackburn.org/pubs/pap ... s-2011.pdf

Scoffer: ↑ 19.08.2024 18:05 і закінчити купою додаткових вразливостей по стороннім каналам.

Ну це може бути причиною. Як і бажання пом'якшити вплив планувальників ОС та отримати максимальну однопотокову продуктивність. Але сумнівно що причина "погана" енергоефективність, адже це протилежить загальному тренду.

l-m: ↑ 19.08.2024 17:53 Ну якщо це раптом правда, то в Інтела банально погана реалізація HT.

Хоча, якщо так подумати, це не перше що АМД змогла реалізувати помітно ефективніше за Інтел, з AVX-512 така ж історія — в Інтел ці інструкції помітно збільшували споживання, через що енергоефективність була під великим питанням, а у Zen 4/5 навпаки AVX-512 трохи зменшує споживання та температури (при значному прирості продуктивності) — https://www.phoronix.com/review/amd-zen ... 12-9950x/7

Denvys5 · Повідомлення 19.08.2024 21:14

l-m: ↑ 19.08.2024 18:41 це не перше що АМД змогла реалізувати помітно ефективніше за Інтел, з AVX-512 така ж історія — в Інтел ці інструкції помітно збільшували споживання, через що енергоефективність була під великим питанням, а у Zen 4/5 навпаки AVX-512 трохи зменшує споживання та температури (при значному прирості продуктивності)

З авх512 навіть краще. Буст не тільки в порівняні з авх2, а ще й з інтелівським авх512

У 25 разів, "в особливих випадках"

http://www.numberworld.org/blogs/2024_8 ... TERSECT%3A

спойлер: AVX512-VP2INTERSECT:

Ah yes, the black sheep of the AVX512 family...

There is a lot of history here, but to summarize:

Intel added AVX512-VP2INTERSECT to Tiger Lake. But it was really slow. (microcoded ~25 cycles/46 uops)
It was so slow that someone found a better way to implement its functionality without using the instruction itself.
Intel deprecates the instruction and removes it from all processors after Tiger Lake. (ignoring the fact that early Alder Lake unofficially also had it)
AMD adds it to Zen5.
So just as Intel kills off VP2INTERSECT, AMD shows up with it. Needless to say, Zen5 had probably already taped out by the time Intel deprecated the instruction. So VP2INTERSECT made it into Zen5's design and wasn't going to be removed.

But how good is AMD's implementation? Let's look at AIDA64's dumps for Granite Ridge:

AVX512VL_VP2INTERSE :VP2INTERSECTD k1+1, xmm, xmm L: [diff. reg. set] T: 0.23ns= 1.00c
AVX512VL_VP2INTERSE :VP2INTERSECTD k1+1, ymm, ymm L: [diff. reg. set] T: 0.23ns= 1.00c
AVX512_VP2INTERSECT :VP2INTERSECTD k1+1, zmm, zmm L: [diff. reg. set] T: 0.23ns= 1.00c
AVX512VL_VP2INTERSE :VP2INTERSECTQ k1+1, xmm, xmm L: [diff. reg. set] T: 0.23ns= 1.00c
AVX512VL_VP2INTERSE :VP2INTERSECTQ k1+1, ymm, ymm L: [diff. reg. set] T: 0.23ns= 1.00c
AVX512_VP2INTERSECT :VP2INTERSECTQ k1+1, zmm, zmm L: [diff. reg. set] T: 0.23ns= 1.00c

Yes, that's right. 1 cycle throughput. ONE cycle. I can't... I just can't...

Intel was so bad at this that they dropped the instruction. And now AMD finally appears and shows them how it's done - 2 years too late.

Scoffer · Повідомлення 19.08.2024 21:36

l-m
Нам не треба нічого вигадувати, у нас є чудові слайди від самого інтела, зокрема оці два:

спойлер

Інтел стверджує що спеціально зроблене однопоточне ядро має на 15% більшу продуктивність на ті ж вати при вимкненому HT, і на 5% при ввімкненому. Тобто профіту від технології немає.
Опосередковано те ж саме підтверджується відсутністю мобільних армоядер з SMT, бо ситуація коли ноунейм стартапи можуть робити SMT ядра на армі, а епл з квалкомом - ні і вимушені клепати по три сорти недоядер, виглядає малореалістичною.

l-m: ↑ 19.08.2024 18:41але не може (чи вже й не хоче) зробити більш-менш універсальну.

В цьому світі універсальне означає не однаково хороше, а однаково погане в усіх завданнях.

l-m: ↑ 19.08.2024 18:41а по друге подібні прирости можливі або на якісь специфічній синтетиці, або це просто дуже поганий (специфічний) баланс між фронт-ендом та виконавчими блоками у процесора

Ні, подібні прирости демонстрували приблизно всі, хто впроваджував SMT, наприклад павери, спарки, альфи, сістем зед і інші. Не виходило виключно у х86. Достеменних причин я не знаю, але підозрюю що їх як мінімум дві: однопоточна продуктивність понад усе замість пропускної спроможності ядра понад усе як в інших, і ISA х86 як така.

Відправлено через 3 хвилини 31 секунду:

l-m: ↑ 19.08.2024 18:41SMT має кращу енергоефективність ніж Атоми

Ніж атоми першого покоління, котрі самі з HT

І від котрого ті ж атоми в подальшому відмовились.

Відправлено через 5 хвилин 15 секунд:
Треба розуміти що технологія SMT/HT ніколи не була про економію ватів, це не було ні метою створення, ні оптимізації, технологія була про економію транзисторів. Але зараз транзисторів вже дівати нікуди, а з ватами з'явився деякий напряг.

alexeygalas · Повідомлення 20.08.2024 10:38

Цікаво би було, якби хтось з власників 13700 або 13700К провів тест CB Multicore:
8P 0E HT on
8P 8E HT off

Щоб в загальному було 16 потоків. Шукав такі тести не знайшов. А в самого зараз на руках немає цієї платформи.

Знайшов тільки пости на форумах на цю тему
https://forums.anandtech.com/threads/al ... t-40645005

Але думається, що якщо навтіь Thread Director працює в такій послідовності P > E > P-HT то мабуть e-ядра дають більший приріст ніж другий поток на P ядрах

Alekss · Повідомлення 20.08.2024 10:40

Scoffer: ↑ 19.08.2024 10:20
Shaolin_Style: ↑ 19.08.2024 10:15увеличение тредов через HT уже не представляет того прироста перформанса
Пердставляє і навіть більше ніж було, але не представляє приросту енергоефективності. Недоядра все одно жруть менше.

Ryzen 5 3600 при отключенном Hyper Threading (SMT) теряет 25% производительности.
Возможно, Intel будет использовать вместо HT больше физических ядер (энергоэффективных). Эффект будет больше, чем при включенном HT. Они так делали, начиная с 12, 13, 14 серии. HT был включен не для всех ядер, а только для производительных, и это давало ощутимый прирост производительности.

Например, возьмем мобильный i5 12450H (TDP 45W), у него (4 ядра P-cores 4090 MHz + HT) и 4 ядра E-cores 3290 MHz. Все те же 12 потоков, но по производительности он равен Ryzen 5 3600 (6 ядер, 12 потоков, 4200 MHz, TDP 65W), при этом он более энергоеффективен.

ronemun · Повідомлення 20.08.2024 20:56

alexeygalas
це не важко вирахувати - всі дані є на HWBot
далі взяті всі дані для найкращих таймінгів памяті, щоб розкрити можливість ядра, при поганих тймінгах падіння до 8%
для інтел 12-14 в CB23 1 ядро@1 ГГц дає очок:
p/ht=off - 380
p/ht=on - 510=380+130
e - 270 що рівно 0,7 від p/ht=off на тій же частоті
відповідно
8 p-ядер@5.5 ГГц
ht=off - 16700
ht=on - 22400
8 e-ядер@4.5 - 9700
Отже 8p+8e
ht=off - 16700+9700=26400 >22400
ht=on - 22400+9700=33100 що підтверджують результати

Фактично HT для р-ядро@5.5 приносить 130*5,5=715 очок, а е-ядро@4.5 270*4,5= 1215
Але це вже в минулому, тобто 12-14 покоління

в ArrowLake нові ядра, на 1 ГГц буде ~420 і 330 очок для р і е ядер відповідно, але незнаю частоти e-ядер

alexeygalas · Повідомлення 20.08.2024 23:39

ronemun
Як тільки в продажі з'являться - сам і потестую )) дружині планую робочу конячку оновити. Буде z890 + core ultra 7 non K (бо в sff)

Upd: тільки зараз дійшло, що не буде референсних результатів з чим порівняти хех