Свіжі подробиці про графічний процесор AMD Navi 31 для топових карт Radeon RX 7000

Kollers · Повідомлення 14.11.2022 14:18

Пропоную обговорити Свіжі подробиці про графічний процесор AMD Navi 31 для топових карт Radeon RX 7000

Интересно сколько заломят наши барыги, сейчас ведь любой цено косяк можно списать на войну.

Vecchio · Повідомлення 14.11.2022 14:39

Они работают на скорости 9,2 Гбит/с и обеспечивают почти в десять раз большую плотность полосы пропускания по сравнению с технологией IFOP (Infinity Fabric On-Package) в чипах Ryzen и EPYC. Совокупная пропускная способность шины между микросхемами GCD и MCD достигает 5,3 Тбайт/с

По 768 линков на MCD?

Enombre de soberano · Повідомлення 14.11.2022 14:48

Kollers: ↑ 14.11.2022 14:18Интересно сколько заломят наши барыги, сейчас ведь любой цено косяк можно списать на войну.

Заказывайте из США, не кормите барыг... правда и все риски лягут на ваши плечи.

vmsolver · Повідомлення 14.11.2022 14:51

Ну вот наконец-то и подробности о межчиплетной шине, к каждому чиплету кеша протянута шина шириной 768 бит работающая на частоте 9.2 ГГц.

Теперь интересно, а это все линки которые есть у главного чиплета? Общая ширина 4608 бит, но если делать GPU с двумя такими чиплетами, то кроме этой шины нужна ещё одна такая же, ну хотя бы половина от этой, чтобы соединить два вычислительных чиплета. Есть вариант по-хуже, когда вместо одного ряда чиплетов памяти подключён другой вычислительный чиплет, а к нему уже эти три чиплета памяти, так можно сделать уже сейчас, но количество памяти и общая полоса останется такой же как и в варианте с одним вычислительным чиплетом.

Интрига! Решаться ли так сделать? Было бы интересно посмотреть на такого монстра, как масштабируется производительность. Хинт: плохо, сильно широкий GPU получится, что снижает вероятность его выхода, но для 8-12К в самый раз. И для считалок хорошо, если памяти сделают хотя бы 64 ГБ.

block_stupid · Повідомлення 14.11.2022 16:53

Kollers
Ну на 4090 у нас ціни однакові з закордонними "баригами", однаково неадекватні. Тай рекомендовані ціни також не дуже то й адекватні)

Ektalion · Повідомлення 14.11.2022 17:01

block_stupid: ↑ 14.11.2022 16:53 Kollers
Ну на 4090 у нас ціни однакові з закордонними "баригами", однаково неадекватні. Тай рекомендовані ціни також не дуже то й адекватні)

Такі рішення ніколи не мали адекватні цінники, тримаю в курсі.

block_stupid · Повідомлення 14.11.2022 17:53

Ektalion
Тримаю в курсі, я це знаю.
Я людині відповідав, що ситуація у нас не краще (але і закордоном х2-х3 від номінала, також не ок).

the lamer · Повідомлення 14.11.2022 23:33

vmsolver: ↑ 14.11.2022 14:51 Интрига! Решаться ли так сделать? Было бы интересно посмотреть на такого монстра, как масштабируется производительность. Хинт: плохо, сильно широкий GPU получится, что снижает вероятность его выхода, но для 8-12К в самый раз. И для считалок хорошо, если памяти сделают хотя бы 64 ГБ.

При такой схеме еще и инфинити кэша останется столько же, и шина памяти останется той же, т.е. будет ой как мало. Хотя не исключено, что в арсенале АМД есть таки плитки с изначально заявленными 32МБ на плитку, но с шиной памяти все равно будет затык.
Возможно, именно поэтому в качестве текущего топа линейки 7ххх решили таки остановиться на одночиповом варианте. Поняли, что для конкуренции с 4ххх линейкой на желаемом уровне этого достаточно, а двухчиповый при приросте производительности в лучшем случае на 50% в 8к+ разрешениях оказывается дороже по себестоимости в 2,5+ раз. За $2к+ карту, которая в популярных разрешениях в RT будет с 4090 примерно в паритете, а в заметный, но не ошеломляющий отрыв уйдет на нескольких играх на нескольких разрешениях, где и вся ширина конвейера будет загружена, и подсистемы памяти не станут слишком узким местом.

ronemun · Повідомлення 16.11.2022 06:25

vmsolver
the lamer
подивіться на AMD Instinct 250 там все те що ви розповідаєте. І хоч там чіпи для обчислень, і немає поки що окремих MCM, але фактично там є зовнійшній кеш в чіпах HBM. Напевно HBM дозволяє використовувати дані з свого кешу ще до/без обовязковго запису в банки.

раніше відомий спеціаліст по чіпах Locuza вже показував розмиті фотки чіпа Radeon 7900, так там зєднання виглядали 768 лінків, а ніби 32. Може то по групах розбито було.
В IO чіпі Ryzen 7000 ефективна частота лінків = 20*фізична частота шини. Але сама шина 9(8 з ecc) біт SerDes в кожну сторону, 2 шт на чіплет, що пояснює велику швидкість запису в память (80+ Гбайт) навіть для одного чіплета. Але не пояснює слайда звідки береться 32 байт/такт на зчитування на одне зєднання - може там SerDes працюють в обидві сторони сумарно. Тоді мудро, а то в стандартних PCie вчепили 16+16, а коли тре більшу швидкість в одну сторону то неможна асинхрон зробити чи повністю односторонню - явне недовикористання дорогих ресурсів

vmsolver · Повідомлення 16.11.2022 23:21

the lamer: ↑ 14.11.2022 23:33 При такой схеме еще и инфинити кэша останется столько же, и шина памяти останется той же, т.е. будет ой как мало. Хотя не исключено, что в арсенале АМД есть таки плитки с изначально заявленными 32МБ на плитку, но с шиной памяти все равно будет затык.

Конечно всё будет такое же. Но, гипотетически, Самсунг что-то говорил про 24 ГГц память, вот её бы и поставить.

the lamer: ↑ 14.11.2022 23:33Возможно, именно поэтому в качестве текущего топа линейки 7ххх решили таки остановиться на одночиповом варианте.

Нам вообще не известно были ли такие планы вообще, это я просто из любопытства предположил, что раз такое дело, неплохо бы увидеть двухчипового монстра. Там и упаковка будет сильно больше и т.д. И если одночиповый вариант по заявлению АМД это конкурент 300мм2 чипу Нвидиа, то появление двухчипового варианта весьма желательный вариант с точки зрения конкуренции и улучшения имиджа АМД, ну и нам веселее

Вообще смешно, 300мм2 чипу зелёных противостоит 300мм2 чип от красных с кучей дополнительных числетов. Единственная надежда, что всё же удвоенная плавучка у RDNA3 даст о себе знать и конкуренция будет по-жестче. Но почему АМД заявила такие низкие цены раз всё хорошо? Вопрос открытый.

Відправлено через 23 хвилини 18 секунд:

ronemun: ↑ 16.11.2022 06:55 подивіться на AMD Instinct 250 там все те що ви розповідаєте. І хоч там чіпи для обчислень, і немає поки що окремих MCM, але фактично там є зовнійшній кеш в чіпах HBM. Напевно HBM дозволяє використовувати дані з свого кешу ще до/без обовязковго запису в банки.

Нет у HBM никакого кеша, это просто динамическая память с шириной канала 128 бит, в другом корпусе с поддержкой нескольких слоёв.

ronemun: ↑ 16.11.2022 06:55раніше відомий спеціаліст по чіпах Locuza вже показував розмиті фотки чіпа Radeon 7900, так там зєднання виглядали 768 лінків, а ніби 32. Може то по групах розбито було.
В IO чіпі Ryzen 7000 ефективна частота лінків = 20*фізична частота шини. Але сама шина 9(8 з ecc) біт SerDes в кожну сторону, 2 шт на чіплет, що пояснює велику швидкість запису в память (80+ Гбайт) навіть для одного чіплета. Але не пояснює слайда звідки береться 32 байт/такт на зчитування на одне зєднання - може там SerDes працюють в обидві сторони сумарно. Тоді мудро, а то в стандартних PCie вчепили 16+16, а коли тре більшу швидкість в одну сторону то неможна асинхрон зробити чи повністю односторонню - явне недовикористання дорогих ресурсів

В любом случае, без инфы никто никаких вариантов не писал, в том числе и я, хотя у меня была гипотеза о HBM-подобной шине, сильно шире и более медленной (6х1024х6.9 ГГц), но в итоге они умножили частоту на треть и на столько же снизили ширину. Ну, ок.

32 байт на такт это может быть скорость внутренней шины к которой подключен serdes, в других материалах АМД также о той 768 битной шине говорила как 384 байт на такт, что при 768 битной шине не возможно, но это может означать темп передачи данных внутренней шины, которая шире, 3072 бита, вот она даёт темп 384 байта/такт (всего 2.3 ГГц), далее serdes 4:1 вот и получается 768 бит на 9.2 ГГц к каждому чиплету.

ronemun · Повідомлення 17.11.2022 11:37

vmsolver
будь-яка драм має всередині кеш. При зчитуванні комірок вони розряджаються в ноль, тому зчитування йде в кеш, а потім автоматично повторний запис в комірки. Також DRAM отримує дані в 16-32 рази швидше ніж працюють конденсатори, які ще тре підготувати і т.п. Буфер досить значний - це можна побачити на фотках мікросхем памяті - там поля конденсаторів займають лише 50% площі, а решту - підсилювачі, буфер, інтерфейс, логіка і т.п.
В DRAM є спеціальна команда по прийому даних в буфери, але без запису в комірки. Це режим кешу

vmsolver · Повідомлення 17.11.2022 20:26

ronemun: ↑ 17.11.2022 11:37 vmsolver
будь-яка драм має всередині кеш. При зчитуванні комірок вони розряджаються в ноль, тому зчитування йде в кеш, а потім автоматично повторний запис в комірки. Також DRAM отримує дані в 16-32 рази швидше ніж працюють конденсатори, які ще тре підготувати і т.п. Буфер досить значний - це можна побачити на фотках мікросхем памяті - там поля конденсаторів займають лише 50% площі, а решту - підсилювачі, буфер, інтерфейс, логіка і т.п.
В DRAM є спеціальна команда по прийому даних в буфери, але без запису в комірки. Це режим кешу

Так буфер, а не кеш, буфер в HBM есть, а кеша нет, совсем. Буфер это не кеш в том же смысле, в котором мы называем так, например, кеш L3. Это разные штуки называемые разными словами, ибо там есть разница, большая.
В общем, теория о том, что что-то там у АМД круто потому что у DRAM есть буфер, это забавно, но не более.

ronemun · Повідомлення 18.11.2022 20:00

так кеш це теж буфер, тільки зі своєю логікою. MCM в Radeon 7000 можна сказати теж буфер, перед памяттю, тому що він зовні і до того ж через шину зі значною затримкою, що і змусило підняти частоту шини.
В HBM таж сама шина, і запис іде туди і при потребі можна без збереження в комірки, а прямо з буфера читати - фактично аналог як в MCM. Тільки HBM дорога, пишуть на 1 обєму в 3 рази дорожча за LPDDR5, може тому тут поєднали MCM + GDDR6, хоча gddr напевно дорожча за LPDDR.
А взагалі молодці що знайшли такий вихід - 850 Гбайт/с через 768 біт шину, і навіть кеш можна приєднувати. Тут незрозуміло, чому було кеш не приєднати по аналогії з 3д кешом в Ryzen, або навпаки, чому в Ryzen/EPYC не використати таке ж супер зєднання як з MCM - адже вони пишуть про в 50 раз вищу густину зєднань і в 10 раз більшу швидкість, хоч і на дуже малу відстань - 2 мм, але це фантастика. І енергію на біт напевно сильно меньше бере. І підкладка органічна чомусь в рази краще ніж кремнієва. Для чіплета по 8 ядер хватило б в 3 раз меньшу шину - 128 біт в кожну сторону. Бідний Інтел зі своїм Forevos по 40+ кристалів на один прискорювач рівня застарілого A100, або з 4 чіплетним Xeon де зєднаня між чіпами займають 25% площі кристалів по 400 мм.кв.