Пропоную обговорити Свіжі подробиці про графічний процесор AMD Navi 31 для топових карт Radeon RX 7000
Интересно сколько заломят наши барыги, сейчас ведь любой цено косяк можно списать на войну.
Останні статті і огляди
Новини
Свіжі подробиці про графічний процесор AMD Navi 31 для топових карт Radeon RX 7000
-
Kollers
Junior
-
Vecchio
Member
По 768 линков на MCD?Они работают на скорости 9,2 Гбит/с и обеспечивают почти в десять раз большую плотность полосы пропускания по сравнению с технологией IFOP (Infinity Fabric On-Package) в чипах Ryzen и EPYC. Совокупная пропускная способность шины между микросхемами GCD и MCD достигает 5,3 Тбайт/с
-
Enombre de soberano
Member
- Звідки: Харьков
Заказывайте из США, не кормите барыг... правда и все риски лягут на ваши плечи.Kollers: ↑ 14.11.2022 14:18Интересно сколько заломят наши барыги, сейчас ведь любой цено косяк можно списать на войну.
-
vmsolver
Member
Ну вот наконец-то и подробности о межчиплетной шине, к каждому чиплету кеша протянута шина шириной 768 бит работающая на частоте 9.2 ГГц.
Теперь интересно, а это все линки которые есть у главного чиплета? Общая ширина 4608 бит, но если делать GPU с двумя такими чиплетами, то кроме этой шины нужна ещё одна такая же, ну хотя бы половина от этой, чтобы соединить два вычислительных чиплета. Есть вариант по-хуже, когда вместо одного ряда чиплетов памяти подключён другой вычислительный чиплет, а к нему уже эти три чиплета памяти, так можно сделать уже сейчас, но количество памяти и общая полоса останется такой же как и в варианте с одним вычислительным чиплетом.
Интрига! Решаться ли так сделать? Было бы интересно посмотреть на такого монстра, как масштабируется производительность. Хинт: плохо, сильно широкий GPU получится, что снижает вероятность его выхода, но для 8-12К в самый раз. И для считалок хорошо, если памяти сделают хотя бы 64 ГБ.
Теперь интересно, а это все линки которые есть у главного чиплета? Общая ширина 4608 бит, но если делать GPU с двумя такими чиплетами, то кроме этой шины нужна ещё одна такая же, ну хотя бы половина от этой, чтобы соединить два вычислительных чиплета. Есть вариант по-хуже, когда вместо одного ряда чиплетов памяти подключён другой вычислительный чиплет, а к нему уже эти три чиплета памяти, так можно сделать уже сейчас, но количество памяти и общая полоса останется такой же как и в варианте с одним вычислительным чиплетом.
Интрига! Решаться ли так сделать? Было бы интересно посмотреть на такого монстра, как масштабируется производительность. Хинт: плохо, сильно широкий GPU получится, что снижает вероятность его выхода, но для 8-12К в самый раз. И для считалок хорошо, если памяти сделают хотя бы 64 ГБ.
-
block_stupid
Member
Kollers
Ну на 4090 у нас ціни однакові з закордонними "баригами", однаково неадекватні. Тай рекомендовані ціни також не дуже то й адекватні)
Ну на 4090 у нас ціни однакові з закордонними "баригами", однаково неадекватні. Тай рекомендовані ціни також не дуже то й адекватні)
-
Ektalion
Member
- Звідки: Тернопіль
Такі рішення ніколи не мали адекватні цінники, тримаю в курсі.block_stupid: ↑ 14.11.2022 16:53 Kollers
Ну на 4090 у нас ціни однакові з закордонними "баригами", однаково неадекватні. Тай рекомендовані ціни також не дуже то й адекватні)
-
block_stupid
Member
Ektalion
Тримаю в курсі, я це знаю.
Я людині відповідав, що ситуація у нас не краще (але і закордоном х2-х3 від номінала, також не ок).
Тримаю в курсі, я це знаю.
Я людині відповідав, що ситуація у нас не краще (але і закордоном х2-х3 від номінала, також не ок).
-
the lamer
Member
При такой схеме еще и инфинити кэша останется столько же, и шина памяти останется той же, т.е. будет ой как мало. Хотя не исключено, что в арсенале АМД есть таки плитки с изначально заявленными 32МБ на плитку, но с шиной памяти все равно будет затык.vmsolver: ↑ 14.11.2022 14:51 Интрига! Решаться ли так сделать? Было бы интересно посмотреть на такого монстра, как масштабируется производительность. Хинт: плохо, сильно широкий GPU получится, что снижает вероятность его выхода, но для 8-12К в самый раз. И для считалок хорошо, если памяти сделают хотя бы 64 ГБ.
Возможно, именно поэтому в качестве текущего топа линейки 7ххх решили таки остановиться на одночиповом варианте. Поняли, что для конкуренции с 4ххх линейкой на желаемом уровне этого достаточно, а двухчиповый при приросте производительности в лучшем случае на 50% в 8к+ разрешениях оказывается дороже по себестоимости в 2,5+ раз. За $2к+ карту, которая в популярных разрешениях в RT будет с 4090 примерно в паритете, а в заметный, но не ошеломляющий отрыв уйдет на нескольких играх на нескольких разрешениях, где и вся ширина конвейера будет загружена, и подсистемы памяти не станут слишком узким местом.
-
ronemun
Advanced Member
vmsolver
the lamer
подивіться на AMD Instinct 250 там все те що ви розповідаєте. І хоч там чіпи для обчислень, і немає поки що окремих MCM, але фактично там є зовнійшній кеш в чіпах HBM. Напевно HBM дозволяє використовувати дані з свого кешу ще до/без обовязковго запису в банки.
раніше відомий спеціаліст по чіпах Locuza вже показував розмиті фотки чіпа Radeon 7900, так там зєднання виглядали 768 лінків, а ніби 32. Може то по групах розбито було.
В IO чіпі Ryzen 7000 ефективна частота лінків = 20*фізична частота шини. Але сама шина 9(8 з ecc) біт SerDes в кожну сторону, 2 шт на чіплет, що пояснює велику швидкість запису в память (80+ Гбайт) навіть для одного чіплета. Але не пояснює слайда звідки береться 32 байт/такт на зчитування на одне зєднання - може там SerDes працюють в обидві сторони сумарно. Тоді мудро, а то в стандартних PCie вчепили 16+16, а коли тре більшу швидкість в одну сторону то неможна асинхрон зробити чи повністю односторонню - явне недовикористання дорогих ресурсів
the lamer
подивіться на AMD Instinct 250 там все те що ви розповідаєте. І хоч там чіпи для обчислень, і немає поки що окремих MCM, але фактично там є зовнійшній кеш в чіпах HBM. Напевно HBM дозволяє використовувати дані з свого кешу ще до/без обовязковго запису в банки.
раніше відомий спеціаліст по чіпах Locuza вже показував розмиті фотки чіпа Radeon 7900, так там зєднання виглядали 768 лінків, а ніби 32. Може то по групах розбито було.
В IO чіпі Ryzen 7000 ефективна частота лінків = 20*фізична частота шини. Але сама шина 9(8 з ecc) біт SerDes в кожну сторону, 2 шт на чіплет, що пояснює велику швидкість запису в память (80+ Гбайт) навіть для одного чіплета. Але не пояснює слайда звідки береться 32 байт/такт на зчитування на одне зєднання - може там SerDes працюють в обидві сторони сумарно. Тоді мудро, а то в стандартних PCie вчепили 16+16, а коли тре більшу швидкість в одну сторону то неможна асинхрон зробити чи повністю односторонню - явне недовикористання дорогих ресурсів
-
vmsolver
Member
Конечно всё будет такое же. Но, гипотетически, Самсунг что-то говорил про 24 ГГц память, вот её бы и поставить.the lamer: ↑ 14.11.2022 23:33 При такой схеме еще и инфинити кэша останется столько же, и шина памяти останется той же, т.е. будет ой как мало. Хотя не исключено, что в арсенале АМД есть таки плитки с изначально заявленными 32МБ на плитку, но с шиной памяти все равно будет затык.
Нам вообще не известно были ли такие планы вообще, это я просто из любопытства предположил, что раз такое дело, неплохо бы увидеть двухчипового монстра. Там и упаковка будет сильно больше и т.д. И если одночиповый вариант по заявлению АМД это конкурент 300мм2 чипу Нвидиа, то появление двухчипового варианта весьма желательный вариант с точки зрения конкуренции и улучшения имиджа АМД, ну и нам веселееthe lamer: ↑ 14.11.2022 23:33Возможно, именно поэтому в качестве текущего топа линейки 7ххх решили таки остановиться на одночиповом варианте.
Вообще смешно, 300мм2 чипу зелёных противостоит 300мм2 чип от красных с кучей дополнительных числетов. Единственная надежда, что всё же удвоенная плавучка у RDNA3 даст о себе знать и конкуренция будет по-жестче. Но почему АМД заявила такие низкие цены раз всё хорошо? Вопрос открытый.
Відправлено через 23 хвилини 18 секунд:
Нет у HBM никакого кеша, это просто динамическая память с шириной канала 128 бит, в другом корпусе с поддержкой нескольких слоёв.ronemun: ↑ 16.11.2022 06:55 подивіться на AMD Instinct 250 там все те що ви розповідаєте. І хоч там чіпи для обчислень, і немає поки що окремих MCM, але фактично там є зовнійшній кеш в чіпах HBM. Напевно HBM дозволяє використовувати дані з свого кешу ще до/без обовязковго запису в банки.
В любом случае, без инфы никто никаких вариантов не писал, в том числе и я, хотя у меня была гипотеза о HBM-подобной шине, сильно шире и более медленной (6х1024х6.9 ГГц), но в итоге они умножили частоту на треть и на столько же снизили ширину. Ну, ок.ronemun: ↑ 16.11.2022 06:55раніше відомий спеціаліст по чіпах Locuza вже показував розмиті фотки чіпа Radeon 7900, так там зєднання виглядали 768 лінків, а ніби 32. Може то по групах розбито було.
В IO чіпі Ryzen 7000 ефективна частота лінків = 20*фізична частота шини. Але сама шина 9(8 з ecc) біт SerDes в кожну сторону, 2 шт на чіплет, що пояснює велику швидкість запису в память (80+ Гбайт) навіть для одного чіплета. Але не пояснює слайда звідки береться 32 байт/такт на зчитування на одне зєднання - може там SerDes працюють в обидві сторони сумарно. Тоді мудро, а то в стандартних PCie вчепили 16+16, а коли тре більшу швидкість в одну сторону то неможна асинхрон зробити чи повністю односторонню - явне недовикористання дорогих ресурсів
32 байт на такт это может быть скорость внутренней шины к которой подключен serdes, в других материалах АМД также о той 768 битной шине говорила как 384 байт на такт, что при 768 битной шине не возможно, но это может означать темп передачи данных внутренней шины, которая шире, 3072 бита, вот она даёт темп 384 байта/такт (всего 2.3 ГГц), далее serdes 4:1 вот и получается 768 бит на 9.2 ГГц к каждому чиплету.
-
ronemun
Advanced Member
vmsolver
будь-яка драм має всередині кеш. При зчитуванні комірок вони розряджаються в ноль, тому зчитування йде в кеш, а потім автоматично повторний запис в комірки. Також DRAM отримує дані в 16-32 рази швидше ніж працюють конденсатори, які ще тре підготувати і т.п. Буфер досить значний - це можна побачити на фотках мікросхем памяті - там поля конденсаторів займають лише 50% площі, а решту - підсилювачі, буфер, інтерфейс, логіка і т.п.
В DRAM є спеціальна команда по прийому даних в буфери, але без запису в комірки. Це режим кешу
будь-яка драм має всередині кеш. При зчитуванні комірок вони розряджаються в ноль, тому зчитування йде в кеш, а потім автоматично повторний запис в комірки. Також DRAM отримує дані в 16-32 рази швидше ніж працюють конденсатори, які ще тре підготувати і т.п. Буфер досить значний - це можна побачити на фотках мікросхем памяті - там поля конденсаторів займають лише 50% площі, а решту - підсилювачі, буфер, інтерфейс, логіка і т.п.
В DRAM є спеціальна команда по прийому даних в буфери, але без запису в комірки. Це режим кешу
-
vmsolver
Member
Так буфер, а не кеш, буфер в HBM есть, а кеша нет, совсем. Буфер это не кеш в том же смысле, в котором мы называем так, например, кеш L3. Это разные штуки называемые разными словами, ибо там есть разница, большая.ronemun: ↑ 17.11.2022 11:37 vmsolver
будь-яка драм має всередині кеш. При зчитуванні комірок вони розряджаються в ноль, тому зчитування йде в кеш, а потім автоматично повторний запис в комірки. Також DRAM отримує дані в 16-32 рази швидше ніж працюють конденсатори, які ще тре підготувати і т.п. Буфер досить значний - це можна побачити на фотках мікросхем памяті - там поля конденсаторів займають лише 50% площі, а решту - підсилювачі, буфер, інтерфейс, логіка і т.п.
В DRAM є спеціальна команда по прийому даних в буфери, але без запису в комірки. Це режим кешу
В общем, теория о том, что что-то там у АМД круто потому что у DRAM есть буфер, это забавно, но не более.
-
ronemun
Advanced Member
так кеш це теж буфер, тільки зі своєю логікою. MCM в Radeon 7000 можна сказати теж буфер, перед памяттю, тому що він зовні і до того ж через шину зі значною затримкою, що і змусило підняти частоту шини.
В HBM таж сама шина, і запис іде туди і при потребі можна без збереження в комірки, а прямо з буфера читати - фактично аналог як в MCM. Тільки HBM дорога, пишуть на 1 обєму в 3 рази дорожча за LPDDR5, може тому тут поєднали MCM + GDDR6, хоча gddr напевно дорожча за LPDDR.
А взагалі молодці що знайшли такий вихід - 850 Гбайт/с через 768 біт шину, і навіть кеш можна приєднувати. Тут незрозуміло, чому було кеш не приєднати по аналогії з 3д кешом в Ryzen, або навпаки, чому в Ryzen/EPYC не використати таке ж супер зєднання як з MCM - адже вони пишуть про в 50 раз вищу густину зєднань і в 10 раз більшу швидкість, хоч і на дуже малу відстань - 2 мм, але це фантастика. І енергію на біт напевно сильно меньше бере. І підкладка органічна чомусь в рази краще ніж кремнієва. Для чіплета по 8 ядер хватило б в 3 раз меньшу шину - 128 біт в кожну сторону. Бідний Інтел зі своїм Forevos по 40+ кристалів на один прискорювач рівня застарілого A100, або з 4 чіплетним Xeon де зєднаня між чіпами займають 25% площі кристалів по 400 мм.кв.
В HBM таж сама шина, і запис іде туди і при потребі можна без збереження в комірки, а прямо з буфера читати - фактично аналог як в MCM. Тільки HBM дорога, пишуть на 1 обєму в 3 рази дорожча за LPDDR5, може тому тут поєднали MCM + GDDR6, хоча gddr напевно дорожча за LPDDR.
А взагалі молодці що знайшли такий вихід - 850 Гбайт/с через 768 біт шину, і навіть кеш можна приєднувати. Тут незрозуміло, чому було кеш не приєднати по аналогії з 3д кешом в Ryzen, або навпаки, чому в Ryzen/EPYC не використати таке ж супер зєднання як з MCM - адже вони пишуть про в 50 раз вищу густину зєднань і в 10 раз більшу швидкість, хоч і на дуже малу відстань - 2 мм, але це фантастика. І енергію на біт напевно сильно меньше бере. І підкладка органічна чомусь в рази краще ніж кремнієва. Для чіплета по 8 ядер хватило б в 3 раз меньшу шину - 128 біт в кожну сторону. Бідний Інтел зі своїм Forevos по 40+ кристалів на один прискорювач рівня застарілого A100, або з 4 чіплетним Xeon де зєднаня між чіпами займають 25% площі кристалів по 400 мм.кв.