Разработчик Metro Exodus: для трассировки лучей на next-gen консолях RT-ядра не обязательны

Izraphail · Повідомлення 20.02.2019 10:51

Alex Pepper: И что ты этим хочешь опять таки сказать? Что так быстро "вырыли яму" лишь голые руки? Им вся заслуга, а "лопата" здесь ни при чём и ни разу не помогла? Что любая карта GTX или карта AMD, обладающая лишь "голыми руками" (унифицированными шейдерами) может "рыть ямы" (считать лучи) с той же эффективностью, что и с помощью "лопаты" (RT-ядро)?

У вас паранойя? Или стек памяти как у золотой рыбки? Покажите ка мне, где я топил за то что #RTничегоНеДелают. Будьте добры, линк на комментарий. Всё за что я изначально топил, это то что:

Тут до многих до сих пор не доходит, что если бы их лучи считались только РТядрами, то фпс бы не падал бы, как и было обещано Хуаной ... Потому ваш довод пропустят мимо ушей..

И мы опять же таки сошлись на том, что большая часть работы по прежнему на SM о чем я и говорил со старта:

Именно потому при включении РТ дропает фпс и загружаются эти ваши общие вычислительные блоки.

И да, жду где вы меня ткнете носом, о том что я прям таки топил за то, что РТ не нужны

Alex Pepper · Повідомлення 20.02.2019 11:02

Izraphail
А как ты хотел? Чтобы активация RTX никак не дропала фпс? Не много ли ты ждёшь? Кто тебе обещал, что падения производительности не будет?

И мы опять же таки сошлись на том, что большая часть работы по прежнему на SM о чем я и говорил со старта:

Не сошлись, бОльшая часть расчётов рассеивания лучей лежит на RT-ядрах.

Izraphail · Повідомлення 20.02.2019 11:27

Alex Pepper:Izraphail
А как ты хотел? Чтобы активация RTX никак не дропала фпс? Не много ли ты ждёшь? Кто тебе обещал, что падения производительности не будет?

Кто обещал? Серьезно? Пересмотри презентацию лучеликого:

Не сошлись, бОльшая часть расчётов рассеивания лучей лежит на RT-ядрах.

Т.е. Всю работу делает лопата. Сама идет к яме, сама вонзается в грунт, сама поднимает в грунт и сама отбрасывает его в сторону(аппелируя к вашему примеру).
Всё что делают РТ - рассеивают лучи при помощи шейдера(читаем описаниме что я скидывал ранее с офф дев блога зеленых), всё остальное считают SM. У RT одна задача - передать координаты старта луча и начальный цвет пикселя откуда исходит луч и конечную точку луча на конвеер SM.
Заявлять что большая работа рейтрейсинга лежит на РТ ядрах, равносильно тому, что сказать что топор делает больше работы чем дровосек. Только вот дровосек может повалить дерево без топора, а топор без дровосека - нет.

П.с. и да, Билли, я жду пруфов, о том что я топил за ненужность РТ. Или приступ ЧСВ не позволяет признать тот факт что ты воевал не туда?

Alex Pepper · Повідомлення 20.02.2019 11:47

Izraphail:Т.е. Всю работу делает лопата. Сама идет к яме, сама вонзается в грунт, сама поднимает в грунт и сама отбрасывает его в сторону(аппелируя к вашему примеру).

Нет, конечно, и я писал об этом.

Заявлять что большая работа рейтрейсинга лежит на РТ ядрах, равносильно тому, что сказать что топор делает больше работы чем дровосек.

А как ты объяснишь тогда, такой факт?

За счет узкой специализации RT-ядра Turing несопоставимо более эффективны в поиске пересечений луча по сравнению с шейдерными ALU. NVIDIA приводит следующие данные: GeForce GTX 1080 Ti, задействовав 10 TFLOPS вычислительной мощности (из доступных 11,3 TFLOPS) исключительно для Ray Tracing, достигает производительности 1,1 млрд лучей/с. GeForce RTX 2080 Ti с помощью 68 RT-ядер превышает отметку в 10 млрд лучей/с, при этом его шейдерные ALU остаются свободны для другой работы.

Так кто же таки даёт такой колоссальный буст в трассировке лучей? Лопата или дровосек, который ей машет?

П.с. и да, Билли, я жду пруфов, о том что я топил за ненужность РТ. Или приступ ЧСВ не позволяет признать тот факт что ты воевал не туда?

Ну, ОК. Про их ненужность заявлял таксист Wahoo. А ты заявил о том, что недостаточная мощность RT-ядер не может быть бутылочным горлышком в ограничении фпс, т.к. ОСНОВНУЮ работу по рейтресингу выполняют унифицированные блоки, а не RT-ядра. А из пруфов привел только параметр загрузки ГП на 100%, что ровным счётом не говорит абсолютно ничего.

И потому загрузка ГПУ в потолок, ведь изза ограничения фпс унифицированные шейдерные блоки не простаивают, а начинают майнить биткоины хуану?

Izraphail · Повідомлення 20.02.2019 12:30

Alex Pepper:
П.с. и да, Билли, я жду пруфов, о том что я топил за ненужность РТ. Или приступ ЧСВ не позволяет признать тот факт что ты воевал не туда?
Ну, ОК. Про их ненужность заявлял таксист Wahoo. А ты заявил о том, что недостаточная мощность RT-ядер не может быть бутылочным горлышком в ограничении фпс, т.к. ОСНОВНУЮ работу по рейтресингу выполняют унифицированные блоки, а не RT-ядра. А из пруфов привел только параметр загрузки ГП на 100%, что ровным счётом не говорит абсолютно ничего.
И потому загрузка ГПУ в потолок, ведь изза ограничения фпс унифицированные шейдерные блоки не простаивают, а начинают майнить биткоины хуану?

Да ладно, т.е. то что явно упираемся в мощность SM блоков (100% загрузка) - это ничего не значит?) Я уже говорил одному товарищу - повторю и тебе. Возьми калькулятор, спеки карт серии RTX и найди загвоздку в разнице кол-ва различных вычислительных блоков, мощности "лучегенерации" и тд.
А потом обьясните мне как так выходит что при разгоне чипа мы получаем и буст "лучегенерации" (смотрим разницу спеков 2080Ти обычной и фронтирки)

Ведь мы же упираемся только в РТ ядрышки, по твоим словам

evrial · Повідомлення 20.02.2019 12:41

Alex Pepper
RT ядра это те же самые SM с дополненным конвейером, шо не ясно?

Функционально новые тензорные ядра не так уж отличаются от обычных шейдерных ALU, которые тоже способны выполнять операции FMA, лишь с той разницей, что шейдерные ALU оперируют скалярными величинами, организованными по принципу SIMT, а тензорные ядра — векторными в виде матриц. Однако тензорные ядра не могут выполнять каких-либо иные вычисления, помимо FMA, и как следствие, крайне упрощены: их компоненты размещаются с высокой плотностью на кристалле GPU и нуждаются в минимуме управляющей логики по сравнению с универсальными CUDA-ядрами. Благодаря узкой специализации одно тензорное ядро за такт процессора выполняет 64 инструкции FMA

Alex Pepper · Повідомлення 20.02.2019 12:53

Izraphail: Да ладно, т.е. то что явно упираемся в мощность SM блоков (100% загрузка) - это ничего не значит?)

Ну, и что что загрузка 100%? А какой ей ещё быть? Откуда ты знаешь, как она меряется в мониторинговых утилитах? Предположу, что частотой ядра. Ну, а с чего тогда частоте ядра не расти, если RT-ядра являются его частью, и так же точно зависят от частоты его работы? Самой важной и фундаментальной частью рейтрейсинга является расчёт отражений лучей. Это самая ресурсоёмкая задача в этом методе рендеринга, остальное вторичное. Поэтому утверждать, что производительность в режиме RTX упирается в производительность SM блоков глупо, ибо если бы так было, то мы получили бы

GeForce GTX 1080 Ti, задействовав 10 TFLOPS вычислительной мощности (из доступных 11,3 TFLOPS) исключительно для Ray Tracing, достигает производительности 1,1 млрд лучей/с.

, и наблюдали не 40 фпс в 1080р, и даже не 4, а ещё меньше, при чём в разы, т.к. все SM блоки заняты просчётом рассеивания лучей.

evrial
RT-ядра это не тензорные ядра, шо не ясно?

Izraphail · Повідомлення 20.02.2019 13:05

Alex Pepper:Самой важной и фундаментальной частью рейтрейсинга является расчёт отражений лучей. Это самая ресурсоёмкая задача в этом методе рендеринга, остальное вторичное. Поэтому утверждать, что производительность в режиме RTX упирается в производительность SM блоков глупо, ибо если бы так было, то мы получили бы
GeForce GTX 1080 Ti, задействовав 10 TFLOPS вычислительной мощности (из доступных 11,3 TFLOPS) исключительно для Ray Tracing, достигает производительности 1,1 млрд лучей/с.
, и наблюдали не 40 фпс в 1080р, и даже не 4, а ещё меньше, при чём в разы, т.к. все SM блоки заняты просчётом рассеивания лучей.

А есть пруфы с запуска DXR на 1080Ти? Или только маркетинговые материалы на зеленых? Если у них уже есть дрова для 1080Ти с поддержкой DXR то почему не выкатили? Вот я почему-то видел в треде пруфы на запуск тех же радеонрейс с ПОЛНЫМ рейтрейсингом, а не гибридным и без РТ ядер и даже без, о боже, лагодрома.
У нас даже есть тесты вольты где РТ ядер НЕТ, но она могла в рейтрейсинг в батле на косых дровах и до патча с фиксом лучей батлы, когда и 2080Ти садилась в лужу. И вольта садилась только в сценах где было огромное кол-во отражающих поверхностей. Что опять таки говорит нам о том, что тут важны не РТ ядра, а память и алгоритм генерации BVH(вспоминаем фикс в батле).

RT-ядра это не тензорные ядра, шо не ясно?

Почитай внимательно что тебе человек написал и не позорся

. Ты мало того что воюешь не туда и признаешь только если припереть к стене фактами, так еще и читаешь 5й точкой.

evrial · Повідомлення 20.02.2019 13:10

Alex Pepper:А так как это ASIC, это позволило сэкономить место и расположить их как можно больше, в отличии от тех же унифицированных ядер CUDA (Because it is an ASIC-specific circuit logic, performance/mm2 can be increased by an order of magnitude compared to the use of shader code for intersection calculation.). Что дало тебе основание из этого текста считать, что RT-ядра это обычные ядра CUDA? Вопрос риторический, можешь не отвечать, и так понятно что основания для этого тебе дал твой объективный и ясный нефанатский ум, переполненный винегретом технических знаний о архитектуре ГП.

будешь дальше продолжать воевать?

как видно на схеме, RT ядра умеют в растеризацию/CUDA, и алгоритм BVH у них реализован в железе, как же так?

спойлер

Izraphail · Повідомлення 20.02.2019 13:14

evrial:будешь дальше продолжать воевать? как видно на схеме, RT ядра умеют в растеризацию/CUDA, и алгоритм BVH у них реализован в железе, как же так?
спойлер

А вот я это проморгал, спасибо. Тогда вопрос о такой дикой нагрузке на SM становится еще более острым

Alex Pepper · Повідомлення 20.02.2019 13:16

Izraphail:А есть пруфы с запуска DXR на 1080Ти? Или только маркетинговые материалы на зеленых? Если у них уже есть дрова для 1080Ти с поддержкой DXR то почему не выкатили?

Верь во что хочешь, что тебе удобнее.

Izraphail:Почитай внимательно что тебе человек написал и не позорся . Ты мало того что воюешь не туда и признаешь только если припереть к стене фактами, так еще и читаешь 5й точкой.

Может лучше ты посмотришь не шоколадным глазом? Где там хоть слово про RT-ядра? Или тензорное ядро это они и есть, по-твоему? Или если ты имеешь ввиду, что аналогично должны быть построены и они, то разве эти строки не говорят о том, что это упрощённая схема выполняющая ограниченные задачи?

Однако тензорные ядра не могут выполнять каких-либо иные вычисления, помимо FMA, и как следствие, крайне упрощены: их компоненты размещаются с высокой плотностью на кристалле GPU и нуждаются в минимуме управляющей логики по сравнению с универсальными CUDA-ядрами. Благодаря узкой специализации одно тензорное ядро за такт процессора выполняет 64 инструкции FMA

evrial · Повідомлення 20.02.2019 13:26

Вообще смысла нет обсуждать, т.к. у всех заявления голословные, а DXR пока не работает на паскале и не известно будет ли вообще.

Izraphail · Повідомлення 20.02.2019 13:28

Alex Pepper:
Izraphail:А есть пруфы с запуска DXR на 1080Ти? Или только маркетинговые материалы на зеленых? Если у них уже есть дрова для 1080Ти с поддержкой DXR то почему не выкатили?
Верь во что хочешь, что тебе удобнее.

У моей, с твоих слов "веры", есть фундамент в виде тестов и косвенных фактов + слова гпу архитектора из нвидии. А все что слышу от тебя это бред про лопату, который уже слит и маркетинолвые тексты зеленых.

Alex Pepper · Повідомлення 20.02.2019 13:29

В общем, пора это заканчивать. Каждый останется при своём мнении, а время рассудит.

Давайте подытожим. Господин Izraphail, вы утверждаете, что RT-ядра играют вспомогательную роль в расчётах лучей и не могут дать 10-ти кратный прирост производительности в сравнении с Паскалями. Такой скачок производительности обусловлен лишь оптимизацией софта под SM-блоки Тьюринга, и приблизительно такой же результат можно получить и на Паскалях с Поларисами/Вегами при должной оптимизации софта. Я правильно понял?

evrial утверждает, что RT-ядро это полноценный SM-блок дополненный конвеером. Верно?

Izraphail · Повідомлення 20.02.2019 13:31

Alex Pepper: Может лучше ты посмотришь не шоколадным глазом? Где там хоть слово про RT-ядра? Или тензорное ядро это они и есть, по-твоему? Или если ты имеешь ввиду, что аналогично должны быть построены и они, то разве эти строки не говорят о том, что это упрощённая схема выполняющая ограниченные задачи?
Однако тензорные ядра не могут выполнять каких-либо иные вычисления, помимо FMA, и как следствие, крайне упрощены: их компоненты размещаются с высокой плотностью на кристалле GPU и нуждаются в минимуме управляющей логики по сравнению с универсальными CUDA-ядрами. Благодаря узкой специализации одно тензорное ядро за такт процессора выполняет 64 инструкции FMA

Открой спойлер, и не позорся

mgerchik · Повідомлення 20.02.2019 14:02

думаю подпишусь за многих, буду наверно отписываться от этой темы, устаешь читать этот срач. минусите

Izraphail · Повідомлення 20.02.2019 14:38

Alex Pepper:В общем, пора это заканчивать. Каждый останется при своём мнении, а время рассудит.

Давайте подытожим. Господин Izraphail, вы утверждаете, что RT-ядра играют вспомогательную роль в расчётах лучей и не могут дать 10-ти кратный прирост производительности в сравнении с Паскалями. Такой скачок производительности обусловлен лишь оптимизацией софта под SM-блоки Тьюринга, и приблизительно такой же результат можно получить и на Паскалях с Поларисами/Вегами при должной оптимизации софта. Я правильно понял?

Да, РТ-это вспомогательный костыль, добавленный по причине того что их текущая реализация SM плохо может в работу с этим типом шейдеров. Да, они могут дать прирост конкретно в генерации "обьема" лучей, но на данный момент, по моему мнению, мы упираемся в нехватку мощности со стороны SM'ов что-бы это обработать (т.е. бутылочным горлышком выступают не РТ ядра, а SM). Именно потому DLSS даёт такой буст, поскольку разрешение то хоть и понижается(перед ИИ апскейлом), но потребность в генерации кол-ва лучей от этого не меняется(судя по SDK, там зависимость не от разрешения сцены, а от кол-ва обьектов которые нужно просчитать), зато снижается нагрузка на SM, от чего и растет фпс.
Я не говорил что такой буст обусловлен только из-за оптимизации софта под Тьюринг и тд. Я заявил лишь что упор по прежнему в SMы. И да, я считаю что схожий результат можно получить на топовых картах текущего поколения при должной оптимизации софта(оптимизации алгоритма генерации BVH и "хаков" для него) и разгона памяти/наличия быстрой памяти.

Alex Pepper · Повідомлення 20.02.2019 15:02

Izraphail
OK. Ждём тогда от АМД драйвера под Веги и Радеон 7 для DXR дающие схожие с RTX показатели производительности. Быстрая память там есть, как и большое количество SM-блоков, осталось дело только за "оптимизацией".

catdoom · Повідомлення 20.02.2019 15:11

Alex Pepper:Izraphail
OK. Ждём тогда от АМД драйвера под Веги и Радеон 7 для DXR дающие схожие с RTX показатели производительности. Быстрая память там есть, как и большое количество SM-блоков, осталось дело только за "оптимизацией".

Не не,достаточно и одного маньяка который калечит игры своими костылями.

Опустил планку для топов к 30фпс,а общий уровень графики остался в 2008-году.

Alex Pepper · Повідомлення 20.02.2019 15:23

catdoom:Не не,достаточно и одного маньяка который калечит игры своими костылями. Опустил планку для топов к 30фпс,а общий уровень графики остался в 2008-году.

Не переживай, такого всё равно не будет

Если бы это было возможно, то АМД это сделали бы, и Radeon VII стал полноценным конкурентом RTX 2080 в DXR, они бы такую возможность не упустили.

А невозможно это в силу отсутствия аппаратного ускорения трассировки лучей:

спойлер: To better understand the function of RT Cores, and what exactly they accelerate, we should first explain how ray tracing is performed on GPUs or CPUs without a dedicated hardware ray tracing engine. Essentially, the process of BVH traversal would need to be performed by shader operations and take thousands of instruction slots per ray cast to test against bounding box intersections in the BVH until finally hitting a triangle and the color at the point of intersection contributes to final pixel color (or if no triangle is hit, background color may be used to shade a pixel).

Ray tracing without hardware acceleration requires thousands of software instruction slots per ray to test successively smaller bounding boxes in the BVH structure until possibly hitting a triangle. It’s a computationally intensive process making it impossible to do on GPUs in real-time without hardware-based ray tracing acceleration (see Figure 17).

Источник https://devblogs.nvidia.com/nvidia-turi ... -in-depth/