Ответом на вопрос будет: AMD исполняет 2 (256 × FP16) (паралельно) инструкции за такт, а Nvidia 1 (128 × FP16).
Данная специфика учитывает работу исключительно инструкциями с плавающей запятой (fp16, FP64).
RTX 5080 (GB203) 1 Raster engine содержит:
6 блоков, по 128 (64*2) cuda ядер (Shading Units), всего 768 (6*128) в блоке. В GPU 14 блоков или 768*14=10752 cuda ядер (Shading Units).
FP16 (half) 56.28 TFLOPS (1:1)
FP32 (float) 56.28 TFLOPS
FP64 (double) 879.3 GFLOPS (1:64)
Примерный по производительности RX 7900 XTX (Navi 31) содержит:
Compute Units 96, Shading Units 6144 работая либо как 1x SIMD64, либо как 2x SIMD32 блока.
FP16 (half) 122.8 TFLOPS (2:1)
FP32 (float) 61.39 TFLOPS
FP64 (double) 1.918 TFLOPS (1:32)
GCD включает шесть шейдерных движков, каждый с 16 вычислительными блоками (или 8 c двойными вычислительными блоками), что составляет 1024 потоковых процессора. Шесть таких шейдерных движков составляют 6144 потоковых процессора. Каждый блок исполняет за так 2 инструкции х32, или 1х64. Блок SIMD32 внутри каждой из двух секций CU дублирован.
Гораздо интересней будет вопрос - почему Xe-core (Intel Xe2 Arc B580) Shading Units 2560, теоретически равен по производительности RTX 4060 Ti (Shading Units 4352) в матричных вычислениях, а также превосходит его в 5 раз (FP64 (double) при меньшей стоимости?
Архитектура intel, интересней RTX 5000 Blackwell? Обратите внимание на инструкции FP64 (double) 1.709 TFLOPS (равен RX 7900 XTX) против 344.8 GFLOPS (RTX 4060 Ti).
Xe-core (Intel Xe2 Arc B580) (Shading Units 2560)
FP16 (half) 27.34 TFLOPS (2:1)
FP32 (float) 13.67 TFLOPS
FP64 (double) 1.709 TFLOPS (1:8)
RTX 4060 Ti (Shading Units 4352)
FP16 (half) 22.06 TFLOPS (1:1)
FP32 (float) 22.06 TFLOPS
FP64 (double) 344.8 GFLOPS (1:64)
RX 7600 (Shading Units 2048)
FP16 (half) 43.50 TFLOPS (2:1)
FP32 (float) 21.75 TFLOPS
FP64 (double) 679.7 GFLOPS (1:32)