Предлагаю обсудить AMD випустила молодші процесори Ryzen AI 300 для ноутбуків масового сегмента
Тільки одне питання. Куди діти npu 16 tops?
Останні статті і огляди
Новини
AMD випустила молодші процесори Ryzen AI 300 для ноутбуків масового сегмента
-
max1996
Junior
-
Alekss
Member
Не обращайте на показатели Npu Ai tops (триллионы операций в секунду) внимания. Даже на 2025 год понятия Ai NPU tops ничего не означает, вернее сказать означает приблизительные показатели по типу 50 tops этого достаточно, а 16 tops средне или мало. Нет ни бенчмарка, который его считает, ни утвержденного стандарта в каком эти NPU Tops рассчитываются. Все производители Cpu и Gpu (AMD, Nvidia) публикуют показатели в цифрах NPU Tops исключительно из своих собственных видений этой производительности. Microsoft например сама не знает, почему для Copilot нужно более 40 Tops - надо и все это некая неофициальная рекомендация.
Дело в том, что вычисления Ai tops использую разные алгоритмы вычислений точности. Например - int8, 16. Fp16, 32. Один стандарт int8, 16 (Целочисленные операции (например, сложения и умножения). Или операции с плавающей точкой Tflops (например, FP32 или FP16) — сложения и умножения.
Якобы Ai NPU tops считаются по int8, а int16 покажет в два раза меньшую производительность. И прикол в том, чтобы рассчитать производительность задачи int8, 16 (Целочисленные операции (например, сложения и умножения) не обязательно использовать исключительно NPU - c этим вполне справится любой GPU уровня RX 6600, RTX 3050, или они будут работать совместно (например со встроенным GPU) типа Ryzen Ai 300. Поэтому, пока не утвердят бенчмарк, который будут использовать для расчета Npu tops - эти показатели мало что означают.
Приведу несколько примеров: NVIDIA определяет AI TOPs как количество битов данных, обработанных в одном такте, умноженное на частоту ядра. Это дает оценку производительности для задач машинного обучения с использованием INT8 и FP16 операций. Тоже самое, что TFLOPS.
По утверждению Nvidia производительность RTX 2060 c (240 Tensor Cores 1 поколения для расчета матричных вычислений int8, 16) составляет 52 AI TOPS, что невероятно мало. А производительность Rtx 3050 у которой (80 Tensor Cores 2 поколения (в 3 раза меньше) уже 73 AI TOPS. Производительность RTX 4060 (96 Tensor Cores - 3 поколения) 242 AI TOPS +350% от RTX 2060.
Не настолько 2 и 3 поколения Tensor Cores стало производительней, чтобы показывать такую заметную разницу. Тут явно факт манипуляций с показателями - типа считаем как нам хочется, все равно никто не может оспорить наши расчеты, так как нет утвержденного бенчмарка. И непонятно как мы получили их, то ли Tensor Cores исключительно считал эти AI TOPS, то ли весь GPU использовался для расчетов.
Проще и намного реальней смотреть производительность Ai tops в бенчмарке от Geekbench 6 (OpenCl):
Ampere (RTX 3000) имеет 32 FP32 ядра (или 16 FP32 + 16 INT32) и поддерживает до 32 рабочих единиц на SM (Streaming Multiprocessor).
Turing (RTX 2000) имеет 16 FP32 + 16 INT32 или 32 FP16 ядер, то есть также 32 рабочие единицы на SM (Streaming Multiprocessor).
RTX 2060 c (240 Tensor Cores 1 поколения для расчета матричных вычислений int8, 16) составляет 52 AI TOPS. Geekbench 6 (OpenCl) 76327.
https://browser.geekbench.com/gpus/nvid ... e-rtx-2060
RTX 3050 с (80 Tensor Cores 2 поколения (в 3 раза меньше) уже 73 AI TOPS, Geekbench 6 (OpenCl) 64202, а результат меньше, на -19%.
https://browser.geekbench.com/gpus/nvid ... e-rtx-3050
RTX 4060 c (96 Tensor Cores - 3 поколения) 242 AI TOPS, Geekbench 6 (OpenCl) 106633. +59% от RTX 2060, что соответствует реальности.
https://browser.geekbench.com/v6/compute/3458074
Но давайте развеем магию Tensor Cores, которые дают хорошие показатели исключительно под Cuda заточенных и используемых приложениях.
например:
RDNA2 (RX 6000) имеет 16 FP32 ядер + 16 скалярных, что составляет 32 рабочие единицы на CU (computer unit). Доступные типы инструкций FP32, INT32, FP16, смешанная точность (INT4-FP16-FP32), FP64.
Radeon RX 6600 XT - 84088 GeekBench 6 OpenCL. Это всего на -27% от показателей RTX 4060. Напомню, что RDNA 2 поколения могут спокойно рассчитывать матричные вычисления int8, 16 (хотя не имеет специализированных Alu (tesor cores (Ai tops). RDNA 2 GPU может хорошо считать или FP16 или Int8, 16 инструкции), что подтверждается бенчмарком OpenCl.
https://browser.geekbench.com/v6/compute/3458346
Теперь посмотрим на Rdna 3 поколения типа RX 7600, которые имеют специализированные Alu для сложения матриц (Ai tops) - 82731 Geekbench 6 (OpenCl). Всего на 2% быстрее RX 6600 XT.
Итог:
Я уверен с 90% вероятностью, что расчеты OpenCl Geekbench 6 и показатели Ai tops корректны.
Дело в том, что вычисления Ai tops использую разные алгоритмы вычислений точности. Например - int8, 16. Fp16, 32. Один стандарт int8, 16 (Целочисленные операции (например, сложения и умножения). Или операции с плавающей точкой Tflops (например, FP32 или FP16) — сложения и умножения.
Якобы Ai NPU tops считаются по int8, а int16 покажет в два раза меньшую производительность. И прикол в том, чтобы рассчитать производительность задачи int8, 16 (Целочисленные операции (например, сложения и умножения) не обязательно использовать исключительно NPU - c этим вполне справится любой GPU уровня RX 6600, RTX 3050, или они будут работать совместно (например со встроенным GPU) типа Ryzen Ai 300. Поэтому, пока не утвердят бенчмарк, который будут использовать для расчета Npu tops - эти показатели мало что означают.
Приведу несколько примеров: NVIDIA определяет AI TOPs как количество битов данных, обработанных в одном такте, умноженное на частоту ядра. Это дает оценку производительности для задач машинного обучения с использованием INT8 и FP16 операций. Тоже самое, что TFLOPS.
По утверждению Nvidia производительность RTX 2060 c (240 Tensor Cores 1 поколения для расчета матричных вычислений int8, 16) составляет 52 AI TOPS, что невероятно мало. А производительность Rtx 3050 у которой (80 Tensor Cores 2 поколения (в 3 раза меньше) уже 73 AI TOPS. Производительность RTX 4060 (96 Tensor Cores - 3 поколения) 242 AI TOPS +350% от RTX 2060.
Не настолько 2 и 3 поколения Tensor Cores стало производительней, чтобы показывать такую заметную разницу. Тут явно факт манипуляций с показателями - типа считаем как нам хочется, все равно никто не может оспорить наши расчеты, так как нет утвержденного бенчмарка. И непонятно как мы получили их, то ли Tensor Cores исключительно считал эти AI TOPS, то ли весь GPU использовался для расчетов.
Проще и намного реальней смотреть производительность Ai tops в бенчмарке от Geekbench 6 (OpenCl):
Ampere (RTX 3000) имеет 32 FP32 ядра (или 16 FP32 + 16 INT32) и поддерживает до 32 рабочих единиц на SM (Streaming Multiprocessor).
Turing (RTX 2000) имеет 16 FP32 + 16 INT32 или 32 FP16 ядер, то есть также 32 рабочие единицы на SM (Streaming Multiprocessor).
RTX 2060 c (240 Tensor Cores 1 поколения для расчета матричных вычислений int8, 16) составляет 52 AI TOPS. Geekbench 6 (OpenCl) 76327.
https://browser.geekbench.com/gpus/nvid ... e-rtx-2060
RTX 3050 с (80 Tensor Cores 2 поколения (в 3 раза меньше) уже 73 AI TOPS, Geekbench 6 (OpenCl) 64202, а результат меньше, на -19%.
https://browser.geekbench.com/gpus/nvid ... e-rtx-3050
RTX 4060 c (96 Tensor Cores - 3 поколения) 242 AI TOPS, Geekbench 6 (OpenCl) 106633. +59% от RTX 2060, что соответствует реальности.
https://browser.geekbench.com/v6/compute/3458074
Но давайте развеем магию Tensor Cores, которые дают хорошие показатели исключительно под Cuda заточенных и используемых приложениях.
например:
RDNA2 (RX 6000) имеет 16 FP32 ядер + 16 скалярных, что составляет 32 рабочие единицы на CU (computer unit). Доступные типы инструкций FP32, INT32, FP16, смешанная точность (INT4-FP16-FP32), FP64.
Radeon RX 6600 XT - 84088 GeekBench 6 OpenCL. Это всего на -27% от показателей RTX 4060. Напомню, что RDNA 2 поколения могут спокойно рассчитывать матричные вычисления int8, 16 (хотя не имеет специализированных Alu (tesor cores (Ai tops). RDNA 2 GPU может хорошо считать или FP16 или Int8, 16 инструкции), что подтверждается бенчмарком OpenCl.
https://browser.geekbench.com/v6/compute/3458346
Теперь посмотрим на Rdna 3 поколения типа RX 7600, которые имеют специализированные Alu для сложения матриц (Ai tops) - 82731 Geekbench 6 (OpenCl). Всего на 2% быстрее RX 6600 XT.
Итог:
Я уверен с 90% вероятностью, что расчеты OpenCl Geekbench 6 и показатели Ai tops корректны.