Qualcomm представила власні ШІ-прискорювачі AI200 та AI250 для дата-центрів

Royter · Повідомлення 28.10.2025 10:06

Предлагаю обсудить Qualcomm представила власні ШІ-прискорювачі AI200 та AI250 для дата-центрів

Scoffer · Повідомлення 28.10.2025 10:10

В основі платформ AI200 і AI250 лежать NPU-блоки Qualcomm Hexagon

Варто зазначити що, незважаючи на назву, Hexagon це не NPU. Це VLIW-числодробильня широкого профілю. Може обробляти самі різноманітні навантаження. Тобто це конкурент рішенням від хуанга, а не, скажімо, від гугла чи майкрософта.
І під Hexagon який-не який, а готовий софт таки є.

1234waltz · Повідомлення 28.10.2025 10:35

768 ГБ пам’яті в окремій карті розширення

,

LPDDR

Всю оперативку для ноутів пожрали.

erkins007 · Повідомлення 28.10.2025 11:45

Scoffer: ↑ 28.10.2025 10:10І під Hexagon який-не який, а готовий софт таки є.

Вот именно что какой-то софт есть. Для крупных компаний софт не важен, его с ноля напишут они сами под себя, а для мелких "какого-то" уже недостаточно.

Scoffer · Повідомлення 28.10.2025 11:53

erkins007
Під софтом в першу чергу мається на увазі колекція sdk і рантаймів, котрими квалком не дуже сильно поступається нвідії

спойлер

vmsolver · Повідомлення 28.10.2025 12:28

Scoffer: ↑ 28.10.2025 10:10 Варто зазначити що, незважаючи на назву, Hexagon це не NPU. Це VLIW-числодробильня широкого профілю. Може обробляти самі різноманітні навантаження.

Обрабатывать оно конечно сможет, но вот быстро это делать - спроси у Itanium, ему есть что сказать

Scoffer: ↑ 28.10.2025 10:10Тобто це конкурент рішенням від хуанга, а не, скажімо, від гугла чи майкрософта.

У Хуанга решение универсальное, хочешь обучай, хочешь генерируй. А решение от Qualcomm предназначено для генерации, в новости об этом пишут.

Scoffer: ↑ 28.10.2025 10:10І під Hexagon який-не який, а готовий софт таки є.

Но хватит ли этого чтобы кто-то отказывался от CUDA? Это специализированное решение, на фоне дефицита других решений - может кто-то купит.

И главное, сначала надо посмотреть тесты, но нет ни тестов, ни даже спецификаций, что кроме великой тайны может означать, что они ещё сами не определились

Очередной игрок хочет прыгнуть в поезд АИ, это не плохо и не хорошо, так и должно быть.

Scoffer · Повідомлення 28.10.2025 12:37

vmsolver: ↑ 28.10.2025 12:28спроси у Itanium, ему есть что сказать

На момент виходу ітаніум був самою потужною числодробильнею на ринку. Як в FP, так і в INT. І так, йому є шо сказати. Наприклад продуктивність БДшечки на зіоні зрівнялась з ітаніумними десь в районі скайлейку. Тобто з овер 10 років затримкою.
Це в ігрулях у нього була сумнівна продуктивність, а там де треба обчислення йому не було рівних.

Відправлено через 1 годину 1 хвилину 15 секунд:
Проблем у ітаніума загалом було дві:
1. Це не розробка інтела, а розробка хьюлета, через що його в інтелі не любили. Наприклад його ні разу не випустили на передовому техпроцесі, тільки на позавчорашньому. Та і взагалі поручили роботу команді студентів.
2. Спека від хьюлета була готова вже в 94му, а в інтелі мурижили його аж до 2001го і все що додали це ммх і апаратну емуляцію х86, котру викинули в ітаніум2 бо програмна працювала не гірше

Випустили б його в 94-95, він би захопив як мінімум увесь серверний ринок. Але маємо шо маємо.
Прототипи ітаніума "в залізі" це 93й рік якщо що.

vmsolver · Повідомлення 28.10.2025 14:09

Scoffer
Кроме того, чтобы иметь кучу вычислительных блоков, надо ещё уметь ими пользоваться, а если в динамике потока инструкций куча ресурса простаивает, то это всё бесполезно.

Там где надо не было равных? Он загнулся именно потому это не так. Числодробилка с простым управлением, вот суть VLIW, но посмотри на GPU, это такая же числодробилка, только ещё более простая, массив вычислителей делающих одно и тоже над разными данными, что для матриц выглядит предпочтительнее, но и от этого отказались в пользу NPU.
Выводы, куда идёт VLIW можешь сделать сам

А у Хуанга симбиоз GPU+NPU+HBM+connect+полное решение под дата центры. Но нет, сейчас как отмасштабируем VLIW и захватим рынок, ага, щазззз

Qualcomm светят огрызки с этого стола, поздновато заходит (хотя и вложений наверное не особо много, как для первого шага, нормально).

Все компании предлагают то, что у них было ранее с доработками под задачу, вот был у Qualcomm этот Hexagon, вот и сделали на нем, ничего там крутого под задачу быть не может, как нибудь считает, добавим памяти и вперёд, смотрим на реакцию рынка.

Scoffer · Повідомлення 28.10.2025 14:46

vmsolver
Він загнувся тому що всередині інтела не були зацікавлені щоб він не загнувся. Менеджмент вирішив що стороння розробка це добре, швидко і дешево. А інженірінгові команди практично 10 років займались саботажем і в альтернативу народили 4й пень

Оце головна причина, а не якісь там проблеми з продуктивністю. Тим паче ітаніум - далеко не голий vliw, там дуже багато зроблено для динамічного коду. І на практиці БД це теж не голі обчислення, керування там придостатньо, і він з ними чудово впорався.

vmsolver · Повідомлення 28.10.2025 15:44

Scoffer
Хорошо-хорошо, но может быть мир ПО это не только БД?
Если VLIW такой крутой, то почему интеловцы позже не вернулись к этой идее?

Может потому что OoO механизм в современных процах полностью нивелирует все достижения VLIW? Он может выполнять несколько действий одновременно, какие у VLIW остались преимущества? С натяжкой, можно сказать, что ОоО проц это аппаратный полностью динамический VLIW внутри обычного, только он назван иначе, потому что исходные посылки были другие и система команд не предполагает что команда это ряд инструкций для условных портов запуска, так как это всё реализовано динамически.

Вот странно, что у Apple проц не VLIW, такой передовой подход по твоим словам ))

Qualcomm просто слепил из самого примитивного что было, вот и весь секрет.

За время, когда удивлялись на сколько же кривое поделие у них получилось и пытались допилить, х86 сильно ускорился архитектурно, а позже и перелез на 64 бита, поэтому звезда Итаниума и погасла, и никакие БД их не спасли, хотя долго пытались.

Не знаю ничего про инженерный саботаж Итаниума, это не инженеры принимали решения, они делали что им говорили, в том числе и выбор техпроцесса.

Scoffer · Повідомлення 28.10.2025 16:21

vmsolver
ОоО дуже крутий в сферичному вакуумі або якщо чхати на побічні ефекти. От як наприклад mips r10000, котрий не тільки виконував не в порядку, а ще й стан зберігав не в порядку. Зато флопсів маслав так що мало не здасться. Як тільки вакуум закінчується, то виявляється що непогано б хоча б з переривань нормально повертатись, а значить проц став повільніше працювати, потім з'явились спектри з мельдаунами, потім атака по кешам, в котрих ОоО свої спекуляції зберігає. Якщо ОоО прикрутити до стану безпеки ітаніума, то що там швидше в результаті буде ще вилами по воді.
Щодо інтела то вони застрягли в легасі. А що там мутить епл тільки їм відомо, починаючи з того що злізли з паверів, котрі як ISA були створені за їхніми вимогами.

Відправлено через 6 хвилин 24 секунди:
Але це ми відхилились від теми. Як тупа числодробильня навіть примітивній vliw - шикарний. Hexagon позиціонується саме як тупа числодробильня, не більше і не менше. До того ж він поєднує в собі vliw i simd щоб ще більше флопсів на ват маслати. І NPU там, так би мовити, є сопроцесором другого рівня, сопроцесором сопроцесора

Так що зі своїм завданням він впорається.

vmsolver · Повідомлення 28.10.2025 16:42

Scoffer
OoO крут и без сферического вакуума, далее ты какой-то пурги насыпал, абстрактной и неконкретной, "всё не так однозначно" пишется короче

Но, факт именно в том, что кроме простых вычислителей VLIW не используют, все главные процы имеют другую архитектуру, и я выше написал почему, у VLIW нет шансов как универсальной архитектуре.

В чем шикарность VLIW, если для задачи перемножения матриц обычный GPU сильно лучше, он ещё проще, но может делать почти универсальные вычисления? VLIW ничем не лучше, но индустрия пошла ещё дальше и для матриц сделала специализированный вычислитель - NPU, и единственная причина использовать VLIW это если ничего другого из простого у тебя нет.

Хах, tensor-core это и есть порт запуска в processing block в SM, ближе уже не интегрируешь и это было сделано ещё в 2018-м.

Это смотря какое задание

Scoffer · Повідомлення 28.10.2025 20:09

vmsolver
Хочеш замість неконкретної пурги конкретну? Добре. Є така команда cmov. В загальному випадку вона погана. Чим вона погана особисто Лінус написав цілий трактат:
https://yarchive.net/comp/linux/cmov.html
Якщо коротко, то знижує пропускну здатність ОоО проца приблизно вдвічі. Рісква її навіть в розширення не завезла, бо сама по собі тормозна, куди там ще сповільнюватись

І знаєш що? Правильно, арм і інтел нафігачили ЩЕ таких команд (сімейство csel, розширення APX відповідно) тому що компілятори широко юзають їх як частину захисту від ROP-атак. Тим часом на ітаніумах команди цього класу не тільки не зменшують продуктивність, а з точністю до навпаки - збільшують, це один з основних механізмів програмно-керованої спекуляції. Захист від ROP в них не самоціль, а просто безкоштовний бонус.
Туди ж тіньовий стек, на х86 він просто жахливо працює, що аж випилили з опцій за замовчуванням ядра лінукса, просадок наміряли в 40+%. В ітаніумі два стека бай-дизайн і тіньовий йому просто не потрібен.
Вразливості мелдауно-спектрального характеру на ітаніумах не працездатні по-перше через відсутність апаратної спекуляції, а по-друге через наявність можливості всім процесам в ОС видати свій особистий ідентифікатор в кеші, і залізти в чужий там неможливо. Все що сповільнює х86, а також арми, павери і оте все, не сповільнює ітаніуми.
Таких нюансів в реальності купа. Це далеко не вичерпний перелік.
Так от в порівнянні між заторможеним в 2-3-4 рази різноманітними механізмами захисту ОоО і не заторможеним EPIC/itanium, особисто я б пиво на ОоО не поставив. Занадто сильно його вимушені душити останнім часом. І це не не кінець, через спекулятивну природу виконання нові і нові вразливості лізуть і лізуть, немає їм числа. А без спекуляцій ОоО ні про що, лежав в загашнику IBM 30 років і ніхто його не юзав.
Зрозуміло?

1234waltz · Повідомлення 28.10.2025 22:41

Цікава тема, навіть попросив АІшку накомпілювати дані по актуальним Power. Виходить, що не всі твердження актуальні до сучасного Power, і він має доволі цікаві фічі. Такі, що частина тверджень не налазять на сучасні Power, у arm та x86_64 все звісно сумніше.

Твердження: На x86 тіньовий стек працює жахливо (просадка 40%+). Itanium не потрібен тіньовий стек через його бай-дизайн (два стеки).

Реальність для IBM Power: Power архітектури використовують різні підходи. Наприклад, POWER10 використовує апаратну підтримку для Memory Keying та інших механізмів, які забезпечують надійний захист пам'яті. Тіньовий стек може бути реалізований для додаткового захисту, але його ефективність на Power, як і на x86 з апаратною підтримкою (наприклад, Intel CET), є значно кращою, ніж наведені застарілі показники. Головне, що Power не страждає від тих самих архітектурних обмежень, що й ранні, неоптимізовані реалізації на x86.

Ключі Захисту Пам'яті (Protection Keys - PKEYs)
Це механізм, який дозволяє операційній системі (ОС) або гіпервізору ефективно управляти правами доступу до окремих регіонів пам'яті для різних програм. Це розширення вже було інтегровано в архітектуру Power (починаючи з POWER7/8) і повноцінно підтримується в Power10.

Принцип роботи: Кожній сторінці пам'яті (або її групі) може бути присвоєний короткий 4-бітовий ключ захисту. Процесор у свою чергу має регістр, що містить поточний ключ доступу та набір дозволів (читання/запис) для цього ключа.

Ізоляція застосунків: Цей механізм дозволяє процесу динамічно змінювати свої права доступу до різних областей пам'яті без звернення до ядра ОС (без системного виклику). Наприклад, процес може тимчасово заблокувати собі доступ до критично важливої структури даних (наприклад, тіньового стеку), щоб захистити її від власних помилок або ROP-атак, які використовують зміщення в керованому коді.

Ефективність: Оскільки перевірка ключа відбувається апаратно на рівні MMU (Memory Management Unit), вона є надзвичайно швидкою і забезпечує мінімальний вплив на продуктивність.

Комплексна ізоляція: Power10 забезпечує наскрізне шифрування всієї DRAM (оперативної пам'яті), прикріпленої до процесора. Кожен процесор має власний унікальний ключ, і всі дані, що залишають чип для зберігання в модулях пам'яті (DDIMMs), автоматично шифруються.

Прозорість: Шифрування та дешифрування відбувається прозоро і автоматично на рівні чипа, не вимагаючи втручання операційної системи, гіпервізора чи застосунків. Саме тому це називається прозорим шифруванням.

Нульовий вплив на продуктивність: Завдяки інтеграції апаратних криптографічних прискорювачів (AES engines) безпосередньо в чип Power10, шифрування виконується без відчутного впливу на продуктивність системи, що є критичною перевагою над багатьма програмними або частково апаратними рішеннями.

Scoffer · Повідомлення 28.10.2025 23:19

1234waltz
А можна не копіювати бредні аішечки і звернутись до документації. Павер не вміє в ключі захисту за межами ізоляції віртуальних машин. Судячи з тексту бредні, вона згенерована на основі документації інтеля, котрий в свою чергу вміє з якоїсь там свіжої архітектури, що однак не надто сильно йому допомагає бо ключ сильно короткий. 16 доменів захисту це ні про що. Для порівняння ітаніум вимагав як мінімум 18 біт, або 262144 домени захисту, з лімітацією зверху в 64 біти, або 18446744073709551616 доменів захисту.

Відправлено через 5 хвилин 40 секунд:
Це, до речі, не стосується механізму ОоО, зато стосується TLB, і є однієї з причин чому ітаніум ЖРАВ. Бо, на жаль, захист не безкоштовний. Ну і воно не вирішує всі питання, цей механізм взагалі для зовсім іншого вигаданий, а саме для шарення спільних адресних просторів, що дозволяє на тому ж ітаніумі запустити single address space operating system, а на х86 - не дуже.

1234waltz · Повідомлення 28.10.2025 23:44

Scoffer: ↑ 28.10.2025 23:25 Судячи з тексту бредні, вона згенерована на основі документації інтеля, котрий в свою чергу вміє з якоїсь там свіжої архітектури, що однак не надто сильно йому допомагає бо ключ сильно короткий.

Ну шож, значить поки зарано просити компілювати інфу по таким темам ШІ. Втім, гортаючи по діагоналі redbooks idm знайшов таке:

Transparent memory encryption is designed to simplify encryption and support end-to-end
security without affecting performance by using hardware features for a seamless user
experience.

Цікаво, якщо згодувати ШІ 180 сторінковий документ, він зможе без галюнів та підтасовки витягнути цікавлячі моменти, чи знов затягне в інформацію шматками з інших тем.

Scoffer · Повідомлення 29.10.2025 09:36

1234waltz: ↑ 28.10.2025 23:44Transparent memory encryption

Це якась фігня якщо чесно. Захист від кулхацкерів, котрі залізуть в датацентр, припаяються до оперативи і дивитимуться що там по шині даних передається)))
Підозрюю що треба для отої дивної військової сертифікації, котра визнає віртуалки аналогом фізичних серверів, і котру тільки ІВМ поки що пройшли. Особисто я вважаю що якщо треба максимально надійна ізоляція між віртуалками, то переплатити за фіз сервер проблемою не є, не на стільки там і переплата.
Тим паче військовим.

yurius_r · Повідомлення 29.10.2025 10:42

Прес-реліз на стільки куций, та ще й використання LPDDR. Тож виглядає що Qualcomm тицяє туди багато Snapdragon просто. Бо жодного слова про нові чіпи, лише про стійку в цілому. Цікаво було б глянути десь деталі

vmsolver · Повідомлення 29.10.2025 13:18

Scoffer: ↑ 28.10.2025 20:09 Хочеш замість неконкретної пурги конкретну? Добре. Є така команда cmov. В загальному випадку вона погана. Чим вона погана особисто Лінус написав цілий трактат:
https://yarchive.net/comp/linux/cmov.html
Якщо коротко, то знижує пропускну здатність ОоО проца приблизно вдвічі.

Вместо не конкретной пурги, ты выложил конкретную пургу 2007 года?

Ну и что с этого? Всем переходить на VLIW из-за того, что там условный move получается лучше? Зато у ОоО много чего другого получается лучше, посмотри вокруг, VLIW ты увидишь только в ускорителях, в других применениях она не состоятельна, в универсальных вычислителях видим или in-order, или out-of-order.

Scoffer: ↑ 28.10.2025 20:09Рісква її навіть в розширення не завезла, бо сама по собі тормозна, куди там ще сповільнюватись

Я уже заволновался, долго не было проклятий в направлении RISC-V, но теперь всё ок

Scoffer: ↑ 28.10.2025 20:09І знаєш що? Правильно, арм і інтел нафігачили ЩЕ таких команд (сімейство csel, розширення APX відповідно) тому що компілятори широко юзають їх як частину захисту від ROP-атак.

Потому что такие инструкции не проблема, а возможности и весьма полезны в криптографии, например. А если есть польза, то почему не внедрить? Проблема cmove только в чтении обоих операндов, поэтому компиляторы её используют когда условие действительно случайное, в остальном используется проверка и условных переход.

Scoffer: ↑ 28.10.2025 20:09Тим часом на ітаніумах команди цього класу не тільки не зменшують продуктивність, а з точністю до навпаки - збільшують, це один з основних механізмів програмно-керованої спекуляції. Захист від ROP в них не самоціль, а просто безкоштовний бонус.

Конечно же, у Итаниума не было этой проблемы, но вагон и маленькая тележка других, из-за которых от него отказались

Scoffer: ↑ 28.10.2025 20:09Туди ж тіньовий стек, на х86 він просто жахливо працює, що аж випилили з опцій за замовчуванням ядра лінукса, просадок наміряли в 40+%. В ітаніумі два стека бай-дизайн і тіньовий йому просто не потрібен.
Вразливості мелдауно-спектрального характеру на ітаніумах не працездатні по-перше через відсутність апаратної спекуляції, а по-друге через наявність можливості всім процесам в ОС видати свій особистий ідентифікатор в кеші, і залізти в чужий там неможливо. Все що сповільнює х86, а також арми, павери і оте все, не сповільнює ітаніуми.

Не сгущай краски, у Итаниума куча других проблем.К тому же твои оценки 2-4 раза, 40% мало относятся к современной реальности, уже никого не интересует что было в 200х-м.

Scoffer: ↑ 28.10.2025 20:09Таких нюансів в реальності купа. Це далеко не вичерпний перелік.
Так от в порівнянні між заторможеним в 2-3-4 рази різноманітними механізмами захисту ОоО і не заторможеним EPIC/itanium, особисто я б пиво на ОоО не поставив. Занадто сильно його вимушені душити останнім часом. І це не не кінець, через спекулятивну природу виконання нові і нові вразливості лізуть і лізуть, немає їм числа. А без спекуляцій ОоО ні про що, лежав в загашнику IBM 30 років і ніхто його не юзав.
Зрозуміло?

Прекращай уже сочинять про 2-3-4 разы. Ты говоришь про одну удачную мелочь у VLIW, забывая что в остальном он никакой как универсальный вычислитель и заторможенность VLIW тобой выдумана, то что их не делали на самых последних техпроцессах это как раз оценка их перспективы.

Кстати, никто не сделал универсальный проц на VLIW до сих пор. Что является самым главным аргументом - никто в мире из специалистов не увидел в нём перспективы для использования в универсальных процессорах.

В общем, получилась у тебя рафинированная однобокая пурга из 2007-го, вместо абстрактной и неконкретной 2025-го

Если бы кто-то придумал что-то лучше чем ОоО, то это бы давно реализовали, напоминалочка тебе из 2025-го

1234waltz · Повідомлення 29.10.2025 13:38

vmsolver: ↑ 29.10.2025 13:18 Кстати, никто не сделал универсальный проц на VLIW до сих пор. Что является самым главным аргументом - никто в мире из специалистов не увидел в нём перспективы для использования в универсальных процессорах.

Ельбрус МЦСТ-Бабаяна жеж, в режимі емуляції x86 щось на рівні кори дуба 6000 видає продуктивність, якщо вірити шизам з хабра. Але я давно цікавився, ще роки 4 тому, може зараз щось змінилось.