Google випускає процесори Axion і нове покоління TPU Ironwood для ШІ

-orion- · Повідомлення 09.11.2025 16:24

yuriy_dd: ↑ 09.11.2025 14:25
-orion-: ↑ 07.11.2025 18:15 а чому не М5?
від Гугл - на АРМ, М5 - на АРМ - чому гугл має використовувати продукт іншої компанії коли їм краще зробити свій під свої потреби?
ви би хоч трішки логіку включали
АРМ - дає можливості кожному клієнту зробити що він хоче
х86 - дає лише готове лайно, бери і жри

AssayMAS: ↑ 09.11.2025 13:21ты понимаешь что нельзя родить НОВУЮ коммерчески успешную архитектуру процессора потому что уже 80+% ПО написано под "х86" на этой планете
де ви таку маячню берете? софт написаний на умовному С - який просто перекомпільовується і тестується - що Гугл саме зараз і робить
гроші в компілятори вкладаються дуже великі всіма - почитайте про LLVM і думайте тріши перед тим як писати

АРМ не тупик, и х86 тоже. АРМ это узкозаточенная архитектура, под которую приходится переделывать софт и ОС. Единственное преимущество, это условно легкий старт в разработке для любого желющего. Именно по этому много кто будет клепать свои ЦП, и это же его проклятие, потому что железки не совместимы, хотя в некоторых случаях это логично. На пример когда делают под себя (эпл, нвидия для ИИ, гугл). То есть у продукта своя узкая ниша, дальше кторой он не выходит, но по скольку справляется отлично с этой задачей, всех устраивает.
х86 же универсальный комбайн, можно строить инфраструктуру хоть с Интел хоть с АМД, можно и в перемешку. Выполнять может все что угодно, но с разной эффективностью.
Хватит уже бред свой фанатичный нести, уже даже не смешно а грустно такое читать.

AssayMAS · Повідомлення 10.11.2025 00:56

yuriy_dd: ↑ 09.11.2025 15:09ваша маячня про софт лежить в exe

ну я не знаю, пусть диагноз вам ставят специалисты - сколько под виндой людей сидит? Сколько под линуксами?
Вот и ответ что для 80+% людей софт в виде исполняемого Вин файла находится и 80+% софта приписано фиг знает когда и фиг знает на чём и где код не знаю.
Вон знакомый давеча под вин пытался куду на питоне 2 годичной давности скомпилировать (небось сам еще писал - о чем не признается стыдится за код) - так месяц (100+часов) зависисмости перебирал (версия Нвидиевских дров, компилятора, сопутствующих библиотек, ...).
Так что от наличия кода до исполняемого вин файла может пройти значительная при значительная часть времени и путь будет тернист. А докеры мало помогут ибо люди делятся на тех кто ими пользуется и кто будет пользоваться... . На освоение докеров пусть и самопал в виде zip тоже надо время - а "в коммерческих" там постоянно что то новое не очевидное "изобретают" и надо 10+ часов в месяц на чтение и освоение новых фич.

Scoffer: ↑ 09.11.2025 15:05віртуалізація, наприклад, абсолютно несумісна ні в кого ні з ким

ну я лично видел ПО для виртуализации и там прям список поддерживаемых Интеловских процов, на АМД запускается но медленно. Как и видел фирменный ПК где прям в биосе писали поддерживаем вот эти три штуки ПО для шифрования М2 сдд...
Так что много ПО сча и без NPU на видеокарте или проце считается... а некоторые ваще на серверах и по подписке.
Но это не значит что так будет всегда - вендора то все хотят что бы ТОЛЬКО на их железе считали, но это миф так никогда не будет уроки лицензирования х86 многому научили всех.

Scoffer · Повідомлення 10.11.2025 01:28

AssayMAS
Мало хто що там хоче. На прикладі віртуалізації у КОЖНОГО процесоробудівника своє УНІКАЛЬНЕ і ні з ким не сумісне рішення. Системи віртуалізації вимушені підтримувати кожне з них.
На прикладі NPU рішення лише частково перетинаються. Старий-добрий FP32 у всіх однаковий, а от FP16 вже ні. Є IEEE FP16, є bfloat16, і є DLFloat16. Це з мені відомих, а там біс його знає що ще є. Так от софт написаний під один з них не буде коректно працювати з іншим. А залізяк що підтримують всі три, здається, десь між нулем і одною штукою.
З FP8/6/4 все ще гірше бо вони не використовуються самі по собі. З них складають блоки дуже різної розмірності, і 2д, і 3д, котрі множаться буває на інт, буває на експоненту, буває на експоненту з мантисою, і все апаратно цілим блоком, саме собою. Так от софт, писаний під одне з таких рішень, не буде не те що коректно, він просто не буде працювати на іншому. Сумісність приблизно нульова.
Зрозуміло?

AssayMAS · Повідомлення 10.11.2025 10:48

Scoffer: ↑ 10.11.2025 01:28Сумісність приблизно нульова.
Зрозуміло?

ТАБЛИЧКИ какая микросхема(и\или чип GPU) от какого изготовителя что поддерживает уже несколько лет гуляют по сети... 100% предсказуемость.
и как бы самое старое FP32/16 и его тянет 99% железа...
а всякое разное типо истинной аппаратной поддержки FP8/6/4 позволяет не сильно теряя в "качестве" экономить память, но это для тех кто не может себе позволить Терабайты "видеопамяти". И сидят на <10 штук ускорителей.
И внезапно на железе умеющем аппаратно только в FP32/16 все что "ниже" типо FP8/6/4 запускается и работает да в 10+ раз медленнее чем на новых ускорителях но запускается.
И это я не считаю за "Сумісність приблизно нульова.". Ноль это у китайских ускорителей - софт на китайском и спеки тайна доступная только компартии ибо даже замаскировать спёртое не удосужились... .

waryag · Повідомлення 10.11.2025 16:05

AssayMAS: ↑ 09.11.2025 13:21ты понимаешь что нельзя родить НОВУЮ коммерчески успешную архитектуру процессора потому что уже 80+% ПО написано под "х86" на этой планете и только недавно что то под андроид уникального запилили. Так и с ускорителями вычислений - экосистема решает об экономической успешности. До андроид сколько было попыток в смартфон ЛИЧНО превозмочь всё и ПО и железо... не выстрелило и там большие деньги задействованы были.
Так и у Гугла железка есть? Есть. Работает: ДА!... а экономическую целесообразность(=прибыль от внедрения) никто не обещал в этом столетии.

Можно. Достаточно не пытаться обьять необьятное, а сфокусироваться на ключевых задачах.

Понятно, что ИИ/ЛЛМ в целом сейчас глубоко убыточны, но грамотная связка из собственного и покупного железа для гигантов выгоднее чисто покупного, и уж тем более - чисто покупного у монополиста.

AssayMAS: ↑ 10.11.2025 10:48а всякое разное типо истинной аппаратной поддержки FP8/6/4 позволяет не сильно теряя в "качестве" экономить память, но это для тех кто не может себе позволить Терабайты "видеопамяти". И сидят на <10 штук ускорителей.

Это для всех, просто гиганты за счет экономии в некритичных местах могут добавить параметров или дополнительных опций.

AssayMAS · Повідомлення 11.11.2025 02:56

waryag: ↑ 10.11.2025 16:05Можно. Достаточно не пытаться обьять необьятное, а сфокусироваться на ключевых задачах.

примеры? или 0,00000000000000001% рынка успех успешный? или только себе "успешный успех" и с никем не делится типо М2.. М4 у яблока...

waryag: ↑ 10.11.2025 16:05Это для всех, просто гиганты за счет экономии в некритичных местах могут добавить параметров или дополнительных опций.

в зависимости от алгоритмов нейронки смена с FP32\16 на FP4\6\8 позволяет уменьшить потребление памяти в 5-10 раз и не сильно потерять в "качестве". То есть запуск "на поиграться" какой то моделью нейросетей потребует не 4-10 штук 3090 с 2-4КВт потребления, а одну 5060ти 16ГБ 300Ватт.
Вот для чего FP8/6/4 пользуют... ибо у всех состоятельных господ сервера с терабайтами врама...
И сильно заметно продукт моделей нейронок на FP32\16 и на FP4\6\8... не вооруженным глазом в виде на генерированных картинок.

waryag · Повідомлення 11.11.2025 23:55

AssayMAS: ↑ 11.11.2025 02:56 примеры? или 0,00000000000000001% рынка успех успешный? или только себе "успешный успех" и с никем не делится типо М2.. М4 у яблока...

При чем тут вообще рынок? Достаточно эффективно выполнять задачу.
А если напряжете межушный ганглий, сможете найти более одного примера успешного выпуска устройств с многомиллионными продажами не на х86 и даже не АРМ.

AssayMAS: ↑ 11.11.2025 02:56в зависимости от алгоритмов нейронки смена с FP32\16 на FP4\6\8 позволяет уменьшить потребление памяти в 5-10 раз и не сильно потерять в "качестве". То есть запуск "на поиграться" какой то моделью нейросетей потребует не 4-10 штук 3090 с 2-4КВт потребления, а одну 5060ти 16ГБ 300Ватт.
Вот для чего FP8/6/4 пользуют... ибо у всех состоятельных господ сервера с терабайтами врама...
И сильно заметно продукт моделей нейронок на FP32\16 и на FP4\6\8... не вооруженным глазом в виде на генерированных картинок.

А что мешает большим компаниям точно так же сэкономить ресурсы и направить их куда-то еще?

AssayMAS · Повідомлення 12.11.2025 00:46

waryag: ↑ 11.11.2025 23:55При чем тут вообще рынок?

ааа все делают много миллионные вложения в разработку процов чисто ради фана или выполнить на них одну ну может две интересные задачи... ведь уже на существующих процессорах, задачу посчитать, религия не велит.
Вот я то думал что процессоры делают богатые дяди что бы денег заработать и стать богаче - а оно вон как... "рынок не причём".
Вот я читал книжечку 1989 года разлива "Зарубежные Интегральные Микросхемы для промышленной электронной аппаратуры справочник" там в разделе SoC 300+ микропроцессоров и каждый с своей самобытной архитектурой и особенностями и вот спустя 30 лет от выхода книги из предоставленных решений в живых менее 10... . Так рыночек порешал...

waryag: ↑ 11.11.2025 23:55многомиллионными продажами не на х86 и даже не АРМ

давай ты прибыль покажешь от этих решений? Не пару баксов как на тетрисах - а хотя бы как на "селеронах" что кристалл несколько баксов, а продают за несколько десятков баксов... а всё экосистема.

waryag: ↑ 11.11.2025 23:55А что мешает большим компаниям точно так же сэкономить ресурсы и направить их куда-то еще?

Мозги. На администрирование уйдёт больше средств чем выгода от экономии.
Это на маленьких при маленьких языковых моделях на 10-16ГБ врама FP4\6\8 дают много преимуществ по сравнению с FP32\16. А вот когда вычислителей сотни и память терабайтами измеряют - то выгод от FP4\6\8 меньше, а вреда больше.
Поддержку FP4\6\8 добавили к видеокартам что бы и просты смертные могли в "ИИ"\нейросети причастится с одной видюхой среднего уровня с 8-16ГБ врама.
Но продукт на генерированный одной видюхой никогда не станет конкуренту кластеру серверов... по этому и раздают ИИ всем нахаляву, что бы порог вхождения на рынок конкурентам задрать. И то рынок ИИ перегрет в 10-20раз.

waryag · Повідомлення 12.11.2025 09:00

AssayMAS: ↑ 12.11.2025 00:46давай ты прибыль покажешь от этих решений? Не пару баксов как на тетрисах - а хотя бы как на "селеронах" что кристалл несколько баксов, а продают за несколько десятков баксов... а всё экосистема.

Подумай получше. (Но уже теплее!)

AssayMAS: ↑ 12.11.2025 00:46Но продукт на генерированный одной видюхой никогда не станет конкуренту кластеру серверов... по этому и раздают ИИ всем нахаляву, что бы порог вхождения на рынок конкурентам задрать.

Не станет. Но кластер серверов за счет оптимизаций может потянуть более сложную задачу.

И то рынок ИИ перегрет в 10-20раз.

Если/пока не случится настоящий ИИ. Хотя бы слабый.

AssayMAS · Повідомлення 12.11.2025 10:26

waryag: ↑ 12.11.2025 09:00Подумай получше. (Но уже теплее!)

это не ответ
так ответить можно на абсолютно любой вопрос

waryag: ↑ 12.11.2025 09:00Не станет. Но кластер серверов за счет оптимизаций может потянуть более сложную задачу.

то есть как я и писал что FP4\6\8 для обычных пользователей, а fp32\16 стандарт для любых ускорителей и под ИИ в частности. Другое дело что на современном железе fp32\16 на тех же ГГц считается быстрее в разы чем на древних ускорителях. От чего гора таких древних ускорителей лежит по цене еды на вторичке - ибо на 1 Ватт современный ускорители дадут в разы больше попугая.

waryag: ↑ 12.11.2025 09:00Если/пока не случится настоящий ИИ.

Вангую настоящий ИИ случится годиков через 150-250 если не откат техноуровня в средневековье после вымирания.
80% мозга человека обслуживает тело и лишь 20% остаётся на "Интеллект", а 1 биологический нейрон это примерно как пень третий с 100+МБ памяти (только если в школе учились и понимаете что нейрон нейрону передаёт хим. соединение коих под 10 000 видов, а липестричество просто симофор мол есть передача), вот и считаем через сколько вычислительных мощностей на планете хватит для моделирования куска (20%) мозга человека... у всех сильно по разному выходит.

vmsolver · Повідомлення 12.11.2025 10:53

FP4, FP8 помимо того, что занимают меньше места, они меньше нагружают полосу памяти, то есть можно за то же время прочитать веса модели условно не один раз, а два, то есть сгенерировать два токена вместо одного, при этом потратить меньше энергии, так как такие форматы проще и темп их исполнения выше.

То есть, это способ увеличения производительности и энергоэффективности одновременно. Бонусом, можно обучать модели большего размера или оставить место под контекст. В общем, куча плюсов. Начиная с Амперов в игровой линейке, tensor-cores изменялись только поддержкой более мелких форматов, тупой хардварной мощи им не добавляли с тех пор.

Мелкие форматы используются не во всех частях модели, в критичных местах оставлены FP16 и FP32.

waryag · Повідомлення 12.11.2025 11:21

AssayMAS: ↑ 12.11.2025 10:26это не ответ
так ответить можно на абсолютно любой вопрос

Игровые консоли же. Ну...

AssayMAS · Повідомлення 12.11.2025 11:27

vmsolver: ↑ 12.11.2025 10:53FP4, FP8 помимо того, что занимают меньше места, они меньше нагружают полосу памяти

а минуса? их куча - в разных алгоритмах разные. В генеративных "ИИ" видно не вооруженным глазом в виде упрощения картинки и детализации на ней.
И экономить сотню другую ГБ когда у тебя пара ТБ - такое себе решение... И как видим на многих независимых готовых обученных нейронках заточку под FP4\6\8 будут делать самым последним... ибо это для обычных смертных, а на них много не заработать.
Типо на халяву модели нейронок обученных под 10-20ГБ Врама... а вот 1ТБ обученные модели мало где на халяву в публичном доступе лежат.

vmsolver: ↑ 12.11.2025 10:53Мелкие форматы используются не во всех частях модели, в критичных местах оставлены FP16 и FP32.

оно то по логике да - но я пока не видел гибридных разрядностей в лоу енд моделях "ИИ" для простых смертных. Ибо "дешевые" карты не умеют мгновенно перерубаться - там какой то штраф на время идёт. И выигрыш с переезда FP16 и FP32 зависит от модели нейронки и как её обучали. Одним смотрел норм, другим нет...
Сферическая нейронка в вакууме (на пару десятков ТБ врама и несколько физических серверов) всё умеет - но как только её до 10-20 ГБ врама ужимаешь так начинаются лузлы.

Відправлено через 3 хвилини 56 секунд:

waryag: ↑ 12.11.2025 11:21Игровые консоли же. Ну...

сами себе придумали проц, только себе его делают и он коммерчески успешен только из за ИГР что монопольно зажали на консоль... таже фигня и у Яблока - процы только себе...
их успех это недоработка антимонопольного законодательства. Миг по историческим меркам...

vmsolver · Повідомлення 12.11.2025 14:27

AssayMAS: ↑ 12.11.2025 11:31 а минуса? их куча - в разных алгоритмах разные. В генеративных "ИИ" видно не вооруженным глазом в виде упрощения картинки и детализации на ней.

Квантование же делают не просто так, а оценивая эти минуса, выбирая приемлемый компромисс, там же не тупые работают ))

AssayMAS: ↑ 12.11.2025 11:31И экономить сотню другую ГБ когда у тебя пара ТБ - такое себе решение... И как видим на многих независимых готовых обученных нейронках заточку под FP4\6\8 будут делать самым последним... ибо это для обычных смертных, а на них много не заработать.

Всё же, не стоит приводить такие крайности как пример, 200-500 ГБ это тоже весьма не плохая модель, а лишние ТБ отдать под контекст, потому что его бывает мало, что толку от умной модели, но с коротким контекстом? Задачи же разные бывают, поэтому и тут тоже, да, ищут компромисс.

AssayMAS: ↑ 12.11.2025 11:31 Типо на халяву модели нейронок обученных под 10-20ГБ Врама... а вот 1ТБ обученные модели мало где на халяву в публичном доступе лежат.

Легко есть и промежуточные варианты по 60-130 ГБ, было бы железо для их запуска. 1 ТБ это много, её запускать надо на нормальном железе, это уже не обычная история

AssayMAS: ↑ 12.11.2025 11:31 оно то по логике да - но я пока не видел гибридных разрядностей в лоу енд моделях "ИИ" для простых смертных. Ибо "дешевые" карты не умеют мгновенно перерубаться - там какой то штраф на время идёт.

Это по слоям надо смотреть. Простые смертные давно могут менять разрядность KV-кеша и прочего, просто зайти в настройки загрузки модели.
Не знаю на счет пенальти, преобразовать FP4 в FP8 вряд ли сложная задача, если FP4 не поддерживается. Моя старенькая лэптопная RTX 3060 ест Q4_K_M и чувствует себя прекрасно, а FP4 она не поддерживает.

AssayMAS: ↑ 12.11.2025 11:31 И выигрыш с переезда FP16 и FP32 зависит от модели нейронки и как её обучали. Одним смотрел норм, другим нет...
Сферическая нейронка в вакууме (на пару десятков ТБ врама и несколько физических серверов) всё умеет - но как только её до 10-20 ГБ врама ужимаешь так начинаются лузлы.

В общем, не смотря на все ваши "но" это используется и очень выгодно, получить ускорение 1.5-2 при не сильно худшем результате это ценно. Везде ищется баланс и компромисс.