Google випускає процесори Axion і нове покоління TPU Ironwood для ШІ

Обсуждение статей и новостей сайта
Автор
Повідомлення
-orion-
Member
Аватар користувача
Звідки: Днепр

Повідомлення

yuriy_dd: 09.11.2025 14:25
-orion-: 07.11.2025 18:15 а чому не М5? :insane:
від Гугл - на АРМ, М5 - на АРМ - чому гугл має використовувати продукт іншої компанії коли їм краще зробити свій під свої потреби?
ви би хоч трішки логіку включали
АРМ - дає можливості кожному клієнту зробити що він хоче
х86 - дає лише готове лайно, бери і жри
AssayMAS: 09.11.2025 13:21ты понимаешь что нельзя родить НОВУЮ коммерчески успешную архитектуру процессора потому что уже 80+% ПО написано под "х86" на этой планете
де ви таку маячню берете? софт написаний на умовному С - який просто перекомпільовується і тестується - що Гугл саме зараз і робить
гроші в компілятори вкладаються дуже великі всіма - почитайте про LLVM і думайте тріши перед тим як писати
АРМ не тупик, и х86 тоже. АРМ это узкозаточенная архитектура, под которую приходится переделывать софт и ОС. Единственное преимущество, это условно легкий старт в разработке для любого желющего. Именно по этому много кто будет клепать свои ЦП, и это же его проклятие, потому что железки не совместимы, хотя в некоторых случаях это логично. На пример когда делают под себя (эпл, нвидия для ИИ, гугл). То есть у продукта своя узкая ниша, дальше кторой он не выходит, но по скольку справляется отлично с этой задачей, всех устраивает.
х86 же универсальный комбайн, можно строить инфраструктуру хоть с Интел хоть с АМД, можно и в перемешку. Выполнять может все что угодно, но с разной эффективностью.
Хватит уже бред свой фанатичный нести, уже даже не смешно а грустно такое читать.
AssayMAS
Member
Звідки: ][аркiв

Повідомлення

yuriy_dd: 09.11.2025 15:09ваша маячня про софт лежить в exe
ну я не знаю, пусть диагноз вам ставят специалисты - сколько под виндой людей сидит? Сколько под линуксами?
Вот и ответ что для 80+% людей софт в виде исполняемого Вин файла находится и 80+% софта приписано фиг знает когда и фиг знает на чём и где код не знаю.
Вон знакомый давеча под вин пытался куду на питоне 2 годичной давности скомпилировать (небось сам еще писал - о чем не признается стыдится за код) - так месяц (100+часов) зависисмости перебирал (версия Нвидиевских дров, компилятора, сопутствующих библиотек, ...).
Так что от наличия кода до исполняемого вин файла может пройти значительная при значительная часть времени и путь будет тернист. А докеры мало помогут ибо люди делятся на тех кто ими пользуется и кто будет пользоваться... . На освоение докеров пусть и самопал в виде zip тоже надо время - а "в коммерческих" там постоянно что то новое не очевидное "изобретают" и надо 10+ часов в месяц на чтение и освоение новых фич.
Scoffer: 09.11.2025 15:05віртуалізація, наприклад, абсолютно несумісна ні в кого ні з ким
ну я лично видел ПО для виртуализации и там прям список поддерживаемых Интеловских процов, на АМД запускается но медленно. Как и видел фирменный ПК где прям в биосе писали поддерживаем вот эти три штуки ПО для шифрования М2 сдд...
Так что много ПО сча и без NPU на видеокарте или проце считается... а некоторые ваще на серверах и по подписке.
Но это не значит что так будет всегда - вендора то все хотят что бы ТОЛЬКО на их железе считали, но это миф так никогда не будет уроки лицензирования х86 многому научили всех.
Scoffer
Member
Аватар користувача

Повідомлення

AssayMAS
Мало хто що там хоче. На прикладі віртуалізації у КОЖНОГО процесоробудівника своє УНІКАЛЬНЕ і ні з ким не сумісне рішення. Системи віртуалізації вимушені підтримувати кожне з них.
На прикладі NPU рішення лише частково перетинаються. Старий-добрий FP32 у всіх однаковий, а от FP16 вже ні. Є IEEE FP16, є bfloat16, і є DLFloat16. Це з мені відомих, а там біс його знає що ще є. Так от софт написаний під один з них не буде коректно працювати з іншим. А залізяк що підтримують всі три, здається, десь між нулем і одною штукою.
З FP8/6/4 все ще гірше бо вони не використовуються самі по собі. З них складають блоки дуже різної розмірності, і 2д, і 3д, котрі множаться буває на інт, буває на експоненту, буває на експоненту з мантисою, і все апаратно цілим блоком, саме собою. Так от софт, писаний під одне з таких рішень, не буде не те що коректно, він просто не буде працювати на іншому. Сумісність приблизно нульова.
Зрозуміло?
AssayMAS
Member
Звідки: ][аркiв

Повідомлення

Scoffer: 10.11.2025 01:28Сумісність приблизно нульова.
Зрозуміло?
ТАБЛИЧКИ какая микросхема(и\или чип GPU) от какого изготовителя что поддерживает уже несколько лет гуляют по сети... 100% предсказуемость.
и как бы самое старое FP32/16 и его тянет 99% железа...
а всякое разное типо истинной аппаратной поддержки FP8/6/4 позволяет не сильно теряя в "качестве" экономить память, но это для тех кто не может себе позволить Терабайты "видеопамяти". И сидят на <10 штук ускорителей.
И внезапно на железе умеющем аппаратно только в FP32/16 все что "ниже" типо FP8/6/4 запускается и работает да в 10+ раз медленнее чем на новых ускорителях но запускается.
И это я не считаю за "Сумісність приблизно нульова.". Ноль это у китайских ускорителей - софт на китайском и спеки тайна доступная только компартии ибо даже замаскировать спёртое не удосужились... .
waryag
Member
Аватар користувача
Звідки: Суми

Повідомлення

AssayMAS: 09.11.2025 13:21ты понимаешь что нельзя родить НОВУЮ коммерчески успешную архитектуру процессора потому что уже 80+% ПО написано под "х86" на этой планете и только недавно что то под андроид уникального запилили. Так и с ускорителями вычислений - экосистема решает об экономической успешности. До андроид сколько было попыток в смартфон ЛИЧНО превозмочь всё и ПО и железо... не выстрелило и там большие деньги задействованы были.
Так и у Гугла железка есть? Есть. Работает: ДА!... а экономическую целесообразность(=прибыль от внедрения) никто не обещал в этом столетии.
Можно. Достаточно не пытаться обьять необьятное, а сфокусироваться на ключевых задачах.

Понятно, что ИИ/ЛЛМ в целом сейчас глубоко убыточны, но грамотная связка из собственного и покупного железа для гигантов выгоднее чисто покупного, и уж тем более - чисто покупного у монополиста.
AssayMAS: 10.11.2025 10:48а всякое разное типо истинной аппаратной поддержки FP8/6/4 позволяет не сильно теряя в "качестве" экономить память, но это для тех кто не может себе позволить Терабайты "видеопамяти". И сидят на <10 штук ускорителей.
Это для всех, просто гиганты за счет экономии в некритичных местах могут добавить параметров или дополнительных опций.
AssayMAS
Member
Звідки: ][аркiв

Повідомлення

waryag: 10.11.2025 16:05Можно. Достаточно не пытаться обьять необьятное, а сфокусироваться на ключевых задачах.
примеры? или 0,00000000000000001% рынка успех успешный? или только себе "успешный успех" и с никем не делится типо М2.. М4 у яблока...
waryag: 10.11.2025 16:05Это для всех, просто гиганты за счет экономии в некритичных местах могут добавить параметров или дополнительных опций.
в зависимости от алгоритмов нейронки смена с FP32\16 на FP4\6\8 позволяет уменьшить потребление памяти в 5-10 раз и не сильно потерять в "качестве". То есть запуск "на поиграться" какой то моделью нейросетей потребует не 4-10 штук 3090 с 2-4КВт потребления, а одну 5060ти 16ГБ 300Ватт.
Вот для чего FP8/6/4 пользуют... ибо у всех состоятельных господ сервера с терабайтами врама...
И сильно заметно продукт моделей нейронок на FP32\16 и на FP4\6\8... не вооруженным глазом в виде на генерированных картинок.
waryag
Member
Аватар користувача
Звідки: Суми

Повідомлення

AssayMAS: 11.11.2025 02:56 примеры? или 0,00000000000000001% рынка успех успешный? или только себе "успешный успех" и с никем не делится типо М2.. М4 у яблока...

:facepalm:
При чем тут вообще рынок? Достаточно эффективно выполнять задачу.
А если напряжете межушный ганглий, сможете найти более одного примера успешного выпуска устройств с многомиллионными продажами не на х86 и даже не АРМ. :popcorn:
AssayMAS: 11.11.2025 02:56в зависимости от алгоритмов нейронки смена с FP32\16 на FP4\6\8 позволяет уменьшить потребление памяти в 5-10 раз и не сильно потерять в "качестве". То есть запуск "на поиграться" какой то моделью нейросетей потребует не 4-10 штук 3090 с 2-4КВт потребления, а одну 5060ти 16ГБ 300Ватт.
Вот для чего FP8/6/4 пользуют... ибо у всех состоятельных господ сервера с терабайтами врама...
И сильно заметно продукт моделей нейронок на FP32\16 и на FP4\6\8... не вооруженным глазом в виде на генерированных картинок.
А что мешает большим компаниям точно так же сэкономить ресурсы и направить их куда-то еще?
AssayMAS
Member
Звідки: ][аркiв

Повідомлення

waryag: 11.11.2025 23:55При чем тут вообще рынок?
ааа все делают много миллионные вложения в разработку процов чисто ради фана или выполнить на них одну ну может две интересные задачи... ведь уже на существующих процессорах, задачу посчитать, религия не велит.
Вот я то думал что процессоры делают богатые дяди что бы денег заработать и стать богаче - а оно вон как... "рынок не причём".
Вот я читал книжечку 1989 года разлива "Зарубежные Интегральные Микросхемы для промышленной электронной аппаратуры справочник" там в разделе SoC 300+ микропроцессоров и каждый с своей самобытной архитектурой и особенностями и вот спустя 30 лет от выхода книги из предоставленных решений в живых менее 10... . Так рыночек порешал...
waryag: 11.11.2025 23:55многомиллионными продажами не на х86 и даже не АРМ
давай ты прибыль покажешь от этих решений? Не пару баксов как на тетрисах - а хотя бы как на "селеронах" что кристалл несколько баксов, а продают за несколько десятков баксов... а всё экосистема.
waryag: 11.11.2025 23:55А что мешает большим компаниям точно так же сэкономить ресурсы и направить их куда-то еще?
Мозги. На администрирование уйдёт больше средств чем выгода от экономии.
Это на маленьких при маленьких языковых моделях на 10-16ГБ врама FP4\6\8 дают много преимуществ по сравнению с FP32\16. А вот когда вычислителей сотни и память терабайтами измеряют - то выгод от FP4\6\8 меньше, а вреда больше.
Поддержку FP4\6\8 добавили к видеокартам что бы и просты смертные могли в "ИИ"\нейросети причастится с одной видюхой среднего уровня с 8-16ГБ врама.
Но продукт на генерированный одной видюхой никогда не станет конкуренту кластеру серверов... по этому и раздают ИИ всем нахаляву, что бы порог вхождения на рынок конкурентам задрать. И то рынок ИИ перегрет в 10-20раз.
waryag
Member
Аватар користувача
Звідки: Суми

Повідомлення

AssayMAS: 12.11.2025 00:46давай ты прибыль покажешь от этих решений? Не пару баксов как на тетрисах - а хотя бы как на "селеронах" что кристалл несколько баксов, а продают за несколько десятков баксов... а всё экосистема.
Подумай получше. (Но уже теплее!)
AssayMAS: 12.11.2025 00:46Но продукт на генерированный одной видюхой никогда не станет конкуренту кластеру серверов... по этому и раздают ИИ всем нахаляву, что бы порог вхождения на рынок конкурентам задрать.
Не станет. Но кластер серверов за счет оптимизаций может потянуть более сложную задачу.
И то рынок ИИ перегрет в 10-20раз.
Если/пока не случится настоящий ИИ. Хотя бы слабый.
AssayMAS
Member
Звідки: ][аркiв

Повідомлення

waryag: 12.11.2025 09:00Подумай получше. (Но уже теплее!)
это не ответ
так ответить можно на абсолютно любой вопрос
waryag: 12.11.2025 09:00Не станет. Но кластер серверов за счет оптимизаций может потянуть более сложную задачу.
то есть как я и писал что FP4\6\8 для обычных пользователей, а fp32\16 стандарт для любых ускорителей и под ИИ в частности. Другое дело что на современном железе fp32\16 на тех же ГГц считается быстрее в разы чем на древних ускорителях. От чего гора таких древних ускорителей лежит по цене еды на вторичке - ибо на 1 Ватт современный ускорители дадут в разы больше попугая.
waryag: 12.11.2025 09:00Если/пока не случится настоящий ИИ.
Вангую настоящий ИИ случится годиков через 150-250 если не откат техноуровня в средневековье после вымирания.
80% мозга человека обслуживает тело и лишь 20% остаётся на "Интеллект", а 1 биологический нейрон это примерно как пень третий с 100+МБ памяти (только если в школе учились и понимаете что нейрон нейрону передаёт хим. соединение коих под 10 000 видов, а липестричество просто симофор мол есть передача), вот и считаем через сколько вычислительных мощностей на планете хватит для моделирования куска (20%) мозга человека... у всех сильно по разному выходит.
vmsolver
Member
Аватар користувача

Повідомлення

FP4, FP8 помимо того, что занимают меньше места, они меньше нагружают полосу памяти, то есть можно за то же время прочитать веса модели условно не один раз, а два, то есть сгенерировать два токена вместо одного, при этом потратить меньше энергии, так как такие форматы проще и темп их исполнения выше.

То есть, это способ увеличения производительности и энергоэффективности одновременно. Бонусом, можно обучать модели большего размера или оставить место под контекст. В общем, куча плюсов. Начиная с Амперов в игровой линейке, tensor-cores изменялись только поддержкой более мелких форматов, тупой хардварной мощи им не добавляли с тех пор.

Мелкие форматы используются не во всех частях модели, в критичных местах оставлены FP16 и FP32.
waryag
Member
Аватар користувача
Звідки: Суми

Повідомлення

AssayMAS: 12.11.2025 10:26это не ответ
так ответить можно на абсолютно любой вопрос
Игровые консоли же. Ну...
AssayMAS
Member
Звідки: ][аркiв

Повідомлення

vmsolver: 12.11.2025 10:53FP4, FP8 помимо того, что занимают меньше места, они меньше нагружают полосу памяти
а минуса? их куча - в разных алгоритмах разные. В генеративных "ИИ" видно не вооруженным глазом в виде упрощения картинки и детализации на ней.
И экономить сотню другую ГБ когда у тебя пара ТБ - такое себе решение... И как видим на многих независимых готовых обученных нейронках заточку под FP4\6\8 будут делать самым последним... ибо это для обычных смертных, а на них много не заработать.
Типо на халяву модели нейронок обученных под 10-20ГБ Врама... а вот 1ТБ обученные модели мало где на халяву в публичном доступе лежат.
vmsolver: 12.11.2025 10:53Мелкие форматы используются не во всех частях модели, в критичных местах оставлены FP16 и FP32.
оно то по логике да - но я пока не видел гибридных разрядностей в лоу енд моделях "ИИ" для простых смертных. Ибо "дешевые" карты не умеют мгновенно перерубаться - там какой то штраф на время идёт. И выигрыш с переезда FP16 и FP32 зависит от модели нейронки и как её обучали. Одним смотрел норм, другим нет...
Сферическая нейронка в вакууме (на пару десятков ТБ врама и несколько физических серверов) всё умеет - но как только её до 10-20 ГБ врама ужимаешь так начинаются лузлы.

Відправлено через 3 хвилини 56 секунд:
waryag: 12.11.2025 11:21Игровые консоли же. Ну...
сами себе придумали проц, только себе его делают и он коммерчески успешен только из за ИГР что монопольно зажали на консоль... таже фигня и у Яблока - процы только себе...
их успех это недоработка антимонопольного законодательства. Миг по историческим меркам...
vmsolver
Member
Аватар користувача

Повідомлення

AssayMAS: 12.11.2025 11:31 а минуса? их куча - в разных алгоритмах разные. В генеративных "ИИ" видно не вооруженным глазом в виде упрощения картинки и детализации на ней.
Квантование же делают не просто так, а оценивая эти минуса, выбирая приемлемый компромисс, там же не тупые работают ))

AssayMAS: 12.11.2025 11:31И экономить сотню другую ГБ когда у тебя пара ТБ - такое себе решение... И как видим на многих независимых готовых обученных нейронках заточку под FP4\6\8 будут делать самым последним... ибо это для обычных смертных, а на них много не заработать.
Всё же, не стоит приводить такие крайности как пример, 200-500 ГБ это тоже весьма не плохая модель, а лишние ТБ отдать под контекст, потому что его бывает мало, что толку от умной модели, но с коротким контекстом? Задачи же разные бывают, поэтому и тут тоже, да, ищут компромисс.
AssayMAS: 12.11.2025 11:31 Типо на халяву модели нейронок обученных под 10-20ГБ Врама... а вот 1ТБ обученные модели мало где на халяву в публичном доступе лежат.
Легко есть и промежуточные варианты по 60-130 ГБ, было бы железо для их запуска. 1 ТБ это много, её запускать надо на нормальном железе, это уже не обычная история
AssayMAS: 12.11.2025 11:31 оно то по логике да - но я пока не видел гибридных разрядностей в лоу енд моделях "ИИ" для простых смертных. Ибо "дешевые" карты не умеют мгновенно перерубаться - там какой то штраф на время идёт.
Это по слоям надо смотреть. Простые смертные давно могут менять разрядность KV-кеша и прочего, просто зайти в настройки загрузки модели.
Не знаю на счет пенальти, преобразовать FP4 в FP8 вряд ли сложная задача, если FP4 не поддерживается. Моя старенькая лэптопная RTX 3060 ест Q4_K_M и чувствует себя прекрасно, а FP4 она не поддерживает.
AssayMAS: 12.11.2025 11:31 И выигрыш с переезда FP16 и FP32 зависит от модели нейронки и как её обучали. Одним смотрел норм, другим нет...
Сферическая нейронка в вакууме (на пару десятков ТБ врама и несколько физических серверов) всё умеет - но как только её до 10-20 ГБ врама ужимаешь так начинаются лузлы.
В общем, не смотря на все ваши "но" это используется и очень выгодно, получить ускорение 1.5-2 при не сильно худшем результате это ценно. Везде ищется баланс и компромисс.
Відповісти