Прогрес ARM процесорів

Обсуждение всего, что связано с CPU
Ответить
Автор
Сообщение
AntonyKandaurov
Member
Аватара пользователя
Откуда: Славетне місто Запоріжжя

Сообщение

yuriy_dd: 26.12.2025 15:43де є закон що 110 для кремнію - це зло?
Юрчику, для процесора в моєму ноутбуці Tj max 105 градусів стоїть а при 110 він терміново шатдауниться, це ж точно інженери амуде такі довбні, не знають що при 110 градусах можна працювати і норм.
Конкретне значення максимальної робочої температури (Tj max) для чипа Apple Silicon M5 не було офіційно оприлюднене Apple. Apple зазвичай не публікує детальні технічні характеристики, такі як цей параметр, для своїх процесорів.
Правильно, навіщо хом'ячкам емезінга знати що воно там в пасиві кипить і тротлить :lol:
yuriy_dd
Member

Сообщение

dext: 26.12.2025 17:10ну шо, поїхали розмотувати вашу пихату самовпевненість :rotate:
- data[i..i+3] буде завантажений за 1 (одну), максимум 2(дві) операції тому що сучасні ЦП читають не байтами, а Cache Line (64 байти)
яка ширина контролера памяті? я маю дані що 64 біти
dext: 26.12.2025 17:10 - в DDR5 дані вичитуюся рядками (Burst Length) в 64 байти, це було зроблено для співпадіння з Cache Line
те що контролер читає так багато навіть коли код запитує 1 байт - це не є плюс, а є мінусом. Ви ж напевне знаєте що є багато коду який працює з памятю по байтно
а чому у М4 зробили що є 8 каналів по 16 біт? Чи буде це перевагою якщо код не зачитує відразу великі блоки, а наприклад по байту?
виходимо з того що М4 - сильно переважає по швидкодії сучасні х86 - відповідно
dext: 26.12.2025 17:10 - для мене цей код не простий, а примітивний
ви надіюсь про мій код з прикладу:
viewtopic.php?p=4061401&hilit=main#p4061401
готові говорити далі? як його поправити щоб він читав по 16 біт?

Відправлено через 1 хвилину 57 секунд:
AntonyKandaurov: 26.12.2025 18:32Юрчику, для процесора в моєму ноутбуці Tj max 105 градусів стоїть а при 110 він терміново шатдауниться, це ж точно інженери амуде такі довбні, не знають що при 110 градусах можна працювати і норм.
макбук ейр М1 - працюють вже з 2020 року, без охолодження, досить довго (десятки хв) можуть тримати максимальне навантаження
те що вони виходять з ладу - не чути
ви хочете придумати проблему? але у вас знову не виходить?

Відправлено через 12 хвилин 58 секунд:
dext: 26.12.2025 17:10аналогічно для інших прикладів, окрім хіба що
Код: Виділити все
size = chunk->prev_size + chunk->size + next->size;
тут може бути 2 MC якщо next та chunk в різних ROW/Cache Line
так це ж самий типовий код роботи з структурами / обєктами, коли у вас є вказівник на обєкт і ви щось оперуєте:
if(new_chunk->prev_size + new_chunk->size > old_chunk->prev_size + old_chunk->size) ..

Відправлено через 1 годину 22 хвилини 57 секунд:
Alexsandr: 26.12.2025 15:30А на видео яркости мало говорит, тускло
а на відео ви не зауважили ось цей фрагмент - там перевага вже дуже суттєва. Як так? Аж просто шкода стає х86 :weep: :weep:
Screenshot_20251226-220925_YouTube-EDIT.jpg
dext
Member
Откуда: Dnipro

Сообщение

yuriy_dd: 26.12.2025 20:57 яка ширина контролера памяті? я маю дані що 64 біти
ще раз повторюю: ЦП завжди завантажують дані порціями кратними Cache Line (64 байти)
те що контролер читає так багато навіть коли код запитує 1 байт - це не є плюс, а є мінусом
інженери ЦП забули вас спитати :dontknow:
When the CPU needs data, it fetches an entire line (64 bytes) to exploit spatial locality, bringing nearby data into the fast cache, reducing expensive main memory accesses for subsequent requests to adjacent memory locations
тож інше коментувати немає сенсу
ви надіюсь про мій код з прикладу:
viewtopic.php?p=4061401&hilit=main#p4061401
готові говорити далі? як його поправити щоб він читав по 16 біт?
ось це виглядає як чергова синтетика без користі та з дитячими помилками, виправте для початку

Код: Выделить всё

  uint64_t LSum = 0;
  for (int i = 0; i < ALaneCount; i++)
    LSum += LIdx[i];
  if(LSum < 1)
    printf("%'llu\n", LSum);
тоді поговоримо :rotate:
Z440_User
Member
Откуда: Кривий Ріг

Сообщение

yuriy_dd
А отам де графік з блендеру, всі рендерилися в однакових умовах? Чи для М4 було вибрано опції для можливості використання апаратних блоків прискорення які відповідають за графіку без використання arm-ядер, в той час як інші виконували рендер на CPU?
Grava
Member
Аватара пользователя
Откуда: Запоріжжя

Сообщение

Z440_User: 26.12.2025 23:28Чи для М4 було вибрано опції для можливості використання апаратних блоків прискорення які відповідають за графіку без використання arm-ядер, в той час як інші виконували рендер на CPU?
Кілька хвилин в інтернеті, знайшов такий результат на течпаверап:
Render time: 149.14 seconds
Update: GPU takes 33 seconds

Apple M2 Pro 10 Core (6P + 4E) @24W
Apple M2 Pro 16 Core GPU @15W
Blender v4.1, macOS Sonoma 14.5
Щось я не впевнений що м4 став настільки краще за м2 про :D
Ще там було
Update: RX 9070XT 16GB: 10 seconds with HIP + HIP RT
Як так? Це навіть не 5090 :eek:
Последний раз редактировалось Grava 27.12.2025 00:16, всего редактировалось 1 раз.
Z440_User
Member
Откуда: Кривий Ріг

Сообщение

Подивися що то за тест такий з рендером БМВ у Blender.
Ну да М4 там беззаперечний переможець. Бо той рендер має параметри що ідеально вкладаються в роботу M4 навіть без використання апаратних хитрощів в GPU та інших блоків...
От би там трішки більше полігонів додати, або volumetrics, чи текстур в 4К... Коротше, чогось що вийде за штатні "сценарії" роботи М4 і тоді почнеться реальна робота ЦПУ замість підлаштованої "синтетики"...
AssayMAS
Member
Откуда: ][аркiв

Сообщение

AntonyKandaurov: 26.12.2025 06:50які не дурні і вже масово по третьому колу перейшли на арм архітектуру
в готовых х86 процах есть ДЫРЫ - а там у корпораций добра данные что стоят миллиарды - вот их и крутят на СВОИХ ARM процах что бы не спёрли. Тоесть в корпах есть чёткая градация - эти сервера на х86 крутим на них всякое, а эти на наших ARM и матерях втридорога и на них крутит секретные секретики.
ARM пользуют не потому что он лучше, а потому что открытый - и любой может всяких фич накинуть...
AntonyKandaurov: 26.12.2025 06:50а калькулятор перший запуск робить 7 секунд
там надо ручками понастраивать панель управления и будет за 1-2 сек - в гугле рецепт ищи
yuriy_dd
Member

Сообщение

dext: 26.12.2025 23:18ще раз повторюю: ЦП завжди завантажують дані порціями кратними Cache Line (64 байти)
специфікація каже наступне - M4 - 8 Memory Controllers, Each memory controller contains a 16-bit memory channel
https://en.wikipedia.org/wiki/Apple_M4
dext: 26.12.2025 23:18виправте для початку
що саме?
Z440_User: 26.12.2025 23:28А отам де графік з блендеру, всі рендерилися в однакових умовах? Чи для М4 було вибрано опції для можливості використання апаратних блоків прискорення які відповідають за графіку без використання arm-ядер, в той час як інші виконували рендер на CPU?
я не знаю, і цієї програми не знаю. Просто результат
Grava
Member
Аватара пользователя
Откуда: Запоріжжя

Сообщение

Аж просто шкода стає х86
У результаті вашого тесту м4 рендер був на гпу, до чого тут х86?
dext
Member
Откуда: Dnipro

Сообщение

yuriy_dd: 27.12.2025 00:05 специфікація каже наступне - M4 - 8 Memory Controllers, Each memory controller contains a 16-bit memory channel
https://en.wikipedia.org/wiki/Apple_M4
- чому вас не дивує, що ваш код показує маячню замість коректних GB/s?
- чому ви не читаете те, що вам пишуть про Cache Line та специфікації DDR5?
що саме?
код, що я виділив - навіщо він?
yuriy_dd
Member

Сообщение

Grava: 27.12.2025 00:10 У результаті вашого тесту м4 рендер був на гпу, до чого тут х86?
dext: 27.12.2025 00:13 - чому вас не дивує, що ваш код показує маячню замість коректних GB/s?
та ніби є GB/s. А чому маячня?
dext: 27.12.2025 00:13код, що я виділив - навіщо він?
це заглушка щоб компілятор не видалив в результаті оптимізації - бо результат в LIdx - не використовується

Відправлено через 55 секунд:
dext: 27.12.2025 00:13 - чому ви не читаете те, що вам пишуть про Cache Line та специфікації DDR5?
а яким чином це мене має обходити, якщо Епл може зробити її роботу під себе. Може треба читати специфікації від Епл?
AntonyKandaurov
Member
Аватара пользователя
Откуда: Славетне місто Запоріжжя

Сообщение

yuriy_dd: 26.12.2025 22:20макбук ейр М1 - працюють вже з 2020 року, без охолодження, досить довго (десятки хв) можуть тримати максимальне навантаження
те що вони виходять з ладу - не чути
ви хочете придумати проблему? але у вас знову не виходить?
Ну так для того аби працювали довго придумали троттлінг, чи ти думаєш що просмажка кремнію годинами в 110+ градусів іде їм на користь? Чи той факт що епол приховує tj max своїх чипів відміняє закони фізики?
dext
Member
Откуда: Dnipro

Сообщение

yuriy_dd: 27.12.2025 00:21 та ніби є GB/s. А чому маячня?
в результатах нижче 5Gb/s?
це заглушка щоб компілятор не видалив в результаті оптимізації - бо результат в LIdx - не використовується
:facepalm: яке ключове слово в мовах програмування C/C++ цьому запобігає?
yuriy_dd
Member

Сообщение

AntonyKandaurov: 27.12.2025 00:23Ну так для того аби працювали довго придумали троттлінг
запускав Cinebench 2024 декілька раз підряд по 10 хв кожен, падіння швидкодії в багато-потоці - до 20%, в одно-потоці - нема взагалі
х86 при роботі від батареї - падає сильніше - до в 2 рази, причому відразу
чому ви шукаєте проблему у Епл, де її нема, але проблема яка явно є у х86 - ви ігноруєте?
AntonyKandaurov: 27.12.2025 00:23Чи той факт що епол приховує tj max своїх чипів відміняє закони фізики?
це ви собі щось придумали, і пробуєте мене переконати.
AntonyKandaurov
Member
Аватара пользователя
Откуда: Славетне місто Запоріжжя

Сообщение

досить довго (десятки хв)
Мій захудалий р5 5600 може цілодобово тримати високе навантаження і не виходити за рамки теплопакета і не мати розпечене днище, а твій пассивний м1-5 так може? Сумніваюсь
yuriy_dd
Member

Сообщение

dext: 27.12.2025 00:25 та ніби є GB/s. А чому маячня?
в результатах нижче 5Gb/s?
саме так, реальні тести вони такі, код перед вами - якщо ви бачите проблему - кажіть що поправити
dext: 27.12.2025 00:25яке ключове слово в мовах програмування C/C++ цьому запобігає?
ви про volatile? просто стикався що не допомагало
AntonyKandaurov
Member
Аватара пользователя
Откуда: Славетне місто Запоріжжя

Сообщение

yuriy_dd: 27.12.2025 00:27чому ви шукаєте проблему у Епл, де її нема, але проблема яка явно є у х86 - ви ігноруєте?
Яка проблема? Те що мій ноут має два крутилятора і в стрес тесті максимум 88 градусів гріється і може так працювати цілодобово.
Що на рахунок твого пассивного м1-5? Як емезінг, зможе так?
yuriy_dd
Member

Сообщение

AntonyKandaurov: 27.12.2025 00:29Мій захудалий р5 5600 може цілодобово тримати високе навантаження і не виходити за рамки теплопакета і не мати розпечене днище, а твій пассивний м1-5 так може? Сумніваюсь
ключеве - Епл може без охолодження. Мак міні чи мак студіо - саме тому і такі малі і потужні - що охолодження велике не потрібне
а х86 - так не може. І далі АРМ - буде нарощувати потужність, а х86 - не може - бо єдине що може це нарощувати споживання

Відправлено через 1 хвилину 46 секунд:
AntonyKandaurov: 27.12.2025 00:31 Що на рахунок твого пассивного м1-5? Як емезінг, зможе так?
АРМ - енергоефективний, саме тому на нього і переходять Амазон, Гугл, Майкрософт, Нвідіа і тед - їм всім треба макс швидкодія / споживання
AntonyKandaurov
Member
Аватара пользователя
Откуда: Славетне місто Запоріжжя

Сообщение

yuriy_dd: 27.12.2025 00:27х86 при роботі від батареї - падає сильніше - до в 2 рази, причому відразу
Від батарейки воно зовсім не гріється бо має притомні енергозберігайки. Навіть при навантаженні.

Відправлено через 3 хвилини 17 секунд:
yuriy_dd: 27.12.2025 00:33ключеве - Епл може без охолодження. Мак міні чи мак студіо - саме тому і такі малі і потужні - що охолодження велике не потрібне
Ну так, закони фізики не існують бо прописати який tj max епл не взмозі аби не травмувати своїх хом'ячків температурою на чіпах в 100+ градусів.
yuriy_dd
Member

Сообщение

AntonyKandaurov: 27.12.2025 00:33 Від батарейки воно зовсім не гріється бо має притомні енергозберігайки. Навіть при навантаженні.
але я не писав про гріється. Я казав про падіння швидкодії
Ответить