Соблюдение Правил конференции строго обязательно! Флуд, флейм и оффтоп преследуются по всей строгости закона! За статью можно проголосовать на странице материала.
"На практике, в виду отсутствия оптимизации программ, разница может быть в разы"
вы это с потолка взяли или изучили какой-либо материал на тему?
См. первый слайд. Латентность при обращении к ближней и дальней памяти официально отличается в 2 раза. На практике всё обычно обстоит гораздо хуже. Нет?
Member
Статус: Не в сети Регистрация: 20.04.2012 Фото: 15
GreenCo писал(а):
м. первый слайд. Латентность при обращении к ближней и дальней памяти официально отличается в 2 раза. На практике всё обычно обстоит гораздо хуже. Нет?
так уже есть тесты Обзор процессоров AMD Ryzen Threadripper 1950X и 1920X: превентивный ядерный удар #77
Результаты очень наглядны. Латентность взаимодействия между ядрами, находящимися внутри одного CCX-комплекса, находится на очень хорошем уровне. Порядка 40 нс – это даже лучше задержки, который даёт интеловская кольцевая шина, так что процессоры AMD позволяют передавать данные между ядрами внутри одного CCX-комплекса быстрее, чем это могут делать лучшие интеловские процессоры. К тому же появившаяся в Skylake-X ячеистая сеть по сравнению с кольцевой шиной ухудшила латентности межъядерного взаимодействия, и теперь новые HEDT-процессоры Intel демонстрируют возросшие до 75-80 нс задержки при передаче данных между ядрами. Однако о прогрессивности выбранного AMD варианта межъядерного взаимодействия можно говорить лишь до тех пор, покуда речь не заходит о совместной работе с данными ядер из разных CCX-комплексов. Даже для пары ядер, находящихся в одном кристалле, но в разных CCX, латентность при взаимодействии возрастает более чем втрое и составляет уже более 150 нс. Если же обмен данными идёт между ядрами в различных кристаллах, то задержки оказываются ещё на треть выше. Но справедливости ради стоит отметить, что различия практических латентностей при переходе от обмена данными между разными CCX, находящимися в одном или в соседних кристаллах, на самом деле не столь вопиющи. И это служит наглядной иллюстрацией того факта, что шина Infinity Fabric, связывающая кристаллы Zeppelin внутри Ryzen Threadripper со своей ролью справляется достаточно неплохо: такой собранный из двух частей процессор действительно не похож на ординарную систему с двумя CPU.
Member
Статус: Не в сети Регистрация: 10.03.2004 Откуда: Липецк
GreenCo писал(а):
См. первый слайд. Латентность при обращении к ближней и дальней памяти официально отличается в 2 раза. На практике всё обычно обстоит гораздо хуже. Нет?
1 слайд = 2 слайд. Опечатка, не?
_________________ Чукча не песатель, чукча четатель.
Member
Статус: Не в сети Регистрация: 20.04.2012 Фото: 15
В локальном режиме nUMA мы получим минимальные задержки, но потеряем два канала памяти и, следовательно, радикально снизим общую пропускную способность подсистемы памяти. В распределённом режиме UMA мы получаем в распоряжение все четыре канала памяти Подробнее: https://www.overclockers.ru/hardnews/86 ... -pcie.html потеряем, это как? если "Для того же случая, когда латентности для скорости работы важнее, предлагается локальный (local) режим. В нём транзакции в первую очередь отдаются тому двухканальному контроллеру, который находится в одном кристалле Zeppelin с ядром, их инициировавшим (эмуляция NUMA)"
Складывается ощущение, что сейчас стоит брать 8 ядерные и ждать когда 16 ядерники допилят.
Зачем? там также два кристалла, но с 4 ядрами каждый. Т.е. никакой разницы в программной части нет. Вы наверное имели ввиду, что вам нужен восьмиядерный райзен.
Добрый день форумчане! Я вот не могу понять одного почему в настольном сегменте нельзя было использвать чистый ССХ-кластер на 4 ядра а не склейку, ведь обмен данными около 50 нс, тем более выход годнных кристалов под 90%.
Member
Статус: Не в сети Регистрация: 24.11.2002 Откуда: New Mexico, USA Фото: 42
lexx1191 Классная табличка! Хорошо видно как разделение на модули по 4 ядра в одном кристалле - очень плохая идея. Если сделают один цельный 8-ядерный кристалл для Ryzen 2, то можно смело брать не гадая в каких приложениях проц будет храмать. Оставили бы эту infinity fabric исключительно для соединений разных кристаллов и было бы всё на своих местах, без лишних болячек.
Давно еще хотел написать почему AMD начала клепать склейку а не выпустила на одном кристале 6 ядер. Согласитесь что для домашнего компа сейчас R5 1600Х это самый лучший выбор,ядра не хуже интеловских, поток тоже, потери идут от склеки и довольно таки серьезные.
Member
Статус: Не в сети Регистрация: 24.11.2002 Откуда: New Mexico, USA Фото: 42
matocob Как так никуда не денется? Проблемы взаимосвязи есть только тогда, кода связь идет через infinity fabric.
lexx1191 Рано Интел похоронила кольцевую шину. До 10 ядер она справлялась куда лучше нового типа. Проблемы были тольков тех кристаллах, где было две кольцевых шины с контроллерами памяти привязаными к разным кольцам. Примерно тоже, что сейчас сделала АМД, только там было всё внутрии одного кристалла.
Member
Статус: Не в сети Регистрация: 31.07.2006 Откуда: Академгородок П Фото: 124
VRoman писал(а):
Как так никуда не денется? Проблемы взаимосвязи есть только тогда, кода связь идет через infinity fabric.
Связь по Infinity Fabric идёт уже внутри кристалла между двумя CCX, к примеру. Ну и проблемка экспоненциального роста числа связей при реализации топологии точка-точка. Поэтому что АМД, что Интел извращаются, лишь бы сократить число дополнительных связей. Интеловская решётка тоже не лучше. У АМД задержки растут между модулями по 4 ядра и между кристаллами, а у Интела - уже между соседними ядрами, находящимися в узлах решётки. Как ни крути, от накладных расходов никуда не денешься.
Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 33
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения