Member
Статус: Не в сети Регистрация: 01.03.2007 Откуда: Київ
TyyOx91 писал(а):
linuxdrom писал(а):
В системах с общей памятью таких проблем нет, по тому что латентность там всегда высокая.
На самом деле, разница не слишком большая, а в двухсокетных конфигурациях разница совсем нивилируется (в систем с общей памятью латентность всегда постоянная): #77 В 4-сокетных конфигах, в системах на Оптеронах латентность уже будет хуже чем у Зионов. Ну, а про 8-сокетные уже и подумать страшно (видимо поэтому на них, извиняюсь, "забили"...)
Ваша диаграмка доказывает что у двухсокетной системы с ИКП латентность такая же как на односокетной без ИКП, что как минимум не плохо. А в серверах :#77 И не стоит забывать что в систем с общей памятью постояна не только латентность но и пропускная способность:#77
На 8-сокетные забила не только АMD, но Интел(исключение 8-процессорные системы с CPU Intel выполнены на базе расширенной версии чипсета E8870 (с дополнительной микросхемой 8870SP) и платформы Itanium 2. Однако «8-way» по версии Intel нельзя назвать «чистой» SMP-моделью – скорее, это кластер с использованием внутреннего скоростного интерфейса для соединения двух серверов с чипсетами E8870). Только если АMD и за латентности, то Интел и за пропускной способности подсистемы памяти. И с латентностю легче ужится (вспоминаем кластеры), чем с нехваткой пропускной способности.
Цитата:
Цитата:
NUMA предназначена для серверов, а на нормальных серверах и так всё оптимизируют. Поэтому NUMA никаких проблем там не создает, а преимущества имеет явные. Поэтому глупость сказали Вы. PS. Без обид. Частично в Вашем заблуждении виновата AMD, котроя прозиционирует Quad FX как игровую платформу, хотя намного логичней что Quad FX ближе к рабочим станциям.
Я не заблуждаюсь в отношении NUMA, и не отрицаю её "нужность" для серверов, как вы, видимо, подумали. Просто у медали есть две стороны - помните с чего началось? "Не-костыль эта фитча которая не мешает" - я привёл пример, что даже такая полезная фитча, как ИКП - тоже иногда мешает.
Но ваш пример не является корректным как мешает не ИКП, а все таки NUMA (отделяем мух от котлет), и мешает NUMA в сфере, для которой она непредназначена. Представим что Интел бы здела такую же глпость как AMD, и представила серверное решение в качесве игрового. Тогда по вашему принципу мешала б FB-DIMM где латентсть очень высока, причём там чем болше модулей памяти, тем больше латентсть.
Цитата:
Цитата:
Я уже обращал внимание на то, что без NUMA и интегрированного контроллера, было б ещё хуже, чем в тех случаёв когда мы получаем "проседание"
NUMA - это "вещь" хорошая... если используемому софту о ней "известно". Если нет - то страдает не только производительность однопоточных программ, но и scalability на многопоточных.
В сфере применения NUMA (сервера) одпоточный и не знающий о NUMA софт большая редкось, однако для какого софта есть Node Interleave. Добавлено спустя 6 минут, 15 секунд
Bones писал(а):
Dryden
Цитата:
Сложная архитектура
Господь с тобой, п4 прост как тапок.
Как ты смееш сравнивать Великую и Пргресивную Архетектуру с Простым Тапком! Это как минимум Тапки с Подогревом! Добавлено спустя 15 минут, 9 секунд Сморю тут уже заговори о технических аспектах неудачности Р4. Ну скажу и я. Вот почему "прогресивная" NetBurst неудачна:недостаточно быстрый Front-end, неспособный обеспечить больше трех микроопераций за такт; крайне ограниченный набор "быстрых" инструкций, в которых вплоть до ядра Prescott не входила, например, широко используемая простая операция битового сдвига (кстати, даже в Prescott битовый сдвиг поддерживает только одно Fast ALU из двух. Это и ряд других ограничений связаны с оригинальной организацией 32-битного Fast ALU в виде двух "сдвоенных" 16-битных ALU); наличие всего лишь одного (!) блока ALU и одного блока FPU, умеющих работать со "всей остальной" арифметикой (причем целочисленное умножение вплоть до того же Prescott, тоже выполнялось в FPU!); многочисленные штрафные такты, возникающие, например, при обращении к "невыровненным" данным в оперативной памяти; ну и уже упоминавшаяся система реплея. Система реплея вобше отдельная песня: процессор архитектуры NetBurst "тормозит" даже при отсутствии ошибок предсказания - просто в силу того, что несвоевременно запущенные цепочки инструкций приходится переисполнять целиком, вместо того чтобы переисполнить одну-единственную "неудачную" инструкцию. Вдобавок, поскольку исполнительные устройства греются больше всех остальных узлов процессора, то непрерывная прогонка через них потока инструкций, данные для которого не подготовлены, приводит еще и к тому, что процессор не просто "тормозит", а вовсю греется.
Member
Статус: Не в сети Регистрация: 05.11.2003 Откуда: Новосибирск
Obscured
Цитата:
и наверное будет конвейер изменен - может там количество стадий увеличится
А че, кто-то видит проблемы с масштабированием по частоте? Добавлено спустя 3 минуты, 15 секунд Dryden
Цитата:
а как же извраты типа реплая?
И че? А как же извраты типа четырехпортового запуска? Ты хоть подсчитай число исполнительных блоков. Число транзисторов за вычетом конвеера и кэша тоже полезно прикинуть.
_________________ аналоговый сигнал всегда лучше цифрового, ибо он непрерывный, а цифровой - дискретный
Вот-вот - из-за высокой латентности памяти. А почему она высокая? Правильно - из-за индивидуальных встроенных контроллеров и вынужденной организации NUMA системы. В системах с общей памятью таких проблем нет.
NUMA и ИКП хорошо сочетаются но понятия это разные, но если сравнивать с двух процессорной системой с общим доступом к памяти то скорей всего она просела бы еще сильней (смотреть на результаты квада и говорить, что NUMA и ИКП хуже системы с общим доступом к памяти все же нельзя).
_________________ Кратчайшее расстояние между двумя точками это точка.
Для Нюхалема рано еще, а пенрин - шринк с увеличением кэша + minor adjustments.
Эт точно. Ну, кэш увеличат... sse4 добавят... чуток частоты поднимут... переведут на 45нм. техпроцесс. Но, боюсь, и этого хватит, чтобы уверенно противостоять первым K8L. А Нехалем много интереснее, но до него еще дожить надо, пока ничего достоверно неизвестно.
Bones писал(а):
А че, кто-то видит проблемы с масштабированием по частоте?
Это, типа, риторический вопрос? Думаю, что Интелу виднее, так или иначе...
_________________ Цель спора есть изменение природы истины.
Member
Статус: Не в сети Регистрация: 05.11.2003 Откуда: Новосибирск
Obscured Нет, это вопрос на вопрос об удлинении конвеера. Удлинение конвеера имело бы смысл для упрощения задирания частот, но с этим и так проблем нет.
_________________ аналоговый сигнал всегда лучше цифрового, ибо он непрерывный, а цифровой - дискретный
Дык, я-то доживу. А вот какие-нибудь amdfan'ы точно не доживут.)
Bones писал(а):
Удлинение конвеера имело бы смысл для упрощения задирания частот, но с этим и так проблем нет.
Ну, я из этой мысли как раз и исходил, когда задавал вопрос об удлинении конвейера. Но раз есть мнение, что частоты и так хорошо задираются, то пускай конвейер таким же и остается.)
_________________ Цель спора есть изменение природы истины.
Хочу вставить свои 5 копеек по ГТ.
Есть данные что конрой выигрывает в обычных приложениях на 50%. Я считаю что тут 20-30%за счет увеличения шины из кэша команд в порты исполнения.
было 3 стало 4. Хотя тут и сообщалось о том что шина не загружена полностью это натек. Код уже давно и много где за оптимизирован на 4 инструкции за так. Да и переставлен так чтобы была возможность вычислить параллельно. Так что в IPO 1-2 я не верю. Вернее где-то шина неполную загружена а где-то простаивает. Вот шину расширили стало работать гораздо лучше.
ГТ как раз таки и упирался в эту шину. Да только 35% задействовано. Но дело в том что все вычислительные блоки узко специализированны. Поделим на три группы ALU FPU MMX . Для одного потока задействовано только один тип блоков 1/3=33%. Чтобы нагрузить другие нужен другой поток. Причем именно другой который выполняет иную функцию. А откуда он возьмется? В ресурса емком приложении задействованы только ММХ. Так что ГТ тут не сможет получить прирост. В не ресурсоемких это значит однопоточное приложение или двух поточное нагрузка распределиться на два логических процессора и прирост не получиться. Вот в одно ядерной системе ГТ мог бы дать прирост на определенных приложениях. Переписать под такую вещь можно, но я не встречал даже намека. Надо один поток написан под ALU другой под FPU третий под MMX, при этом код выполняет аналогичные действия.
Но в нортвудах подвила архитектура. ГТ не смог пробиться сквозь шину о которой я писал чуть выше. Отсюда и падения производительности чуть ли не в 2 раза.
Мой вердикт. Средняя температура по больнице останется такой же 6% но чуть получше. Хотя если нормально реализует архитектуру, то падения производительности не будет, а прирост на специальных приложениях будет почти 50-90% .
Про NUMA можно забыть 3 канала на 4 или 8 ядер. Смешно, и то только в серверных решениях. Вот в кэше NUMA есть.
Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 30
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения