Часовой пояс: UTC + 3 часа




Форум закрыт Новая тема / Эта тема закрыта, вы не можете редактировать и оставлять сообщения в ней. Закрыто  Сообщений: 92 • Страница 5 из 5<  1  2  3  4  5
  Пред. тема | След. тема 
В случае проблем с отображением форума, отключите блокировщик рекламы
Автор Сообщение
 
Прилепленное (важное) сообщение

роБОТяга
Статус: Не в сети
Регистрация: 05.07.2005
Ждём Ваших отзывов о материале.
Соблюдение Правил конференции строго обязательно!
Флуд, флейм и оффтоп преследуются по всей строгости закона!



Партнер
 

Member
Статус: Не в сети
Регистрация: 25.03.2005
Откуда: МО
Bones писал(а):
Dryden
Цитата:
Сложная архитектура
Господь с тобой, п4 прост как тапок. Ты хоть сравни хотя бы с к7.
а как же извраты типа реплая?

_________________
Обзоры фильмов без спойлеров на okolnica.ru


 

Member
Статус: Не в сети
Регистрация: 01.03.2007
Откуда: Київ
TyyOx91 писал(а):
linuxdrom писал(а):
В системах с общей памятью таких проблем нет, по тому что латентность там всегда высокая.

На самом деле, разница не слишком большая, а в двухсокетных конфигурациях разница совсем нивилируется (в систем с общей памятью латентность всегда постоянная):
#77
В 4-сокетных конфигах, в системах на Оптеронах латентность уже будет хуже чем у Зионов. Ну, а про 8-сокетные уже и подумать страшно (видимо поэтому на них, извиняюсь, "забили"...)

Ваша диаграмка доказывает что у двухсокетной системы с ИКП латентность такая же как на односокетной без ИКП, что как минимум не плохо.
А в серверах :#77
И не стоит забывать что в систем с общей памятью постояна не только латентность но и пропускная способность:#77

На 8-сокетные забила не только АMD, но Интел(исключение 8-процессорные системы с CPU Intel выполнены на базе расширенной версии чипсета E8870 (с дополнительной микросхемой 8870SP) и платформы Itanium 2. Однако «8-way» по версии Intel нельзя назвать «чистой» SMP-моделью – скорее, это кластер с использованием внутреннего скоростного интерфейса для соединения двух серверов с чипсетами E8870). Только если АMD и за латентности, то Интел и за пропускной способности подсистемы памяти. И с латентностю легче ужится (вспоминаем кластеры), чем с нехваткой пропускной способности.

Цитата:
Цитата:
NUMA предназначена для серверов, а на нормальных серверах и так всё оптимизируют. Поэтому NUMA никаких проблем там не создает, а преимущества имеет явные. Поэтому глупость сказали Вы. PS. Без обид. Частично в Вашем заблуждении виновата AMD, котроя прозиционирует Quad FX как игровую платформу, хотя намного логичней что Quad FX ближе к рабочим станциям.

Я не заблуждаюсь в отношении NUMA, и не отрицаю её "нужность" для серверов, как вы, видимо, подумали. Просто у медали есть две стороны - помните с чего началось? "Не-костыль эта фитча которая не мешает" - я привёл пример, что даже такая полезная фитча, как ИКП - тоже иногда мешает.

Но ваш пример не является корректным как мешает не ИКП, а все таки NUMA (отделяем мух от котлет), и мешает NUMA в сфере, для которой она непредназначена. Представим что Интел бы здела такую же глпость как AMD, и представила серверное решение в качесве игрового. Тогда по вашему принципу мешала б FB-DIMM где латентсть очень высока, причём там чем болше модулей памяти, тем больше латентсть.
Цитата:
Цитата:
Я уже обращал внимание на то, что без NUMA и интегрированного контроллера, было б ещё хуже, чем в тех случаёв когда мы получаем "проседание"

NUMA - это "вещь" хорошая... если используемому софту о ней "известно". Если нет - то страдает не только производительность однопоточных программ, но и scalability на многопоточных.

В сфере применения NUMA (сервера) одпоточный и не знающий о NUMA софт большая редкось, однако для какого софта есть Node Interleave.
Добавлено спустя 6 минут, 15 секунд
Bones писал(а):
Dryden
Цитата:
Сложная архитектура
Господь с тобой, п4 прост как тапок.

Как ты смееш сравнивать Великую и Пргресивную Архетектуру с Простым Тапком! Это как минимум Тапки с Подогревом! :)
Добавлено спустя 15 минут, 9 секунд
Сморю тут уже заговори о технических аспектах неудачности Р4. Ну скажу и я. Вот почему "прогресивная" NetBurst неудачна:недостаточно быстрый Front-end, неспособный обеспечить больше трех микроопераций за такт; крайне ограниченный набор "быстрых" инструкций, в которых вплоть до ядра Prescott не входила, например, широко используемая простая операция битового сдвига (кстати, даже в Prescott битовый сдвиг поддерживает только одно Fast ALU из двух. Это и ряд других ограничений связаны с оригинальной организацией 32-битного Fast ALU в виде двух "сдвоенных" 16-битных ALU); наличие всего лишь одного (!) блока ALU и одного блока FPU, умеющих работать со "всей остальной" арифметикой (причем целочисленное умножение вплоть до того же Prescott, тоже выполнялось в FPU!); многочисленные штрафные такты, возникающие, например, при обращении к "невыровненным" данным в оперативной памяти; ну и уже упоминавшаяся система реплея. Система реплея вобше отдельная песня: процессор архитектуры NetBurst "тормозит" даже при отсутствии ошибок предсказания - просто в силу того, что несвоевременно запущенные цепочки инструкций приходится переисполнять целиком, вместо того чтобы переисполнить одну-единственную "неудачную" инструкцию. Вдобавок, поскольку исполнительные устройства греются больше всех остальных узлов процессора, то непрерывная прогонка через них потока инструкций, данные для которого не подготовлены, приводит еще и к тому, что процессор не просто "тормозит", а вовсю греется.


 

Member
Статус: Не в сети
Регистрация: 05.11.2003
Откуда: Новосибирск
Obscured
Цитата:
и наверное будет конвейер изменен - может там количество стадий увеличится
А че, кто-то видит проблемы с масштабированием по частоте?
Добавлено спустя 3 минуты, 15 секунд
Dryden
Цитата:
а как же извраты типа реплая?
И че? А как же извраты типа четырехпортового запуска? Ты хоть подсчитай число исполнительных блоков. Число транзисторов за вычетом конвеера и кэша тоже полезно прикинуть.

_________________
аналоговый сигнал всегда лучше цифрового, ибо он непрерывный, а цифровой - дискретный :D


 

Member
Статус: Не в сети
Регистрация: 25.03.2005
Откуда: МО
блин, я тут вижу шарящие чуваки собрались :D
Мож тада обсудим по теме Нюхалем и Пеньрун?

_________________
Обзоры фильмов без спойлеров на okolnica.ru


 

Member
Статус: Не в сети
Регистрация: 05.11.2003
Откуда: Новосибирск
А че обсуждать? Для Нюхалема рано еще, а пенрин - шринк с увеличением кэша + minor adjustments.

_________________
аналоговый сигнал всегда лучше цифрового, ибо он непрерывный, а цифровой - дискретный :D


 

Member
Статус: Не в сети
Регистрация: 08.06.2006
TyyOx91 писал(а):
Вот-вот - из-за высокой латентности памяти. А почему она высокая? Правильно - из-за индивидуальных встроенных контроллеров и вынужденной организации NUMA системы. В системах с общей памятью таких проблем нет.

NUMA и ИКП хорошо сочетаются но понятия это разные, но если сравнивать с двух процессорной системой с общим доступом к памяти то скорей всего она просела бы еще сильней (смотреть на результаты квада и говорить, что NUMA и ИКП хуже системы с общим доступом к памяти все же нельзя).

_________________
Кратчайшее расстояние между двумя точками это точка.


 

Member
Статус: Не в сети
Регистрация: 14.01.2007
Bones писал(а):
Для Нюхалема рано еще, а пенрин - шринк с увеличением кэша + minor adjustments.

Эт точно. Ну, кэш увеличат... sse4 добавят... чуток частоты поднимут... переведут на 45нм. техпроцесс. Но, боюсь, и этого хватит, чтобы уверенно противостоять первым K8L. А Нехалем много интереснее, но до него еще дожить надо, пока ничего достоверно неизвестно.
Bones писал(а):
А че, кто-то видит проблемы с масштабированием по частоте?

Это, типа, риторический вопрос? Думаю, что Интелу виднее, так или иначе...

_________________
Цель спора есть изменение природы истины.


 

Member
Статус: Не в сети
Регистрация: 05.11.2003
Откуда: Новосибирск
Obscured Нет, это вопрос на вопрос об удлинении конвеера. Удлинение конвеера имело бы смысл для упрощения задирания частот, но с этим и так проблем нет.

_________________
аналоговый сигнал всегда лучше цифрового, ибо он непрерывный, а цифровой - дискретный :D


 

Member
Статус: Не в сети
Регистрация: 12.02.2005
Обкуренный писал(а):
до него еще дожить надо, пока ничего достоверно неизвестно

Да, неизвестно доживёшь ты до него или нет. :D


 

Member
Статус: Не в сети
Регистрация: 05.11.2003
Откуда: Новосибирск
Obscured Ну вообще в пенрине будут не только инструкции и кэш, кое-что и более серьезное есть.
Добавлено спустя 1 минуту, 27 секунд
Предположительно :)

_________________
аналоговый сигнал всегда лучше цифрового, ибо он непрерывный, а цифровой - дискретный :D


 

Member
Статус: Не в сети
Регистрация: 14.01.2007
Lord Violator писал(а):
Да, неизвестно доживёшь ты до него или нет.

Дык, я-то доживу. А вот какие-нибудь amdfan'ы точно не доживут.)
Bones писал(а):
Удлинение конвеера имело бы смысл для упрощения задирания частот, но с этим и так проблем нет.

Ну, я из этой мысли как раз и исходил, когда задавал вопрос об удлинении конвейера. Но раз есть мнение, что частоты и так хорошо задираются, то пускай конвейер таким же и остается.)

_________________
Цель спора есть изменение природы истины.


 

Хочу вставить свои 5 копеек по ГТ.
Есть данные что конрой выигрывает в обычных приложениях на 50%. Я считаю что тут 20-30%за счет увеличения шины из кэша команд в порты исполнения.
было 3 стало 4. Хотя тут и сообщалось о том что шина не загружена полностью это натек. Код уже давно и много где за оптимизирован на 4 инструкции за так. Да и переставлен так чтобы была возможность вычислить параллельно. Так что в IPO 1-2 я не верю. Вернее где-то шина неполную загружена а где-то простаивает. Вот шину расширили стало работать гораздо лучше.

ГТ как раз таки и упирался в эту шину. Да только 35% задействовано. Но дело в том что все вычислительные блоки узко специализированны. Поделим на три группы ALU FPU MMX . Для одного потока задействовано только один тип блоков 1/3=33%. Чтобы нагрузить другие нужен другой поток. Причем именно другой который выполняет иную функцию. А откуда он возьмется? В ресурса емком приложении задействованы только ММХ. Так что ГТ тут не сможет получить прирост. В не ресурсоемких это значит однопоточное приложение или двух поточное нагрузка распределиться на два логических процессора и прирост не получиться. Вот в одно ядерной системе ГТ мог бы дать прирост на определенных приложениях. Переписать под такую вещь можно, но я не встречал даже намека. Надо один поток написан под ALU другой под FPU третий под MMX, при этом код выполняет аналогичные действия.
Но в нортвудах подвила архитектура. ГТ не смог пробиться сквозь шину о которой я писал чуть выше. Отсюда и падения производительности чуть ли не в 2 раза.

Мой вердикт. Средняя температура по больнице останется такой же 6% но чуть получше. Хотя если нормально реализует архитектуру, то падения производительности не будет, а прирост на специальных приложениях будет почти 50-90% .

Про NUMA можно забыть 3 канала на 4 или 8 ядер. Смешно, и то только в серверных решениях. Вот в кэше NUMA есть.


Показать сообщения за:  Поле сортировки  
Форум закрыт Новая тема / Эта тема закрыта, вы не можете редактировать и оставлять сообщения в ней. Закрыто  Сообщений: 92 • Страница 5 из 5<  1  2  3  4  5
-

Часовой пояс: UTC + 3 часа


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 30


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Перейти:  
Создано на основе phpBB® Forum Software © phpBB Group
Русская поддержка phpBB | Kolobok smiles © Aiwan