Member
Статус: Не в сети Регистрация: 17.11.2003 Откуда: Екатеринбург
Вот слегка переделал свой предыдущий бенч Vector by Matrix и получилась эта прога (результаты с Vector by Matrix сравнивать нельзя т.к. там использовались немного читерские вычисления (конкретно шла запись в одну вершину, тогда как должно быть, считывание из одного массива и запись результатов в этот же или новый массив), а теперь все по честному). Пока в текстовом режиме и тестов не так много, но буду выпускать новые версии в которых тестов заметно прибавится (пока планирую добавить перемножение матриц на матрицы, нормализацию вершин, расчет реальных скинниговых моделей, потом возможно сделаю рендер на полный экран в OpenGL где эти меняющиеся модели можно будет увидеть) и сделаю наконец нормальное окошко, а не консоль. Все результаты тестов прежних версий будут сравнимы с новыми версиями, в новых версиях просто будут добавляться новые тесты. Ну а главное - я первый кто задействовал новые математические SSE4 инструкции для 3D-вычислений (в Дивиксе не то, там и 3D-вычислений то нету) пригодные для использования как в 3D-редакторах так и в играх
Последняя версия бенчмарка - 0.11, в ней SSE4 теперь работает нормально. Результаты тестов сравнимы с одноименными тестами предыдущей версии.
А вот мои результаты: Конфиг: Е6420@3.2, 2Gb DDR2-800 4-4-4-12, m/b Asus P5K Pro #77
И еще результаты (можно сравнить что ускорили в Вульфе по сравнению с Конроем, также есть тесты SSE4): Конфиг: Е8200@3.2, 2Gb DDR2-800 4-4-4-12, m/b Asus P5K Pro #77
Еще результаты: Конфиг: Е8200@3.0, 2Gb DDR2-856 4-4-4-12, m/b Asus P5K Pro #77
Жду ваших результатов, особенно интересуют результаты Пенринов (для них будет исполняться дополнительный SSE4 тест) и Феномов. ЗЫ: Чем результаты меньше тем лучше.
_________________ |АМД процы не так уж и плохи|
|Но все-таки Интел лучше|
Последний раз редактировалось BloodyWerewolf 13.04.2008 1:45, всего редактировалось 4 раз(а).
аслон64 х2 3600 512+512 G1 Brisabne 1900mhg 4x 1024 ddr2-667 5-5-5-15-21 1.95v biostar tForce550 Добавлено спустя 1 минуту, 10 секунд хочу заметить что тест не может загрузить на 100% оба ядра проца.... такое чувство что прога вообще не умеет работать с многоядерными процами )=
_________________ У одних нефанатов рожи позеленели, у других рожи посинели. И только у правильных нефанатов рожи красные и довольные.
Member
Статус: Не в сети Регистрация: 17.11.2003 Откуда: Екатеринбург
TheVITALI писал(а):
тест не может загрузить на 100% оба ядра проца
Не умеет, а нафига? Данные вычисления в тех же играх не проводятся одновременно на нескольких ядрах.
frai13 писал(а):
я так понял 1я и 3я строчки:значения чем больше-тем лучше,а 2 и 4я-чем меньше-тем лучше?
Нет - все 4 значения чем меньше тем лучше - первые 1 и 2 (и 3 в случае SSE4) значения сравнимы между собой, а последние 1 и 2 значения (и 3 в случае SSE4) - между собой, т.е. можно сравнить как алгоритм исполняется на стандартном х87 FPU, на SSE и SSE4 (только SSE4 пока не работают оказывается). То же что на Кор 2 так просаживаются х87-вычисления - это не ошибка, прсто там нет делений (которые быстрее на C2D) и кроме того VC++ 2008 на котором компилил оптимизирует код непонятно под что..
Насчет SSE4 - то что алгоритм не работает (судя по результату idea ) это оказалось не моя ошибка, это баг в VC++ 2008 который при наличии в коде SSE4-интринсиков генерит неправильный код, проблему отослал в Микрософт (см. https://connect.microsoft.com/VisualStu ... kID=321501 ) так что возможно этот баг в компилере поправят. Пока могу асм-вариант SSE4-кода написать правда там оптимизация скорей всего будет не очень..
_________________ |АМД процы не так уж и плохи|
|Но все-таки Интел лучше|
Member
Статус: Не в сети Регистрация: 17.11.2003 Откуда: Екатеринбург
Млин, SSE4 все еще не работает.. Придется по каждой инструкции отлаживать, а это значит придется ждать пока Е8200-ые в продаже появятся Зато эффект от ускоренных деления, sqrt и битовых перемещений налицо, правда налицо также эффект сильно просадки от использования Висты в DataInMem тестах - то ли Виста память криво распределяет, то ли еще что (в DataInCache тестах все ок, кеш эта кривая свиста затормозить не может ). Проверю счас у себя в Висте, правда она 64-битная, а это наполовину эмуляция 32-бит кода получается, наверно резалты ниже плинтуса получу
Добавлю еще несколько результатов из другой ветки:
Х2 5200+@3250 МГц, память 930 МГц 5-5-5-18-24
Цитата:
Warning: test must be run on CPU with 512kb L2 cache minimum for c in DataInCache subtests
DataInMem: 4x3 matrices by vecs through x87: 6140 milliseconds 4x3 matrices by vecs through SSE: 6907 milliseconds Normalize vecs through x87: 10406 milliseconds Normalize vecs through SSE: 5094 milliseconds Normalize vecs approximate through SSE: 3172 milliseconds 4x3 matrices by 4x3 matrices through x87: 3937 milliseconds 4x3 matrices by 4x3 matrices through SSE2: 3547 milliseconds
DataInCache: 4x3 matrices by vecs through x87: 3406 milliseconds 4x3 matrices by vecs through SSE: 4125 milliseconds Normalize vecs through x87: 8500 milliseconds Normalize vecs through SSE: 4110 milliseconds Normalize vecs approximate through SSE: 2312 milliseconds 4x3 matrices by 4x3 matrices through x87: 6406 milliseconds 4x3 matrices by 4x3 matrices through SSE2: 5532 milliseconds
Warning: test must be run on CPU with 512kb L2 cache minimum for correct results in DataInCache subtests
Processor: AMD Athlon(tm) 64 Processor 3800+
SSE found SSE2 found SSE4 not found
Press any key to start or Esc to exit...
DataInMem: 4x3 matrices by vecs through x87: 6391 milliseconds 4x3 matrices by vecs through SSE: 7328 milliseconds Normalize vecs through x87: 11250 milliseconds Normalize vecs through SSE: 5500 milliseconds Normalize vecs approximate through SSE: 3297 milliseconds 4x3 matrices by 4x3 matrices through x87: 3938 milliseconds 4x3 matrices by 4x3 matrices through SSE2: 3203 milliseconds
DataInCache: 4x3 matrices by vecs through x87: 3765 milliseconds 4x3 matrices by vecs through SSE: 4500 milliseconds Normalize vecs through x87: 9250 milliseconds Normalize vecs through SSE: 4500 milliseconds Normalize vecs approximate through SSE: 2563 milliseconds 4x3 matrices by 4x3 matrices through x87: 7781 milliseconds 4x3 matrices by 4x3 matrices through SSE2: 6297 milliseconds
Press any key to exit..
ЗЫ: Все еще жду тестов Феномов
_________________ |АМД процы не так уж и плохи|
|Но все-таки Интел лучше|
Member
Статус: Не в сети Регистрация: 17.11.2003 Откуда: Екатеринбург
Alexandr82 писал(а):
Вот так выглядят результаты если тест закрепить жестко за одним ядром
Ну немного получше результаты стали, хотя это не совсем сравнимо с предыдущими резалтами получается. Могу конечно из проги сделать жесткое закрепление за 1 ядром, только не знаю нужно ли - игры не так часто закрепляют основной поток за определенным ядром. Кстати в SSE Феном сливает везде (в том числе и при параллельных SSE(2) вычислениях (перемножение 4х4 матриц с 4х3 матрицами в SSE2)) за исключением нормализации (без аппроксимации) - похоже не зря Интел в 45 нм Кор 2 улучшила блок деления и вычисление sqrt (в нормализации как известно как раз используется sqrt + деление), слив в SSE Фенома уменьшается только когда все данные находятся в L2 кеше, но к сожалению этот кеш очень небольшой и данные могут в него просто не влезть. Хотя радует хотя бы то что SSE на Феноме в любом случае быстрее чем х87 (в отличие от К8) как и должно быть. И еще видно что Интел очень эффективно работает с крупными кусками fp-данных (перемножение матриц) и его даже не так уж сильно тормозят неудобные для него х87 инструкции.
Alexandr82 писал(а):
SSE4 у Phenom этот тест не видит
У него SSE4a, толку от этих инструкций в отличие от SSE4.1 немного, во всяком случае для fp-вычислений они не годятся.
_________________ |АМД процы не так уж и плохи|
|Но все-таки Интел лучше|
Member
Статус: Не в сети Регистрация: 29.10.2003 Откуда: 埼玉、日本 Фото: 9
DataInMem:
4x3 matrices by vecs through x87: 14883 milliseconds
4x3 matrices by vecs through SSE: 5024 milliseconds
Normalize vecs through x87: 12745 milliseconds
Normalize vecs through SSE: 5959 milliseconds
Normalize vecs approximate through SSE: 2433 milliseconds
4x3 matrices by 4x3 matrices through x87: 3838 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 3151 milliseconds
DataInCache:
4x3 matrices by vecs through x87: 9562 milliseconds
4x3 matrices by vecs through SSE: 2699 milliseconds
Normalize vecs through x87: 10483 milliseconds
Normalize vecs through SSE: 4836 milliseconds
Normalize vecs approximate through SSE: 1451 milliseconds
4x3 matrices by 4x3 matrices through x87: 6880 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 2667 milliseconds
Member
Статус: Не в сети Регистрация: 10.08.2007 Откуда: МОСКВА
DataInMem:
4x3 matrices by vecs through x87: 13421 milliseconds
4x3 matrices by vecs through SSE: 4959 milliseconds
Normalize vecs through x87: 11438 milliseconds
Normalize vecs through SSE: 5406 milliseconds
Normalize vecs approximate through SSE: 2406 milliseconds
4x3 matrices by 4x3 matrices through x87: 3609 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 3207 milliseconds
DataInCache:
4x3 matrices by vecs through x87: 8609 milliseconds
4x3 matrices by vecs through SSE: 2406 milliseconds
Normalize vecs through x87: 9391 milliseconds
Normalize vecs through SSE: 4344 milliseconds
Normalize vecs approximate through SSE: 1287 milliseconds
4x3 matrices by 4x3 matrices through x87: 6203 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 2375 milliseconds
Core 2 QUAD 2400@3330
Member
Статус: Не в сети Регистрация: 25.03.2004 Откуда: Москва
DataInMem:
4x3 matrices by vecs through x87: 9500 milliseconds
4x3 matrices by vecs through SSE: 10500 milliseconds
Normalize vecs through x87: 15547 milliseconds
Normalize vecs through SSE: 7671 milliseconds
Normalize vecs approximate through SSE: 4829 milliseconds
4x3 matrices by 4x3 matrices through x87: 5984 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 5406 milliseconds
DataInCache:
4x3 matrices by vecs through x87: 5094 milliseconds
4x3 matrices by vecs through SSE: 6094 milliseconds
Normalize vecs through x87:12609 milliseconds
Normalize vecs through SSE: 6094 milliseconds
Normalize vecs approximate through SSE: 3453 milliseconds
4x3 matrices by 4x3 matrices through x87: 10203 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 8531 milliseconds
Member
Статус: Не в сети Регистрация: 19.01.2004 Откуда: Львов
Цитата:
Warning: test must be run on CPU with 512kb L2 cache minimum for correct results in DataInCache subtests
Processor: Genuine Intel(R) CPU 2160 @ 3.20GHz
SSE found SSE2 found SSE4 not found
Press any key to start or Esc to exit...
DataInMem: 4x3 matrices by vecs through x87: 14156 milliseconds 4x3 matrices by vecs through SSE: 4891 milliseconds Normalize vecs through x87: 13234 milliseconds Normalize vecs through SSE: 5625 milliseconds Normalize vecs approximate through SSE: 2422 milliseconds 4x3 matrices by 4x3 matrices through x87: 3657 milliseconds 4x3 matrices by 4x3 matrices through SSE2: 3218 milliseconds
DataInCache: 4x3 matrices by vecs through x87: 9047 milliseconds 4x3 matrices by vecs through SSE: 2531 milliseconds Normalize vecs through x87: 10579 milliseconds Normalize vecs through SSE: 4578 milliseconds Normalize vecs approximate through SSE: 1359 milliseconds 4x3 matrices by 4x3 matrices through x87: 6656 milliseconds 4x3 matrices by 4x3 matrices through SSE2: 2735 milliseconds
Press any key to exit..
Неплохо...
_________________ Законы глобальной экономики они такие... бандеровские...
Заблокирован Статус: Не в сети Регистрация: 30.05.2006 Откуда: kiev.ua
Вставлю свои 5 копеек, хотя система тоже самое что в первом посте, за исключением таймингов и того что ОС - Виста-32 СП1
E6420@3207MHz; P5K Premium; DDR2-800 4-4-4-8-2
#77 Результаты относительно Kompot мне не очень понятны.. ну надеюсь что все ОК
Сейчас этот форум просматривают: murkok5, Vorvort и гости: 4
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения