Бенчим процессоры в Math3D (есть тесты с использованием SSE4)

Overclockers.ru

Конференция

FAQ по конференции

Текущее время: 13.06.2026 6:09

Сообщения без ответов | Активные темы

Список форумов » Специализированные форумы » Бенчмаркинг

Часовой пояс: UTC + 3 часа

Новая тема /

Ответить

Сообщений: 36 • Страница 1 из 2 • 1 2 >

	Пред. тема \| След. тема
В случае проблем с отображением форума, отключите блокировщик рекламы

Автор

Сообщение

BloodyWerewolf

Добавлено: 08.01.2008 22:59

[профиль]

Member
Статус: Не в сети
Регистрация: 17.11.2003
Откуда: Екатеринбург

Вот слегка переделал свой предыдущий бенч Vector by Matrix и получилась эта прога (результаты с Vector by Matrix сравнивать нельзя т.к. там использовались немного читерские вычисления (конкретно шла запись в одну вершину, тогда как должно быть, считывание из одного массива и запись результатов в этот же или новый массив), а теперь все по честному).
Пока в текстовом режиме и тестов не так много, но буду выпускать новые версии в которых тестов заметно прибавится (пока планирую добавить перемножение матриц на матрицы, нормализацию вершин, расчет реальных скинниговых моделей, потом возможно сделаю рендер на полный экран в OpenGL где эти меняющиеся модели можно будет увидеть) и сделаю наконец нормальное окошко, а не консоль. Все результаты тестов прежних версий будут сравнимы с новыми версиями, в новых версиях просто будут добавляться новые тесты.
Ну а главное - я первый кто задействовал новые математические SSE4 инструкции для 3D-вычислений (в Дивиксе не то, там и 3D-вычислений то нету) пригодные для использования как в 3D-редакторах так и в играх :super:

Последняя версия бенчмарка - 0.11, в ней SSE4 теперь работает нормально. Результаты тестов сравнимы с одноименными тестами предыдущей версии.

Скачать данную прогу можно здесь

А вот мои результаты:
Конфиг: Е6420@3.2, 2Gb DDR2-800 4-4-4-12, m/b Asus P5K Pro
#77

И еще результаты (можно сравнить что ускорили в Вульфе по сравнению с Конроем, также есть тесты SSE4):
Конфиг: Е8200@3.2, 2Gb DDR2-800 4-4-4-12, m/b Asus P5K Pro
#77

Еще результаты:
Конфиг: Е8200@3.0, 2Gb DDR2-856 4-4-4-12, m/b Asus P5K Pro
#77

Жду ваших результатов, особенно интересуют результаты Пенринов (для них будет исполняться дополнительный SSE4 тест) и Феномов.
ЗЫ: Чем результаты меньше тем лучше.

_________________
|АМД процы не так уж и плохи|
|Но все-таки Интел лучше|

Последний раз редактировалось BloodyWerewolf 13.04.2008 1:45, всего редактировалось 4 раз(а).

Реклама
Партнер

Kostu

Добавлено: 08.01.2008 23:30

[профиль]

Junior
Статус: Не в сети
Регистрация: 09.07.2007
Откуда: Днепропетровск

Хоть и написано 512кб кэш, все-таки:
Celeron d320 2.4GHz + 2*512mb DDR400@333@(2.0 3 3 6)
тут, 68 кб

idea

Добавлено: 09.01.2008 1:48

[профиль]

Заблокирован

Статус: Не в сети
Регистрация: 23.01.2007

#77

TheVITALI

Добавлено: 09.01.2008 2:19

[профиль]

Member
Статус: Не в сети
Регистрация: 15.01.2006
Откуда: Минск

http://img232.imageshack..us/img232/6892/matchid0.jpg

аслон64 х2 3600 512+512 G1 Brisabne 1900mhg
4x 1024 ddr2-667 5-5-5-15-21 1.95v
biostar tForce550
Добавлено спустя 1 минуту, 10 секунд
хочу заметить что тест не может загрузить на 100% оба ядра проца.... такое чувство что прога вообще не умеет работать с многоядерными процами )=

_________________
У одних нефанатов рожи позеленели, у других рожи посинели.
И только у правильных нефанатов рожи красные и довольные.

frai13

Добавлено: 09.01.2008 2:29

[профиль]

Member
Статус: Не в сети
Регистрация: 10.08.2007
Откуда: МОСКВА

я так понял 1я и 3я строчки:значения чем больше-тем лучше,а 2 и 4я-чем меньше-тем лучше?

BloodyWerewolf

Добавлено: 09.01.2008 11:32

[профиль]

Member
Статус: Не в сети
Регистрация: 17.11.2003
Откуда: Екатеринбург

TheVITALI писал(а):

тест не может загрузить на 100% оба ядра проца

Не умеет, а нафига? Данные вычисления в тех же играх не проводятся одновременно на нескольких ядрах.

frai13 писал(а):

я так понял 1я и 3я строчки:значения чем больше-тем лучше,а 2 и 4я-чем меньше-тем лучше?

Нет - все 4 значения чем меньше тем лучше - первые 1 и 2 (и 3 в случае SSE4) значения сравнимы между собой, а последние 1 и 2 значения (и 3 в случае SSE4) - между собой, т.е. можно сравнить как алгоритм исполняется на стандартном х87 FPU, на SSE и SSE4 (только SSE4 пока не работают оказывается). То же что на Кор 2 так просаживаются х87-вычисления - это не ошибка, прсто там нет делений (которые быстрее на C2D) и кроме того VC++ 2008 на котором компилил оптимизирует код непонятно под что..
Насчет SSE4 - то что алгоритм не работает (судя по результату idea ) это оказалось не моя ошибка, это баг в VC++ 2008 который при наличии в коде SSE4-интринсиков генерит неправильный код, проблему отослал в Микрософт (см. https://connect.microsoft.com/VisualStu ... kID=321501 ) так что возможно этот баг в компилере поправят. Пока могу асм-вариант SSE4-кода написать правда там оптимизация скорей всего будет не очень..

_________________
|АМД процы не так уж и плохи|
|Но все-таки Интел лучше|

idea

Добавлено: 09.01.2008 22:38

[профиль]

Заблокирован

Статус: Не в сети
Регистрация: 23.01.2007

#77

BloodyWerewolf

Добавлено: 09.01.2008 23:37

[профиль]

Member
Статус: Не в сети
Регистрация: 17.11.2003
Откуда: Екатеринбург

Млин, SSE4 все еще не работает.. Придется по каждой инструкции отлаживать, а это значит придется ждать пока Е8200-ые в продаже появятся

Зато эффект от ускоренных деления, sqrt и битовых перемещений налицо, правда налицо также эффект сильно просадки от использования Висты в DataInMem тестах - то ли Виста память криво распределяет, то ли еще что (в DataInCache тестах все ок, кеш эта кривая свиста затормозить не может

). Проверю счас у себя в Висте, правда она 64-битная, а это наполовину эмуляция 32-бит кода получается, наверно резалты ниже плинтуса получу

Добавлю еще несколько результатов из другой ветки:

Х2 5200+@3250 МГц, память 930 МГц 5-5-5-18-24

Цитата:

Warning: test must be run on CPU with 512kb L2 cache minimum for c
in DataInCache subtests

Processor: AMD Athlon(tm) 64 X2 Dual Core Processor 5200+

SSE found
SSE2 found
SSE4 not found

Press any key to start or Esc to exit...

DataInMem:
4x3 matrices by vecs through x87: 6140 milliseconds
4x3 matrices by vecs through SSE: 6907 milliseconds
Normalize vecs through x87: 10406 milliseconds
Normalize vecs through SSE: 5094 milliseconds
Normalize vecs approximate through SSE: 3172 milliseconds
4x3 matrices by 4x3 matrices through x87: 3937 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 3547 milliseconds

DataInCache:
4x3 matrices by vecs through x87: 3406 milliseconds
4x3 matrices by vecs through SSE: 4125 milliseconds
Normalize vecs through x87: 8500 milliseconds
Normalize vecs through SSE: 4110 milliseconds
Normalize vecs approximate through SSE: 2312 milliseconds
4x3 matrices by 4x3 matrices through x87: 6406 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 5532 milliseconds

Press any key to exit..

и еще

Athlon 64 3800+ (250x12=3,0ГГц), Biostar TForce570U, память 4x1024 Hynix AB-T 1000 5-4-4-4-11-2T

Цитата:

Warning: test must be run on CPU with 512kb L2 cache minimum for correct results
in DataInCache subtests

Processor: AMD Athlon(tm) 64 Processor 3800+

SSE found
SSE2 found
SSE4 not found

Press any key to start or Esc to exit...

DataInMem:
4x3 matrices by vecs through x87: 6391 milliseconds
4x3 matrices by vecs through SSE: 7328 milliseconds
Normalize vecs through x87: 11250 milliseconds
Normalize vecs through SSE: 5500 milliseconds
Normalize vecs approximate through SSE: 3297 milliseconds
4x3 matrices by 4x3 matrices through x87: 3938 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 3203 milliseconds

DataInCache:
4x3 matrices by vecs through x87: 3765 milliseconds
4x3 matrices by vecs through SSE: 4500 milliseconds
Normalize vecs through x87: 9250 milliseconds
Normalize vecs through SSE: 4500 milliseconds
Normalize vecs approximate through SSE: 2563 milliseconds
4x3 matrices by 4x3 matrices through x87: 7781 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 6297 milliseconds

Press any key to exit..

ЗЫ: Все еще жду тестов Феномов

_________________
|АМД процы не так уж и плохи|
|Но все-таки Интел лучше|

Alexandr82

Добавлено: 10.01.2008 5:20

[профиль]

Member
Статус: Не в сети
Регистрация: 18.02.2005

Вот Phenom на частоте 2,4ГГц
#77

PS: BloodyWerewolf между прочим твоя подпись в сообщениях нарушает пункт 3.16 Правил конференции

_________________
Гробы разработчиков надо делать круглыми, чтоб переворачиваться было удобно!

BloodyWerewolf

Добавлено: 10.01.2008 16:12

[профиль]

Member
Статус: Не в сети
Регистрация: 17.11.2003
Откуда: Екатеринбург

Alexandr82 писал(а):

Вот Phenom на частоте 2,4ГГц

Ну наконец

Вот кстати результаты Е6420 на такой же частоте для сравнения в Висте х64 (бенч-32 бит поэтому в 64-бит системе ускорения не получает).

Alexandr82 писал(а):

между прочим твоя подпись в сообщениях нарушает пункт 3.16 Правил конференции

Посмотрю, может сменю..

_________________
|АМД процы не так уж и плохи|
|Но все-таки Интел лучше|

Alexandr82

Добавлено: 10.01.2008 20:56

[профиль]

Member
Статус: Не в сети
Регистрация: 18.02.2005

А SSE4 у Phenom этот тест не видит
Добавлено спустя 12 минут, 47 секунд
Вот так выглядят результаты если тест закрепить жестко за одним ядром
#77

_________________
Гробы разработчиков надо делать круглыми, чтоб переворачиваться было удобно!

BloodyWerewolf

Добавлено: 10.01.2008 22:28

[профиль]

Member
Статус: Не в сети
Регистрация: 17.11.2003
Откуда: Екатеринбург

Alexandr82 писал(а):

Вот так выглядят результаты если тест закрепить жестко за одним ядром

Ну немного получше результаты стали, хотя это не совсем сравнимо с предыдущими резалтами получается. Могу конечно из проги сделать жесткое закрепление за 1 ядром, только не знаю нужно ли - игры не так часто закрепляют основной поток за определенным ядром.
Кстати в SSE Феном сливает везде (в том числе и при параллельных SSE(2) вычислениях (перемножение 4х4 матриц с 4х3 матрицами в SSE2)) за исключением нормализации (без аппроксимации) - похоже не зря Интел в 45 нм Кор 2 улучшила блок деления и вычисление sqrt (в нормализации как известно как раз используется sqrt + деление), слив в SSE Фенома уменьшается только когда все данные находятся в L2 кеше, но к сожалению этот кеш очень небольшой и данные могут в него просто не влезть. Хотя радует хотя бы то что SSE на Феноме в любом случае быстрее чем х87 (в отличие от К8) как и должно быть. И еще видно что Интел очень эффективно работает с крупными кусками fp-данных (перемножение матриц) и его даже не так уж сильно тормозят неудобные для него х87 инструкции.

Alexandr82 писал(а):

SSE4 у Phenom этот тест не видит

У него SSE4a, толку от этих инструкций в отличие от SSE4.1 немного, во всяком случае для fp-вычислений они не годятся.

_________________
|АМД процы не так уж и плохи|
|Но все-таки Интел лучше|

BloodyWerewolf

Добавлено: 11.01.2008 16:42

[профиль]

Member
Статус: Не в сети
Регистрация: 17.11.2003
Откуда: Екатеринбург

А вот еще результаты:

Конфиг: ноут LG LM50-T777, Celeron M 370 1.5ггц (Dothan, 1mb cache), 512Mb DDR333 2.5-3-3-7
#77

_________________
|АМД процы не так уж и плохи|
|Но все-таки Интел лучше|

Zio

Добавлено: 11.01.2008 18:58

[профиль] [Фотоальбом]

Member
Статус: Не в сети
Регистрация: 29.10.2003
Откуда: 埼玉、日本
Фото: 9

DataInMem:
4x3 matrices by vecs through x87: 14883 milliseconds
4x3 matrices by vecs through SSE: 5024 milliseconds
Normalize vecs through x87: 12745 milliseconds
Normalize vecs through SSE: 5959 milliseconds
Normalize vecs approximate through SSE: 2433 milliseconds
4x3 matrices by 4x3 matrices through x87: 3838 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 3151 milliseconds

DataInCache:
4x3 matrices by vecs through x87: 9562 milliseconds
4x3 matrices by vecs through SSE: 2699 milliseconds
Normalize vecs through x87: 10483 milliseconds
Normalize vecs through SSE: 4836 milliseconds
Normalize vecs approximate through SSE: 1451 milliseconds
4x3 matrices by 4x3 matrices through x87: 6880 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 2667 milliseconds

Core 2 Quad G0 2.4@3.0/DDR2-800 5-5-5-15/Vista x64

frai13

Добавлено: 11.01.2008 19:33

[профиль]

Member
Статус: Не в сети
Регистрация: 10.08.2007
Откуда: МОСКВА

DataInMem:
4x3 matrices by vecs through x87: 13421 milliseconds
4x3 matrices by vecs through SSE: 4959 milliseconds
Normalize vecs through x87: 11438 milliseconds
Normalize vecs through SSE: 5406 milliseconds
Normalize vecs approximate through SSE: 2406 milliseconds
4x3 matrices by 4x3 matrices through x87: 3609 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 3207 milliseconds

DataInCache:
4x3 matrices by vecs through x87: 8609 milliseconds
4x3 matrices by vecs through SSE: 2406 milliseconds
Normalize vecs through x87: 9391 milliseconds
Normalize vecs through SSE: 4344 milliseconds
Normalize vecs approximate through SSE: 1287 milliseconds
4x3 matrices by 4x3 matrices through x87: 6203 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 2375 milliseconds
Core 2 QUAD 2400@3330

Lerou

Добавлено: 12.01.2008 17:42

[профиль]

Member
Статус: Не в сети
Регистрация: 25.03.2004
Откуда: Москва

DataInMem:
4x3 matrices by vecs through x87: 9500 milliseconds
4x3 matrices by vecs through SSE: 10500 milliseconds
Normalize vecs through x87: 15547 milliseconds
Normalize vecs through SSE: 7671 milliseconds
Normalize vecs approximate through SSE: 4829 milliseconds
4x3 matrices by 4x3 matrices through x87: 5984 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 5406 milliseconds

DataInCache:
4x3 matrices by vecs through x87: 5094 milliseconds
4x3 matrices by vecs through SSE: 6094 milliseconds
Normalize vecs through x87:12609 milliseconds
Normalize vecs through SSE: 6094 milliseconds
Normalize vecs approximate through SSE: 3453 milliseconds
4x3 matrices by 4x3 matrices through x87: 10203 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 8531 milliseconds

Dual Core AMD Opteron 165@2250 DDR 400 3-3-3-8/Vista x32

_________________
Каждый человек прекрасен, пока не докажет обратного

lochy

Добавлено: 20.01.2008 0:46

[профиль]

Member
Статус: Не в сети
Регистрация: 19.01.2004
Откуда: Львов

Цитата:

Warning: test must be run on CPU with 512kb L2 cache minimum for correct results
in DataInCache subtests

Processor: Genuine Intel(R) CPU 2160 @ 3.20GHz

SSE found
SSE2 found
SSE4 not found

Press any key to start or Esc to exit...

DataInMem:
4x3 matrices by vecs through x87: 14156 milliseconds
4x3 matrices by vecs through SSE: 4891 milliseconds
Normalize vecs through x87: 13234 milliseconds
Normalize vecs through SSE: 5625 milliseconds
Normalize vecs approximate through SSE: 2422 milliseconds
4x3 matrices by 4x3 matrices through x87: 3657 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 3218 milliseconds

DataInCache:
4x3 matrices by vecs through x87: 9047 milliseconds
4x3 matrices by vecs through SSE: 2531 milliseconds
Normalize vecs through x87: 10579 milliseconds
Normalize vecs through SSE: 4578 milliseconds
Normalize vecs approximate through SSE: 1359 milliseconds
4x3 matrices by 4x3 matrices through x87: 6656 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 2735 milliseconds

Press any key to exit..

Неплохо...

_________________
Законы глобальной экономики они такие... бандеровские...

Kompot

Добавлено: 23.02.2008 17:29

[профиль]

Junior
Статус: Не в сети
Регистрация: 14.12.2006
Откуда: Харьков

Цитата:

Processor: AMD Athlon(tm) 64 X2 Dual Core Processor 6400+

SSE found
SSE2 found
SSE4 not found

Press any key to start or Esc to exit...

DataInMem:
4x3 matrices by vecs through x87: 6427 milliseconds
4x3 matrices by vecs through SSE: 7160 milliseconds
Normalize vecs through x87: 10639 milliseconds
Normalize vecs through SSE: 5210 milliseconds
Normalize vecs approximate through SSE: 3292 milliseconds
4x3 matrices by 4x3 matrices through x87: 4165 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 3666 milliseconds
sorting floats: 20919 milliseconds

DataInCache:
4x3 matrices by vecs through x87: 3526 milliseconds
4x3 matrices by vecs through SSE: 4149 milliseconds
Normalize vecs through x87: 8611 milliseconds
Normalize vecs through SSE: 4181 milliseconds
Normalize vecs approximate through SSE: 2371 milliseconds
4x3 matrices by 4x3 matrices through x87: 6911 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 5631 milliseconds
sorting floats: 10108 milliseconds

X2 6400+ 3200Mhz/2x1Gb Hynix 800Mhz 5-5-5-18-2T

lndeo

Добавлено: 12.03.2008 23:49

[профиль]

Заблокирован

Статус: Не в сети
Регистрация: 30.05.2006
Откуда: kiev.ua

Вставлю свои 5 копеек, хотя система тоже самое что в первом посте, за исключением таймингов и того что ОС - Виста-32 СП1
E6420@3207MHz; P5K Premium; DDR2-800 4-4-4-8-2
#77
Результаты относительно Kompot мне не очень понятны.. ну надеюсь что все ОК

Новая тема /

Ответить

Сообщений: 36 • Страница 1 из 2 • 1 2 >

Список форумов » Специализированные форумы » Бенчмаркинг

Часовой пояс: UTC + 3 часа

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 3

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Перейти: