Бенчим процессоры в Math3D (есть тесты с использованием SSE4)

Overclockers.ru

Конференция

FAQ по конференции

Текущее время: 16.07.2026 2:20

Сообщения без ответов | Активные темы

Список форумов » Специализированные форумы » Бенчмаркинг

Часовой пояс: UTC + 3 часа

Новая тема /

Ответить

Сообщений: 36 • Страница 2 из 2 • < 1 2

	Пред. тема \| След. тема
В случае проблем с отображением форума, отключите блокировщик рекламы

Автор

Сообщение

BloodyWerewolf

Добавлено: 08.01.2008 22:59

[профиль]

Member
Статус: Не в сети
Регистрация: 17.11.2003
Откуда: Екатеринбург

Вот слегка переделал свой предыдущий бенч Vector by Matrix и получилась эта прога (результаты с Vector by Matrix сравнивать нельзя т.к. там использовались немного читерские вычисления (конкретно шла запись в одну вершину, тогда как должно быть, считывание из одного массива и запись результатов в этот же или новый массив), а теперь все по честному).
Пока в текстовом режиме и тестов не так много, но буду выпускать новые версии в которых тестов заметно прибавится (пока планирую добавить перемножение матриц на матрицы, нормализацию вершин, расчет реальных скинниговых моделей, потом возможно сделаю рендер на полный экран в OpenGL где эти меняющиеся модели можно будет увидеть) и сделаю наконец нормальное окошко, а не консоль. Все результаты тестов прежних версий будут сравнимы с новыми версиями, в новых версиях просто будут добавляться новые тесты.
Ну а главное - я первый кто задействовал новые математические SSE4 инструкции для 3D-вычислений (в Дивиксе не то, там и 3D-вычислений то нету) пригодные для использования как в 3D-редакторах так и в играх :super:

Последняя версия бенчмарка - 0.11, в ней SSE4 теперь работает нормально. Результаты тестов сравнимы с одноименными тестами предыдущей версии.

Скачать данную прогу можно здесь

А вот мои результаты:
Конфиг: Е6420@3.2, 2Gb DDR2-800 4-4-4-12, m/b Asus P5K Pro
#77

И еще результаты (можно сравнить что ускорили в Вульфе по сравнению с Конроем, также есть тесты SSE4):
Конфиг: Е8200@3.2, 2Gb DDR2-800 4-4-4-12, m/b Asus P5K Pro
#77

Еще результаты:
Конфиг: Е8200@3.0, 2Gb DDR2-856 4-4-4-12, m/b Asus P5K Pro
#77

Жду ваших результатов, особенно интересуют результаты Пенринов (для них будет исполняться дополнительный SSE4 тест) и Феномов.
ЗЫ: Чем результаты меньше тем лучше.

_________________
|АМД процы не так уж и плохи|
|Но все-таки Интел лучше|

Последний раз редактировалось BloodyWerewolf 13.04.2008 1:45, всего редактировалось 4 раз(а).

Реклама
Партнер

moty

Добавлено: 13.03.2008 0:14

[профиль]

Member
Статус: Не в сети
Регистрация: 09.04.2006

Программа выдаёт такое гигантское количество результатов что сравнивать процессоры между собой просто невозможно....
Q6600 @ 3150 мхз 1050 мхз память, тайминги 555 16

DataInMem:
4x3 matrices by vecs through x87: 14469 milliseconds
4x3 matrices by vecs through SSE: 5172 milliseconds
Normalize vecs through x87: 12375 milliseconds
Normalize vecs through SSE: 5765 milliseconds
Normalize vecs approximate through SSE: 2579 milliseconds
4x3 matrices by 4x3 matrices through x87: 3718 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 3438 milliseconds
sorting floats: 16517 milliseconds

DataInCache:
4x3 matrices by vecs through x87: 9156 milliseconds
4x3 matrices by vecs through SSE: 2578 milliseconds
Normalize vecs through x87: 10063 milliseconds
Normalize vecs through SSE: 4687 milliseconds
Normalize vecs approximate through SSE: 1375 milliseconds
4x3 matrices by 4x3 matrices through x87: 6641 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 2547 milliseconds
sorting floats: 8173 milliseconds

Press any key to exit..

_________________
Библиотеки Windows - Мы заставим ваши папки тормозить!

BloodyWerewolf

Добавлено: 15.03.2008 23:22

[профиль]

Member
Статус: Не в сети
Регистрация: 17.11.2003
Откуда: Екатеринбург

moty писал(а):

Программа выдаёт такое гигантское количество результатов что сравнивать процессоры между собой просто невозможно....

Ок, учту, сделаю потом общий рейтинг, возможно еще многопоточность наконец приделаю.
Кстати если кто-нидь подкинет качественную скиннинговую 3D максовую модель чела с приделанными костями и настроенными вершинами могу сделать дополнительный тест в котором будет проводится рендеринг нескольких сотен этих моделей (с софтовым скиннингом) и замерение производительности таким образом. Правда не уверен что зависимости от видео не будет.

_________________
|АМД процы не так уж и плохи|
|Но все-таки Интел лучше|

lndeo

Добавлено: 16.03.2008 16:10

[профиль]

Заблокирован

Статус: Не в сети
Регистрация: 30.05.2006
Откуда: kiev.ua

Возможно, идиоцкий вопрос, но всеже.. Не планируется сделать бенч в режиме х64?
Для Линпака (у меня лично) это дает прирост почти в полтора раза..

_________________
Да пребудет с вами Intel©
Заказ в США и Украине - http://indeo.com.ua и ICQ183880

BloodyWerewolf

Добавлено: 17.03.2008 1:34

[профиль]

Member
Статус: Не в сети
Регистрация: 17.11.2003
Откуда: Екатеринбург

lndeo писал(а):

Не планируется сделать бенч в режиме х64

Ну попробовать можно конечно, только не думаю что тут прирост заметный будет. В линпаке возможно все числа в итерации не влазят в 8 SSE-регистров (и происходит избыточное копирование в стек), а в х64 режиме уже 16 SSE-регистров и там влазят. Но тут у меня алгоритмы написаны таким образом что им и 8 SSE регистров за глаза.
Хотя вот тест со скиннингом (см. предыдущий пост) на 64 битах думается был бы заметно быстрей 32..

_________________
|АМД процы не так уж и плохи|
|Но все-таки Интел лучше|

lndeo

Добавлено: 17.03.2008 5:26

[профиль]

Заблокирован

Статус: Не в сети
Регистрация: 30.05.2006
Откуда: kiev.ua

BloodyWerewolf 1000 скелетов? Да, интересно былобы взглянуть..

_________________
Да пребудет с вами Intel©
Заказ в США и Украине - http://indeo.com.ua и ICQ183880

Alexandr82

Добавлено: 24.04.2008 12:42

[профиль]

Member
Статус: Не в сети
Регистрация: 18.02.2005

К стати ваш бенчмарк использует второй блок SSE в процессорах Phenom?

_________________
Гробы разработчиков надо делать круглыми, чтоб переворачиваться было удобно!

BloodyWerewolf

Добавлено: 01.05.2008 17:01

[профиль]

Member
Статус: Не в сети
Регистрация: 17.11.2003
Откуда: Екатеринбург

Alexandr82 писал(а):

бенчмарк использует второй блок SSE в процессорах Phenom?

А как он может его не использовать? Нет никаких специальных инструкций для включения/отключения какого либо блока.

_________________
|АМД процы не так уж и плохи|
|Но все-таки Интел лучше|

Alexandr82

Добавлено: 04.05.2008 23:07

[профиль]

Member
Статус: Не в сети
Регистрация: 18.02.2005

BloodyWerewolf писал(а):

А как он может его не использовать?

Также как старые приложения другие ядра не используют у многоядерных процессоров. Если бы использовал, то было бы видно по результатам относительно Athlon64. Все же с двумя операциями за такт однозначно должно быть быстрее чем с одной.

BloodyWerewolf

Добавлено: 05.05.2008 13:59

[профиль]

Member
Статус: Не в сети
Регистрация: 17.11.2003
Откуда: Екатеринбург

Да ну, чушь несешь сплошную, спроси у Hertz'а он подтвердит. Нету никакого второго блока - FPU у Феников 128-битный также как и у Коры. Сравни результаты теста SSE2 (там как раз векторные инструкции используются) на Х2 (с его 64-битным FPU) и на Фенике - разница на равной частоте практически в 2 раза что указывает на то что 128-битный FPU задействуется полностью.

_________________
|АМД процы не так уж и плохи|
|Но все-таки Интел лучше|

Alexandr82

Добавлено: 05.05.2008 23:16

[профиль]

Member
Статус: Не в сети
Регистрация: 18.02.2005

BloodyWerewolf писал(а):

Нету никакого второго блока - FPU у Феников 128-битный также как и у Коры.

Только у Phenom он может выполнять две 128-битные операции за такт. A64 может выполнять одну 128-битную разбивая ее на две 64-битные.

_________________
Гробы разработчиков надо делать круглыми, чтоб переворачиваться было удобно!

BloodyWerewolf

Добавлено: 06.05.2008 10:58

[профиль]

Member
Статус: Не в сети
Регистрация: 17.11.2003
Откуда: Екатеринбург

Alexandr82 писал(а):

Только у Phenom он может выполнять две 128-битные операции за такт.

Не надоело еще чушь нести? Вот тебе из официального амдшного документа 40546.pdf (Software Optimization Guide for AMD Family 10h Processors):

Цитата:

Previous AMD64 processors supported 64-bit floating-point execution units. The new AMD Family 10h processors add support for 128-bit floating-point execution units. As a result, the throughput of both single-precision and double-precision floating-point SSEx vector operations has improved by 2X over the previous generation of AMD processors.

- т.е. макс. прирост в SSE(2/3) FPU операциях по сравнению с К8 составил 2 раза, а вовсе не 4 как ты пытаешься тут представить.

_________________
|АМД процы не так уж и плохи|
|Но все-таки Интел лучше|

Jourjine

Добавлено: 06.05.2008 22:14

Е8400 пашет с шиной 515*8 = 4120 Мгц

Код:

Processor: Intel(R) Core(TM)2 Duo CPU     E8400  @ 3.00GHz

SSE found
SSE2 found
SSE4 found

Press any key to start or Esc to exit...

DataInMem:
    4x3 matrices by vecs through x87: 11295 milliseconds
    4x3 matrices by vecs through SSE: 3853 milliseconds
    4x3 matrices by vecs through SSE4: 3744 milliseconds
    Normalize vecs through x87: 5585 milliseconds
    Normalize vecs through SSE: 2527 milliseconds
    Normalize vecs approximate through SSE: 1857 milliseconds
    4x3 matrices by 4x3 matrices through x87: 2933 milliseconds
    4x3 matrices by 4x3 matrices through SSE2: 2496 milliseconds
    sorting floats: 12276 milliseconds

DataInCache:
    4x3 matrices by vecs through x87: 7285 milliseconds
    4x3 matrices by vecs through SSE: 2028 milliseconds
    4x3 matrices by vecs through SSE4: 1716 milliseconds
    Normalize vecs through x87: 4524 milliseconds
    Normalize vecs through SSE: 1950 milliseconds
    Normalize vecs approximate through SSE: 1092 milliseconds
    4x3 matrices by 4x3 matrices through x87: 5226 milliseconds
    4x3 matrices by 4x3 matrices through SSE2: 1420 milliseconds
    sorting floats: 6084 milliseconds

Alexandr82

Добавлено: 15.05.2008 0:36

[профиль]

Member
Статус: Не в сети
Регистрация: 18.02.2005

BloodyWerewolf писал(а):

Нету никакого второго блока - FPU у Феников

Вообще речь шла о регистрах SSE, а не FPU
http://www.insidehw.com/images/stories/ ... orplan.jpg (163kb)
При 128-битной SSE инструкции в A64 происходит разбиение ее на две 64-битных и выполнение ее сразу на двух 64-битных SSE регистрах. Соотвественно задействуются оба 64-битных блока SSE регистров. При поступлении 128-битной SSE инструкции в Phenom она выполняется на одном 128-битном SSE, а процессор у нас не настолько умен, чтобы сам смог запросить у приложения вторую 128-битную SSE инструкцию для выполнения на втором 128-битном SSE одновременно с первой.

6a3apoB

Добавлено: 18.05.2008 20:10

[профиль]

Заблокирован

Статус: Не в сети
Регистрация: 25.04.2008
Откуда: град Петра

Q6600 3348 2гб okz pc6400 на 1116 мгц
#77

_________________
http://audio-hi-end.livejournal.com/profile Аудиоэкспертиза - это не слух, а анализ услышанного

dwpinbox

Добавлено: 27.07.2008 9:45

[профиль]

Junior
Статус: Не в сети
Регистрация: 28.01.2008
Откуда: Москва

Материнская плата ASUS P5K Pro
Память Patriot PDC22G9200ELK 4-4-4-13
E3110 на частоте 4333 (9x480)

Цитата:

Processor: Intel(R) Xeon(R) CPU E3110 @ 3.00GHz

SSE found
SSE2 found
SSE4 found

Press any key to start or Esc to exit...

DataInMem:
4x3 matrices by vecs through x87: 10312 milliseconds
4x3 matrices by vecs through SSE: 3610 milliseconds
4x3 matrices by vecs through SSE4: 3609 milliseconds
Normalize vecs through x87: 5047 milliseconds
Normalize vecs through SSE: 2266 milliseconds
Normalize vecs approximate through SSE: 1797 milliseconds
4x3 matrices by 4x3 matrices through x87: 2640 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 2391 milliseconds
sorting floats: 11016 milliseconds

DataInCache:
4x3 matrices by vecs through x87: 6625 milliseconds
4x3 matrices by vecs through SSE: 1844 milliseconds
4x3 matrices by vecs through SSE4: 1562 milliseconds
Normalize vecs through x87: 4141 milliseconds
Normalize vecs through SSE: 1781 milliseconds
Normalize vecs approximate through SSE: 985 milliseconds
4x3 matrices by 4x3 matrices through x87: 4750 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 1281 milliseconds
sorting floats: 5578 milliseconds
Press any key to exit..

Core 2 QUAD и AMD Opteron продолжают отдыхать...

_________________
надо только выучиться ждать...

Новая тема /

Ответить

Сообщений: 36 • Страница 2 из 2 • < 1 2

Список форумов » Специализированные форумы » Бенчмаркинг

Часовой пояс: UTC + 3 часа

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 6

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Перейти: