Member
Статус: Не в сети Регистрация: 17.11.2003 Откуда: Екатеринбург
Вот слегка переделал свой предыдущий бенч Vector by Matrix и получилась эта прога (результаты с Vector by Matrix сравнивать нельзя т.к. там использовались немного читерские вычисления (конкретно шла запись в одну вершину, тогда как должно быть, считывание из одного массива и запись результатов в этот же или новый массив), а теперь все по честному). Пока в текстовом режиме и тестов не так много, но буду выпускать новые версии в которых тестов заметно прибавится (пока планирую добавить перемножение матриц на матрицы, нормализацию вершин, расчет реальных скинниговых моделей, потом возможно сделаю рендер на полный экран в OpenGL где эти меняющиеся модели можно будет увидеть) и сделаю наконец нормальное окошко, а не консоль. Все результаты тестов прежних версий будут сравнимы с новыми версиями, в новых версиях просто будут добавляться новые тесты. Ну а главное - я первый кто задействовал новые математические SSE4 инструкции для 3D-вычислений (в Дивиксе не то, там и 3D-вычислений то нету) пригодные для использования как в 3D-редакторах так и в играх
Последняя версия бенчмарка - 0.11, в ней SSE4 теперь работает нормально. Результаты тестов сравнимы с одноименными тестами предыдущей версии.
А вот мои результаты: Конфиг: Е6420@3.2, 2Gb DDR2-800 4-4-4-12, m/b Asus P5K Pro #77
И еще результаты (можно сравнить что ускорили в Вульфе по сравнению с Конроем, также есть тесты SSE4): Конфиг: Е8200@3.2, 2Gb DDR2-800 4-4-4-12, m/b Asus P5K Pro #77
Еще результаты: Конфиг: Е8200@3.0, 2Gb DDR2-856 4-4-4-12, m/b Asus P5K Pro #77
Жду ваших результатов, особенно интересуют результаты Пенринов (для них будет исполняться дополнительный SSE4 тест) и Феномов. ЗЫ: Чем результаты меньше тем лучше.
_________________ |АМД процы не так уж и плохи|
|Но все-таки Интел лучше|
Последний раз редактировалось BloodyWerewolf 13.04.2008 1:45, всего редактировалось 4 раз(а).
Программа выдаёт такое гигантское количество результатов что сравнивать процессоры между собой просто невозможно....
Q6600 @ 3150 мхз 1050 мхз память, тайминги 555 16
DataInMem:
4x3 matrices by vecs through x87: 14469 milliseconds
4x3 matrices by vecs through SSE: 5172 milliseconds
Normalize vecs through x87: 12375 milliseconds
Normalize vecs through SSE: 5765 milliseconds
Normalize vecs approximate through SSE: 2579 milliseconds
4x3 matrices by 4x3 matrices through x87: 3718 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 3438 milliseconds
sorting floats: 16517 milliseconds
DataInCache:
4x3 matrices by vecs through x87: 9156 milliseconds
4x3 matrices by vecs through SSE: 2578 milliseconds
Normalize vecs through x87: 10063 milliseconds
Normalize vecs through SSE: 4687 milliseconds
Normalize vecs approximate through SSE: 1375 milliseconds
4x3 matrices by 4x3 matrices through x87: 6641 milliseconds
4x3 matrices by 4x3 matrices through SSE2: 2547 milliseconds
sorting floats: 8173 milliseconds
Press any key to exit..
_________________ Библиотеки Windows - Мы заставим ваши папки тормозить!
Member
Статус: Не в сети Регистрация: 17.11.2003 Откуда: Екатеринбург
moty писал(а):
Программа выдаёт такое гигантское количество результатов что сравнивать процессоры между собой просто невозможно....
Ок, учту, сделаю потом общий рейтинг, возможно еще многопоточность наконец приделаю.
Кстати если кто-нидь подкинет качественную скиннинговую 3D максовую модель чела с приделанными костями и настроенными вершинами могу сделать дополнительный тест в котором будет проводится рендеринг нескольких сотен этих моделей (с софтовым скиннингом) и замерение производительности таким образом. Правда не уверен что зависимости от видео не будет.
_________________ |АМД процы не так уж и плохи|
|Но все-таки Интел лучше|
Member
Статус: Не в сети Регистрация: 17.11.2003 Откуда: Екатеринбург
lndeo писал(а):
Не планируется сделать бенч в режиме х64
Ну попробовать можно конечно, только не думаю что тут прирост заметный будет. В линпаке возможно все числа в итерации не влазят в 8 SSE-регистров (и происходит избыточное копирование в стек), а в х64 режиме уже 16 SSE-регистров и там влазят. Но тут у меня алгоритмы написаны таким образом что им и 8 SSE регистров за глаза.
Хотя вот тест со скиннингом (см. предыдущий пост) на 64 битах думается был бы заметно быстрей 32..
_________________ |АМД процы не так уж и плохи|
|Но все-таки Интел лучше|
Также как старые приложения другие ядра не используют у многоядерных процессоров. Если бы использовал, то было бы видно по результатам относительно Athlon64. Все же с двумя операциями за такт однозначно должно быть быстрее чем с одной.
Member
Статус: Не в сети Регистрация: 17.11.2003 Откуда: Екатеринбург
Да ну, чушь несешь сплошную, спроси у Hertz'а он подтвердит. Нету никакого второго блока - FPU у Феников 128-битный также как и у Коры. Сравни результаты теста SSE2 (там как раз векторные инструкции используются) на Х2 (с его 64-битным FPU) и на Фенике - разница на равной частоте практически в 2 раза что указывает на то что 128-битный FPU задействуется полностью.
_________________ |АМД процы не так уж и плохи|
|Но все-таки Интел лучше|
Member
Статус: Не в сети Регистрация: 17.11.2003 Откуда: Екатеринбург
Alexandr82 писал(а):
Только у Phenom он может выполнять две 128-битные операции за такт.
Не надоело еще чушь нести? Вот тебе из официального амдшного документа 40546.pdf (Software Optimization Guide for AMD Family 10h Processors):
Цитата:
Previous AMD64 processors supported 64-bit floating-point execution units. The new AMD Family 10h processors add support for 128-bit floating-point execution units. As a result, the throughput of both single-precision and double-precision floating-point SSEx vector operations has improved by 2X over the previous generation of AMD processors.
- т.е. макс. прирост в SSE(2/3) FPU операциях по сравнению с К8 составил 2 раза, а вовсе не 4 как ты пытаешься тут представить.
_________________ |АМД процы не так уж и плохи|
|Но все-таки Интел лучше|
Вообще речь шла о регистрах SSE, а не FPU
http://www.insidehw.com/images/stories/ ... orplan.jpg (163kb)
При 128-битной SSE инструкции в A64 происходит разбиение ее на две 64-битных и выполнение ее сразу на двух 64-битных SSE регистрах. Соотвественно задействуются оба 64-битных блока SSE регистров. При поступлении 128-битной SSE инструкции в Phenom она выполняется на одном 128-битном SSE, а процессор у нас не настолько умен, чтобы сам смог запросить у приложения вторую 128-битную SSE инструкцию для выполнения на втором 128-битном SSE одновременно с первой.
Junior
Статус: Не в сети Регистрация: 28.01.2008 Откуда: Москва
Материнская плата ASUS P5K Pro
Память Patriot PDC22G9200ELK 4-4-4-13
E3110 на частоте 4333 (9x480)
Цитата:
Processor: Intel(R) Xeon(R) CPU E3110 @ 3.00GHz
SSE found SSE2 found SSE4 found
Press any key to start or Esc to exit...
DataInMem: 4x3 matrices by vecs through x87: 10312 milliseconds 4x3 matrices by vecs through SSE: 3610 milliseconds 4x3 matrices by vecs through SSE4: 3609 milliseconds Normalize vecs through x87: 5047 milliseconds Normalize vecs through SSE: 2266 milliseconds Normalize vecs approximate through SSE: 1797 milliseconds 4x3 matrices by 4x3 matrices through x87: 2640 milliseconds 4x3 matrices by 4x3 matrices through SSE2: 2391 milliseconds sorting floats: 11016 milliseconds
DataInCache: 4x3 matrices by vecs through x87: 6625 milliseconds 4x3 matrices by vecs through SSE: 1844 milliseconds 4x3 matrices by vecs through SSE4: 1562 milliseconds Normalize vecs through x87: 4141 milliseconds Normalize vecs through SSE: 1781 milliseconds Normalize vecs approximate through SSE: 985 milliseconds 4x3 matrices by 4x3 matrices through x87: 4750 milliseconds 4x3 matrices by 4x3 matrices through SSE2: 1281 milliseconds sorting floats: 5578 milliseconds Press any key to exit..
Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 3
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения