Производительность системы в гигафлопсах? (Linpack / IBT / LinX / etc.)

Overclockers.ru

Конференция

FAQ по конференции

Текущее время: 18.04.2024 14:04

Сообщения без ответов | Активные темы

Список форумов » Специализированные форумы » Бенчмаркинг

Часовой пояс: UTC + 3 часа

Новая тема /

Ответить

Сообщений: 2079 • Страница 2 из 104 • < 1 2 3 4 5 ... 104 >

	Пред. тема \| След. тема
В случае проблем с отображением форума, отключите блокировщик рекламы

Автор

Сообщение

Cronos

Добавлено: 30.10.2007 14:45

[профиль]

Member
Статус: Не в сети
Регистрация: 24.10.2003
Откуда: Novosibirsk

mike02
Формула правильная. Просто 32bit версия намного медленнее -похоже она даже под SSE2 не оптимизирована.

Реклама
Партнер

mike02

Добавлено: 30.10.2007 15:04

[профиль]

*Cofradia Intel*
Статус: Не в сети
Регистрация: 20.07.2006
Откуда: Донецк

Решил посмотреть насчет ошибок и прогнал этот тест на стандартных параметрах - проц 266x9=2,4 Ghz, память 800 со стандартными таймингами, на 2,2В.
Что получилось:

Intel(R) LINPACK data

Intel(R) Optimized LINPACK Benchmark 9.1
Current date/time: Tue Oct 30 13:42:05 2007

CPU frequency: 2.405 GHz
Number of CPUs: 4
Number of threads: 4
Parameters are set to:

Number of tests : 9
Number of equations to solve (problem size) : 15000 14000 13000 12000 11000 10000 8000 6000 1000
Leading dimension of array : 15000 14008 13000 12008 11000 10008 8008 6008 1000
Number of trials to run : 1 2 2 2 2 2 2 3 4
Data alignment value (in Kbytes) : 4 4 4 4 4 4 4 4 4

Maximum memory requested that can be used = 1569180224, at the size = 14000
============= Timing linear equation system solver =================

Size LDA Align. Time(s) GFlops Residual Residual(norm)
14000 14008 4 82.997 22.0456 1.712860e-010 3.093243e-002
14000 14008 4 82.452 22.1914 1.712860e-010 3.093243e-002
13000 13000 4 66.320 22.0898 1.495954e-010 3.130172e-002
13000 13000 4 66.418 22.0572 1.495954e-010 3.130172e-002
12000 12008 4 53.952 21.3576 1.340316e-010 3.289786e-002
12000 12008 4 52.910 21.7781 1.340316e-010 3.289786e-002
11000 11000 4 40.954 21.6726 1.083297e-010 3.160428e-002
11000 11000 4 40.798 21.7555 1.083297e-010 3.160428e-002
10000 10008 4 30.875 21.5986 8.667462e-011 3.056235e-002
10000 10008 4 30.885 21.5920 8.667462e-011 3.056235e-002
8000 8008 4 16.084 21.2300 7.564716e-011 4.161250e-002
8000 8008 4 16.077 21.2395 7.564716e-011 4.161250e-002
6000 6008 4 7.001 20.5786 3.597661e-011 3.488960e-002
6000 6008 4 6.976 20.6520 3.597661e-011 3.488960e-002
6000 6008 4 6.988 20.6169 3.597661e-011 3.488960e-002
1000 1000 4 0.046 14.5085 1.019407e-012 3.476439e-002
1000 1000 4 0.056 11.9507 1.019407e-012 3.476439e-002
1000 1000 4 0.045 14.8911 1.019407e-012 3.476439e-002
1000 1000 4 0.045 14.8390 1.019407e-012 3.476439e-002

Performance Summary (GFlops)

Size LDA Align. Average Maximal
14000 14008 4 22.1185 22.1914
13000 13000 4 22.0735 22.0898
12000 12008 4 21.5678 21.7781
11000 11000 4 21.7140 21.7555
10000 10008 4 21.5953 21.5986
8000 8008 4 21.2347 21.2395
6000 6008 4 20.6158 20.6520
1000 1000 4 14.0473 14.8911

End of tests
30.10.2007
13:53

Максимум получилось 22,1914. То есть, если считать по той же формуле то 2,4*4*4=38,4. А тут - 22,1. Так что скорее всего формула дана слишком приблизительно.

2,4 - 22,2
3,2 - 29,5
3,6 - 33,8

можно протестировать на разных частотах - от 1,1 до 3,7 и получить те самые коэффициенты :-)

для 4 ядер 8 м кеша.
Добавлено спустя 3 минуты, 20 секунд

Cronos писал(а):

mike02
Формула правильная. Просто 32bit версия намного медленнее -похоже она даже под SSE2 не оптимизирована.

Дикий народ - дети гор! (с)
Если уж интел выпускает свои тесты и не оптимизирует их?? Да уж.. :-)

С другой стороны им это не надо т.к. имеющиеся агены банально до уровня не дотягивают. 8-)

Жаль нет под рукой загрузочного диска с win64, интересно было бы сравнить результаты.

_________________
*****Cofradia Intel***** *CI_TSC!_team*

H(CHCl11B11)

Добавлено: 30.10.2007 15:27

[профиль]

Member
Статус: Не в сети
Регистрация: 08.01.2005
Откуда: Москва

mike02 писал(а):

Максимум получилось 22,1914. То есть, если считать по той же формуле то 2,4*4*4=38,4. А тут - 22,1. Так что скорее всего формула дана слишком приблизительно.

Запускай под x64 будет не меньше 30

mike02

Добавлено: 30.10.2007 15:33

[профиль]

*Cofradia Intel*
Статус: Не в сети
Регистрация: 20.07.2006
Откуда: Донецк

Intel(R) LINPACK data

Intel(R) Optimized LINPACK Benchmark 9.1
Current date/time: Tue Oct 30 15:35:33 2007

CPU frequency: 3.200 GHz RAM 1000Mhz@5-5-5-15 - 2.2V
Number of CPUs: 4
Number of threads: 4
Parameters are set to:

Number of tests : 9
Number of equations to solve (problem size) : 15000 14000 13000 12000 11000 10000 8000 6000 1000
Leading dimension of array : 15000 14008 13000 12008 11000 10008 8008 6008 1000
Number of trials to run : 1 2 2 2 2 2 2 3 4
Data alignment value (in Kbytes) : 4 4 4 4 4 4 4 4 4

Maximum memory requested that can be used = 1569180224, at the size = 14000
============= Timing linear equation system solver =================

Size LDA Align. Time(s) GFlops Residual Residual(norm)
14000 14008 4 61.467 29.7678 1.712860e-010 3.093243e-002
14000 14008 4 61.013 29.9893 1.712860e-010 3.093243e-002
13000 13000 4 49.102 29.8358 1.495954e-010 3.130172e-002
13000 13000 4 49.077 29.8510 1.495954e-010 3.130172e-002
12000 12008 4 38.854 29.6568 2.393067e-010 5.873747e-002
12000 12008 4 38.862 29.6511 7.442957e-009 1.826863e+000
11000 11000 4 30.161 29.4281 1.873986e-009 5.467196e-001
11000 11000 4 30.196 29.3940 9.563893e-010 2.790186e-001
10000 10008 4 22.778 29.2766 1.842299e-009 6.496132e-001
10000 10008 4 22.766 29.2927 1.839698e-009 6.486962e-001
8000 8008 4 11.860 28.7907 7.564716e-011 4.161250e-002
8000 8008 4 11.866 28.7757 4.948258e-010 2.721971e-001
6000 6008 4 5.140 28.0306 3.597661e-011 3.488960e-002
6000 6008 4 5.152 27.9667 3.597661e-011 3.488960e-002
6000 6008 4 5.151 27.9709 4.717619e-010 4.575079e-001
1000 1000 4 0.034 19.8061 1.019407e-012 3.476439e-002
1000 1000 4 0.034 19.7574 1.019407e-012 3.476439e-002
1000 1000 4 0.035 19.3062 1.019407e-012 3.476439e-002
1000 1000 4 0.035 19.3143 1.019407e-012 3.476439e-002

Performance Summary (GFlops)

Size LDA Align. Average Maximal
14000 14008 4 29.8786 29.9893
13000 13000 4 29.8434 29.8510
12000 12008 4 29.6540 29.6568
11000 11000 4 29.4110 29.4281
10000 10008 4 29.2847 29.2927
8000 8008 4 28.7832 28.7907
6000 6008 4 27.9894 28.0306
1000 1000 4 19.5460 19.8061

End of tests
30.10.2007
15:44

_________________
*****Cofradia Intel***** *CI_TSC!_team*

progn

Добавлено: 30.10.2007 20:13

[профиль]

Member
Статус: Не в сети
Регистрация: 15.08.2007

Q6600 @ 3200 (356*9) 1.318В, RAM 4Гб @ 890 4-4-5-15 2.1В
Windows XP x64

Код:

CPU frequency:    3.204 GHz
Number of CPUs: 4
Number of threads: 4
Parameters are set to:

Number of tests                             : 1
Number of equations to solve (problem size) : 20000
Leading dimension of array                  : 20000
Number of trials to run                     : 3    
Data alignment value (in Kbytes)            : 4    

Maximum memory requested that can be used = 3200404096, at the size = 20000
============= Timing linear equation system solver =================

Size   LDA    Align. Time(s)    GFlops   Residual      Residual(norm)
20000  20000  4      124.567    42.8212  4.455000e-010 3.943651e-002
20000  20000  4      124.512    42.8402  4.455000e-010 3.943651e-002
20000  20000  4      124.406    42.8769  4.455000e-010 3.943651e-002

Performance Summary (GFlops)

Size   LDA    Align.  Average  Maximal
20000  20000  4       42.8461  42.8769 

изучаем влияние FSB

Q6600 @ 3200 (457*7) 1.35В, RAM 4Гб @ 915 4-4-5-15 2.2В
Windows XP x64

Код:

Number of tests                             : 1
Number of equations to solve (problem size) : 20000
Leading dimension of array                  : 20000
Number of trials to run                     : 3    
Data alignment value (in Kbytes)            : 4    

Maximum memory requested that can be used = 3200404096, at the size = 20000
============= Timing linear equation system solver =================

Size   LDA    Align. Time(s)    GFlops   Residual      Residual(norm)
20000  20000  4      124.413    42.8744  4.455000e-010 3.943651e-002
20000  20000  4      124.343    42.8987  4.455000e-010 3.943651e-002
20000  20000  4      124.339    42.9000  4.455000e-010 3.943651e-002

Performance Summary (GFlops)

Size   LDA    Align.  Average  Maximal
20000  20000  4       42.8910  42.9000 

Есть мнение что квад лучше ставить на большую шину, при прочих равных, как видим это не подтверждается...

Cronos

Добавлено: 30.10.2007 20:23

[профиль]

Member
Статус: Не в сети
Регистрация: 24.10.2003
Откуда: Novosibirsk

progn писал(а):

Есть мнение что квад лучше ставить на большую шину, при прочих равных, как видим это не подтверждается...

Уж конечно не в этом тесте это проверять. Это в основном BLAS level 3, а эти функции очень хорошо оптимизированы. Иначе не удалось бы получить столь высокой эффективности.
Чтобы тут что-то заметить, надо изменять ПСП в разы.

sashar2

Добавлено: 30.10.2007 20:56

[профиль]

Member
Статус: Не в сети
Регистрация: 05.12.2005

Проводите тестирование на 64 битном линуксе. Видел один такой обзор на одном китайском (или корейском или еще каком азиатском языке) сайте, там тестировались и атлоны и коре 2 дуо, и использовалась именно эта формула. Эффективность была высокой (от 75-95%).

moty

Добавлено: 31.10.2007 1:36

[профиль]

Member
Статус: Не в сети
Регистрация: 09.04.2006

Cronos писал(а):

2) # problem sizes -размеры матриц систем линейных уравнений. Чем это число больше, тем больше получится результат. Начиная с некоторого значения (примерно 10000), рост замедлится. Обьем памяти, который нужно для запуска, можно посчитать по формуле 8*N^2. Для 10000 получим 800Mb. Если задать больше чем реально установлено памяти, будет своп и тормоза -этого делать не стоит. Также стоит оставить что-то системе для работы, скажем 0.5 -1GB.
3) #leading dimensions -повторить вторую строку
4) #times - каждая задача с размером матрицы из соответствующего столбца #problem sizes будет повторена times раз.
5) #alignment -оставить 4

Насчёт пункта 2:
15000 14000 13000 12000 11000 10000 8000 6000 1000 # problem sizes

Это- матрицы которые будут запускатся по порядку? И для теста стабильности лучше поставить одну из них под память?

Насчёт пукта 4: приблизительно, чтоб прогреть квад в течении 30 минут, с размером матрицы 18000 (~1,5 гигов памяти?) сколько сюды надо писать?

Cronos

Добавлено: 31.10.2007 1:53

[профиль]

Member
Статус: Не в сети
Регистрация: 24.10.2003
Откуда: Novosibirsk

moty писал(а):

Да. Лучше всего оставить одну -самую большую. Меньшие быстрее считаются, требуют меньше памяти, и дают меньший результат.

Цитата:

Насчёт пукта 4: приблизительно, чтоб прогреть квад в течении 30 минут, с размером матрицы 18000 (~1,5 гигов памяти?) сколько сюды надо писать?

Во первых, 18000 соответствует обьему памяти 8x18000^2 ~2.6GB
Во вторых, я не могу знать сколько времени на вашем железе займет решение одной задачи с такой матрицей. Просто поставьте 1 в #times, посмотрите сколько времени займет.
Думаю что за 3-5 минут все точно прогреется. Если хотите протестировать стабильность работы, можно оставить на ночь, задав большое количество итераций.

mike02

Добавлено: 31.10.2007 12:46

[профиль]

*Cofradia Intel*
Статус: Не в сети
Регистрация: 20.07.2006
Откуда: Донецк

Классный тест! Идеален для подбора вольтажа процессора и памяти. Я им свою систему просто вылизал, в плане стабильности.

_________________
*****Cofradia Intel***** *CI_TSC!_team*

moty

Добавлено: 31.10.2007 14:08

[профиль]

Member
Статус: Не в сети
Регистрация: 09.04.2006

А для амд аналоги есть?

_________________
Библиотеки Windows - Мы заставим ваши папки тормозить!

sashar2

Добавлено: 31.10.2007 19:40

[профиль]

Member
Статус: Не в сети
Регистрация: 05.12.2005

moty
Этот тест для амд тоже подойдет. Специально заточенной под амд я не видел.

mike02

Добавлено: 31.10.2007 19:44

[профиль]

*Cofradia Intel*
Статус: Не в сети
Регистрация: 20.07.2006
Откуда: Донецк

Cootri писал(а):

mike02 писал(а):

Так что тут скорее дело не в нестабильности а в ошибочности оценки в формуле.

Мне почему-то тоже кажется, что 3.2х4х4 неверно...

В принципе можно поизвращаться - на досуге потестировать квад с шиной от 200 до 450 и затем по полученым данным производительности составить таблицу, и далее провести интерполяцию методом лагранжа и получить функцию с коэффициентами.

То же самое можно сделать отключив 1 ядро у кента - получится статистика для Конро

_________________
*****Cofradia Intel***** *CI_TSC!_team*

sashar2

Добавлено: 31.10.2007 19:45

[профиль]

Member
Статус: Не в сети
Регистрация: 05.12.2005

Cootri
http://www.pcinlife.com/article/cpumb/2 ... 5d221.html
http://www.pcinlife.com/article/cpumb/2 ... 221_8.html
У атлона вроде частоту на 2 нужно умножать. Не знаю правда, что за версия линпака тут используется.
Добавлено спустя 17 минут, 16 секунд
mike02
Кэш разный, может влиять.

moty

Добавлено: 31.10.2007 22:14

[профиль]

Member
Статус: Не в сети
Регистрация: 09.04.2006

sashar2 писал(а):

moty
Этот тест для амд тоже подойдет. Специально заточенной под амд я не видел.

Гыыыы интересно, как?

This binary version of the SMP LINPACK benchmark is optimized for and runs on only genuine Intel processors
31.10.2007
21:14

Cronos

Добавлено: 31.10.2007 22:34

[профиль]

Member
Статус: Не в сети
Регистрация: 24.10.2003
Откуда: Novosibirsk

moty писал(а):

А для амд аналоги есть?

Надо перекомпилять исходники. Весь вопрос собственно - заменить в опциях компилятора -xT или -xP на -xW.

sashar2

Добавлено: 31.10.2007 23:24

[профиль]

Member
Статус: Не в сети
Регистрация: 05.12.2005

moty
Тебе Cronos правильно ответил. Или возьми версию под линукс, там под амд без проблем найти.

mike02

Добавлено: 31.10.2007 23:38

[профиль]

*Cofradia Intel*
Статус: Не в сети
Регистрация: 20.07.2006
Откуда: Донецк

Кстати, господа хорошие, а может найти и перекомпилить исходники, и далее померяться с владельцами АМДшных процов? Это ж не СуперПи в один поток на двух/четырехядернике считать? Как раз - реальная математическая производительность. Тем более для мультипотока - самое оно. Даже для феномов 3х - они ж скоро на подходе должны быть?

Что скажете?

_________________
*****Cofradia Intel***** *CI_TSC!_team*

Cronos

Добавлено: 31.10.2007 23:45

[профиль]

Member
Статус: Не в сети
Регистрация: 24.10.2003
Откуда: Novosibirsk

mike02 писал(а):

Что скажете?

Результат заранее очевиден. K8 проиграет катастрофически - по сравнению с С2Q, в ~4 раза на одной частоте. Еще накинем +20% частоты, будет ~5 раз.

K10 проиграет просто за счет низкой частоты - и -возможно - за счет маленького кэша (но это неизвестно, конечно).

Новая тема /

Ответить

Сообщений: 2079 • Страница 2 из 104 • < 1 2 3 4 5 ... 104 >

Список форумов » Специализированные форумы » Бенчмаркинг

Часовой пояс: UTC + 3 часа

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 31

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Перейти:

Производительность системы в гигафлопсах? (Linpack / IBT / LinX / etc.)

Кто сейчас на конференции

Лаборатория

Обзор ноутбука ASUS Zenbook DUO (UX8406)

Обзор и тестирование модульного блока питания MSI MAG A850GL PCIE5

Обзор и тестирование процессорного кулера APNX AP1-V

Обзор и тестирование материнской платы MSI Z790 Gaming Plus WIFI

Обзор и тестирование смартфона Honor X9b 5G

Новости