Member
Статус: Не в сети Регистрация: 31.03.2005 Откуда: То там, то сям.
Ай, забыл ещё!
Цитата:
люди понимающие, что нормальных процессоров больше(чем P4), под SSE не оптимизируют.
ведь ясно же, что в сумме Pentium, Pentium MMX, PentiumPro, Pentium II, Pentium III, Athlon, Athlon XP, Athlon 64(то есть процессоров с классической архитектурой) больше, чем Pentium 4. Так кому нафих нужна оптимизация под SSE!?
Mosga, давай попросим Dron`t папу в студию. А то все наши разговоры пропадут просто так.
Advanced member
Статус: Не в сети Регистрация: 23.12.2003 Откуда: Гатчина, ленобл
Народ!
Файл появился на моей ПС:
http://cp.people.overclockers.ru/cgi-bin/dl.pl?id=10236&filename=talys.rar Занимает 33 мегабайта, WinRar 3, на всякий случай запаролен.
Если хотите скачать программу, пишите мне в ЛС - научу пользоваться. Программа представляет чисто спортивный интерес : мне нужны результаты на процессорах:
1. Sempron 2600-2800+
2. Athlon64 такого же рейтинга
3. Pentium 4 3GHz (а то блин у другана не запустилась (по не зависящим от компилятора причинам))
Кол-во каналов не имеет значения (хотя лучше с одноканальностью прогнать). По крайней мере указывайте число каналов.
Результаты пишите сюда: они попадут в продолжение статьи.
ЛС всем тем, кто уже откликнулся, сейчас отправлю.
Member
Статус: Не в сети Регистрация: 06.09.2005 Откуда: Москва
http://cp.people.overclockers.ru/cgi-bin/dl.pl?id=10282&filename=qr-inversion.rar, 7Кб
Это моя программа вычисления обратной матрицы методом вращения (блочный алгоритм).
Запуск: в командной строке набираете qr-inversion nSize nBlock1 nBlock2 (пример: qr-inversion 2000 72 84)
nSize - размерность матрицы
nBlock1 - размер блока при методе вращения
nBlock2 - размер блока при обратном ходе Гаусса
Для 512Кб кеша L2 оптимальные размеры блоков я уже прописал (72 84), проверено на моём Barton и P4 Northwood.
Для 1Мб их, по видимому, можно будет увеличить, но большой прибавки по быстродействию я не ожидаю. Прибавка будет в случае задействования многопоточности. На амдшных процах многопоточная программа будет работать медленее, но разница между 512 и 1024 Кб должна возрасти. Прескот должен сильно выиграть у нортвуда. К сожалению, многопоточная программа будет только под линукс.
Member
Статус: Не в сети Регистрация: 31.03.2005 Откуда: То там, то сям.
Dron`t качаю. Bozz Bishop получил, отправляю securing-optimizing-... Добавлено спустя 3 часа, 8 минут, 1 секунду Dron`t поюзал, вот talys.
Вопервых, talys_fast.bat исправить надо. Файл то входной, с данными один и тотже, а там написано:
talysfast <input_fast >output_fast. Верно? input_fast у нас ведь нет!?
Во-вторых, у меня Athlon64 ядро Venice E3, которое поддерживает SSE3. Почему у меня оптимизированная под SSE3 программа не заработала?
Пишет:Fatal Error : This program was not built to run on the processor in your system. Я так думаю, что ты компилировал гуртОм, под Pentium4 c SSE3. А?
Таперь результаты:
1. Без разгона. Проц - Athlon64 Venice E3 3000+(1800MHz) 200x9 512Kb cache L2. Память - DDR400, тайминги 1T 3-3-3-8T. Всё останьное в профиле.
1 минута 25,53 секунды. 2. С разгоном. Все настройки как в профиле. Athlon64 Venice E3 3000+(2340MHz) 260x9 512Kb cache L2. Память - DDR520 , тайминги 1T 3-4-3-5T.
1 минута 06,25 секунды. В обоих случаях память работала в двухканальном режиме.
Advanced member
Статус: Не в сети Регистрация: 22.01.2005 Откуда: Belarus, Minsk
Первые резалты:
Проц: 2.6ГГц 128k L2 (289х9) (взято из рассчета наиболее вероятно результата разгона Sempron E6)
Память: 1Гб (лень вынимать), 2.5 3-3-7 1Т CPU/11 (237MHz)
Остальное в профиле.
AMD: Execution time: 0 hours 1 minutes 27.92 seconds
FAST: не запустился. Хотя SSE3 есть в наличии.
Дальше ничего не трогаю, меняю множитель:
289х8=2.31ГГц, память CPU/10 (231MHz)
AMD: Execution time: 0 hours 1 minutes 35.64 seconds
FAST: аналогично не стартанул
Аналогично: 289х7=2ГГц, память как CPU/9 (224MHz)
AMD: Execution time: 0 hours 1 minutes 46.07 seconds
Ну и номинал:
289х6=1734, память как CPU/8 (216MHz)
AMD: Execution time: 0 hours 1 minutes 59.29 seconds
Мой итог: масштабируемость средняя. Прирост по частоте 40%, по скорости 25% (грубо). На S939 думаю будет иначе. Добавлено спустя 2 минуты, 41 секунду banifatich получается 2.6ГГц Sempron S754 = 1.8GHz A64 S939. Значит либо чувствительность к L2 повышенная, либо к ПСП. ИМХО идет обсчет больших обьемов данных и ПСП С754 просто банально не хватает. Добавлено спустя 1 минуту, 25 секунд banifatich получается 2.6ГГц Sempron S754 = 1.8GHz A64 S939. Значит либо чувствительность к L2 повышенная, либо к ПСП. ИМХО идет обсчет больших обьемов данных и ПСП С754 просто банально не хватает. Добавлено спустя 9 минут, 10 секунд
Цитата:
все решилось... приведением участников тестов в равные условия, для чего из компьютера конкурента... нет, в компьютер исследователя была вставлена еще одна планка в 256Мб. Память перешла в двухканальный режим. Результат: 1 минута 24 секунды... Вот так, "совершенно бесплатно" можно увеличить скорость выполнения задачи в два раза. Программисты из ID, вслушайтесь в мои слова!
Вот и подтверждение: тут важна ПСП, а не мощность процессора. И КЕШ L2. Вот почему Бартон легко обошед Celeron.
Да и выходит по тесту что 2ГГц Sempron без оптимизаций считает как 3.3ГГц Celeron со всеми оптимизациями .
_________________ Жизнь - это борьба не с врагами вне, это борьба с врагом в себе.
Если повезло кому-то, это не значит, что повезет и Вам.
Advanced member
Статус: Не в сети Регистрация: 23.12.2003 Откуда: Гатчина, ленобл
banifatich писал(а):
talysfast <input_fast >output_fast. Верно? input_fast у нас ведь нет!?
блин, верно Ахтунг! нужно исправить <input_fast в talys_fast.bat на <input Добавлено спустя 2 минуты, 11 секунд
banifatich писал(а):
Пишет:Fatal Error : This program was not built to run on the processor in your system. Я так думаю, что ты компилировал гуртОм, под Pentium4 c SSE3. А?
я компилировал из-под командной строки через исполнительный файл компилятора ( .NET Visual Studio ставить лень ) с параметром /fast (включает все инструкции и агрессивные оптимизации). могу скомпилировать, указав только включение инструкций SSE3 (там из списка выбрать можно). Но не думаю, что игра стоит свеч. Пусть это будет маленькая фора Интелам Добавлено спустя 4 минуты, 49 секунд
Serg_[OwP] писал(а):
Да и выходит по тесту что 2ГГц Sempron без оптимизаций считает как 3.3ГГц Celeron со всеми оптимизациями
Advanced member
Статус: Не в сети Регистрация: 22.01.2005 Откуда: Belarus, Minsk
Dron`t писал(а):
при одинаковой цене, учти
а вот это дудки. Можно взять 2600+ за 60уе и мать под него за 60уе на nForce 410. И погнать выше чем 2Ггц, а где-то до 2.2ГГц. И вот тогда будем иметь большую скорость за те же/меньшие деньги.
Кстати:
Fatal Error : This program was not built to run on the processor in your system.
Вот так вот. А если по -нормальному и без оптимизаций под netBurst?
_________________ Жизнь - это борьба не с врагами вне, это борьба с врагом в себе.
Если повезло кому-то, это не значит, что повезет и Вам.
Member
Статус: Не в сети Регистрация: 31.03.2005 Откуда: То там, то сям.
Serg_[OwP] писал(а):
Fatal Error : This program was not built to run on the processor in your system. Вот так вот. А если по -нормальному и без оптимизаций под netBurst?
Да, и я поддерживаю. Хотелось бы погонять программу вобще без оптимизаций, на голом FPU.
Serg_[OwP] писал(а):
Вот и подтверждение: тут важна ПСП, а не мощность процессора. И КЕШ L2. Вот почему Бартон легко обошед Celeron.
В статье:
Цитата:
Но все решилось... приведением участников тестов в равные условия, для чего из компьютера конкурента... нет, в компьютер исследователя была вставлена еще одна планка в 256Мб.
Не, такая ПСП Бартону нафиг не нужна. Он и на одном канале шустрит нормально(если это nForce2). Slayder попробуй снять одну планку, я думаю, блок предвыборки встроенный в nForce2 не подведёт. Это КЭШ, сто пудов. Объёмы данных не настолько велики, чтобы на шине тормозиться.
Вопрос к Dron`t, объём данных типичен для твоих задач, или это только для примера. Если типичен, можно сделать вывод, что большое количество оперативы не обязательно. Достаточно и 256Mb в двухканале. И, поскольку, прослеживается зависимость от размера кэша, лучше брать или проц "покэшастее", или память с минимальными таймингами. А лучше и то и другое.
Member
Статус: Не в сети Регистрация: 07.09.2004 Откуда: Moscow-city
banifatich
Цитата:
Не, такая ПСП Бартону нафиг не нужна. Он и на одном канале шустрит нормально(если это nForce2). Slayder попробуй снять одну планку, я думаю, блок предвыборки встроенный в nForce2 не подведёт. Это КЭШ, сто пудов. Объёмы данных не настолько велики, чтобы на шине тормозиться.
Сейчас тест на дуроне 800-м прогоню, а потом проверю что меняется от двухканальности.
Member
Статус: Не в сети Регистрация: 31.03.2005 Откуда: То там, то сям.
Slayder, а я тады на Williamate 1600MHz с 512mb одноконал. Добавлено спустя 20 минут, 36 секунд Погонял на Williamate 1600MHz, 512Mb оперативы в одноканале, чипсет Intel 845.
3 минуты 10 секунд.
Member
Статус: Не в сети Регистрация: 31.03.2005 Откуда: То там, то сям.
Bozz Bishop э.. Хрень какая-то. Ты чем компилировал? Пишет, что не удаётся выполнить указанную программу. Ну, да я и так спрошу. Какая же там матрица обращается? Ну хоть примерно, структуру опиши. И ещё, применялся ли при создании примера(матрицы) метод Монте-Карло. Т.е. соответствуют ли элементы матрицы нормальному распределению Гаусса. Проще, случайны ли элементы матрицы. Спрашиваю потому, что многие современные компиляторы могут оптимизировать представление векторов и матриц если они состоят, к примеру, из одних нулей или единиц. Таким образом даже огромная матрица может спокойно и комфортно разместиться в кэше, что, естественно, в редких случаях происходит в действительности. Во загнул. А говорил же тёще: "А мож не будем пить?" Добавлено спустя 3 минуты, 23 секунды Slayder А я что говорил. Данных то с гулькин нос. Но надо бы ещё попробовать на тех процах, которые такую ПСП могут освоить. P.S. Эх! Чё только не сделаешь ради науки! И ушёл в оффлайн.
Member
Статус: Не в сети Регистрация: 31.03.2005 Откуда: То там, то сям.
А-а-а.. Я вернулся! SlayderDron`t подтверждение моих слов. Выдернул из своего аппарата одну планку. Всё остальное как в влучае с разгоном:
Все настройки как в профиле. Athlon64 Venice E3 3000+(2340MHz) 260x9 512Kb cache L2. Память - DDR520 Smile , тайминги 1T 3-4-3-5T.
результат - 1 минута 7.12 секунды Вот, значит два канала на данной задаче для AMD нифига не дают. Интересно, а как для P4? Поэтому можно ограничится бюджетной мамкой за 60$ и взять, к примеру Athlon64 3000+ S754, тем более, что частота у него выше на 200MHz чем у 3000+ S939.
Advanced member
Статус: Не в сети Регистрация: 22.01.2005 Откуда: Belarus, Minsk
Прогнал как
Проц: 2.6ГГц 128k L2 (289х9) (взято из рассчета наиболее вероятно результата разгона Sempron E6)
Память: 1Гб (лень вынимать), 2.5 3-3-7 1Т CPU/11 (237MHz)
Остальное в профиле.
AMD: Execution time: 0 hours 1 minutes 27.92 seconds
А если память поставить CPU/12, то имеем:
Execution time: 0 hours 1 minutes 35.35 seconds
Так что ПСП важна и нужна этому конкретному тесту. Причем разница порядка 10%! Добавлено спустя 4 минуты, 46 секунд banifatich Ерунда получается у тебя. У меня явно есть прирост от роста ПСП. Причем заметный. См выше.
_________________ Жизнь - это борьба не с врагами вне, это борьба с врагом в себе.
Если повезло кому-то, это не значит, что повезет и Вам.
Member
Статус: Не в сети Регистрация: 31.03.2005 Откуда: То там, то сям.
Serg_[OwP] писал(а):
Так что ПСП важна и нужна этому конкретному тесту. Причем разница порядка 10%!
Это потому, что кэш у тебя всего 128Kb. Мало в него помещается. А мои результаты посмотри. Мне ПСП ничего не даёт. Кстати, такая же загогулина наблюдается и в гаме Battlefield2. Гама тут причём? Как это разработчик так умудрился?
Advanced member
Статус: Не в сети Регистрация: 22.01.2005 Откуда: Belarus, Minsk
banifatich Кстати про статью: там Селер сильно выиграл от использования 2-х каналов. Напрашивается мысля о том что если не хватает кэша ( а 128+512 проге явно хватает), подсистема памяти начинает играть важную роль. Видимо есть какой-то набор операнд который легко влазит в 512к и к которому идет постоянно обращения. А если кэша не хватает, то обращение идет уже к оперативке.
_________________ Жизнь - это борьба не с врагами вне, это борьба с врагом в себе.
Если повезло кому-то, это не значит, что повезет и Вам.
Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 1
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения