Добрый вечер, уважаемые, помогите плиз голову сломал. Подогнали сайбера с 8350 (старенького 13 г.). Пытаюсь гнать. При 4200 сейчас всего 75 Гфлопс. Радиаторы врм и северника горячие. Обвешал вертушками. Знаю что радиаторы снимались типа чистились балбесами. Сам снял - чуть чуть повреждена термопрокладка, не полностью закрывающая 1 элемент. Подмазал термопастой гелид про. Показатели такие CPU темп -53. МB - 40, vcore1 -47, vcore2-43, nb ht 38 градусов. АРM и С6 откл. Hpc вкл. Менять термоитерфейс и на что ? Где копать?
Member
Статус: Не в сети Регистрация: 13.05.2020 Откуда: Мытищи
Привет всем -) Обнаружил следующее: 1) Более высокая частота ЦП требует себе более высокое напряжения КП, при тех же частотах КП. Хотя, по идее, КП работает в собственном домене частоты и напряжения. Я так раньше думал -))) 2) Частота ЦП ощутимо влияет на ПСП. 3) Самое интересное. При частоте КП 2600 и ЦП 4200, я недавно получил 66 Гфлопс (вместо 56 как раньше). Я просто повысил напряжение КП с 1,3375В до 1,3500В. Но! Опустив все напряжения и частоты, я даже на КП 2400 и цп 4000 - получил 77 Гфлопс, тоже просто подняв напряжение КП, с ранее стабильных 1,2875В до 1,3000В. Что получается. Троттлинг никуда не исчез, но при более низких частотах я в итоге получаю больше Гфлопсов. При этом ПСП все равно меньше.
Больше всего удивления у меня вызывает п. 1. п. 3 я могу объяснить, что получаю меньше троттлинга VRM, поэтому при меньших частотах показатели LinX - выше. Но, ПСП все равно выше на более высоких частотах КП и ЦП... Вот тут непонятно. LinX не показатель производительности?
Advanced member
Статус: Не в сети Регистрация: 30.04.2013 Откуда: Москва Фото: 0
Bigsun писал(а):
п. 3 я могу объяснить, что получаю меньше троттлинга VRM, поэтому при меньших частотах показатели LinX - выше. Но, ПСП все равно выше на более высоких частотах КП и ЦП... Вот тут непонятно. LinX не показатель производительности?
Member
Статус: Не в сети Регистрация: 13.05.2020 Откуда: Мытищи
Remarc , спс, теперь с п.3 понятно. А п.1 как объяснить?
Добавлено спустя 4 минуты 32 секунды:
Litoy.88 писал(а):
почему то не можешь этого сделать
Да МП и прямо сейчас работает при 4200, просто из-за плохого VRM, у меня троттлинг по питанию ЦП, и я никогда не достигну тех Гфлопсов что у более крутых МП. А так-то все работает -)))
Advanced member
Статус: Не в сети Регистрация: 30.04.2013 Откуда: Москва Фото: 0
Bigsun писал(а):
Remarc , спс, теперь с п.3 понятно. А п.1 как объяснить?
это качели,такое бывает при комплексном разгоне,чем выше частота проца тем труднее поднять частоту северника и нужно выше напряжение для его стабильности и наоборот
Member
Статус: Не в сети Регистрация: 18.04.2010 Откуда: Красноярск
Bigsun писал(а):
Да МП и прямо сейчас работает при 4200, просто из-за плохого VRM, у меня троттлинг по питанию ЦП, и я никогда не достигну тех Гфлопсов что у более крутых МП. А так-то все работает -)))
еще раз пересмотри скрины,я тебе выше давал,такая же мать,и все вывозит,просто ты не можешь настроить!
Member
Статус: Не в сети Регистрация: 08.08.2008 Фото: 3
Litoy.88 писал(а):
еще раз пересмотри скрины,я тебе выше давал,такая же мать,и все вывозит,просто ты не можешь настроить!
Матерям под эту платформу уже по 10 лет - элементы питания могли по 100 раз дегроднуть.
_________________ Была картошка простая - стала золотая, были грибки простые - стали золотые, была рыбка простая - стала золотая. Еле процессоры спасли!
Member
Статус: Не в сети Регистрация: 13.05.2020 Откуда: Мытищи
Litoy.88 писал(а):
просто ты не можешь настроить
1) Начнем с того, что мои 77 и его средние 84 (пример с LinX 0.6.5) - цифры в общем-то не столь далекие друг от друга. 2) В другом примере LinX 0.7.3 Alternate, что само по себе уже несоблюдение "лабораторной точности". И как-то очень слабо верю в 33 градуса по ядрам, при прожарке в LinX 3) Самое главное. Ни на одном примере не видно, какая установлена ОЗУ. Мы ведь работаем с ней - у нас даже есть выборка "Memory=". Если у них скоростная ОЗУ, тогда эти 84-77=7 или 89-77=12 Гфлопсов, вероятно, по-большей части, по этой причине... Дело тут, возможно, и не в "настройках". Хотя я уже не знаю, что еще мне надо изучить -))) В обоих этих двух примерах - тупо ощутимо ниже температуры. Процессоры не троттлят по частоте. Я не понимаю, как этого достигли. Хотя нет, понимаю - радиаторы через термопрокладку на обратной стороне МП в зоне VRM + другой радиатор VRM и/или 1-2 кулера 30-40 мм на зону VRM. Т.е. это уже как бы не штатные СО, и об этом надо бы писать (декларировать).
Было бы гораздо корректнее, если бы они 1) показали частоту ОЗУ 2) рассказали об СО.
Member
Статус: Не в сети Регистрация: 18.04.2010 Откуда: Красноярск
Зю ты бы уточнил,прежде чем писать. эта плата вышла в 2015 году,и что там могло высохнуть,транзисторы? Кондеры визуально будет видно в 90%случаях.
Добавлено спустя 5 минут 38 секунд: Bigsun полную чушь пишешь. Про память я тебе сказал,там 1600-1800,не выше. И память тебе такой большой разницы не даст,перестань себя успокаивать. Температуры,там охлаждение говно от титана,смотри на минимальные температуры,он конкретно выступал комнату. На врм просто дует 80х80. Так что мешает тебе повторить тоже самое?
Member
Статус: Не в сети Регистрация: 08.02.2009 Откуда: Ульяновск
Litoy.88 писал(а):
полную чушь пишешь
да пусть себя успакаивает -плата полное говно(дно полное) производительность ни о чем ,но пусть себя тешиТ
Добавлено спустя 1 минуту:
Bigsun писал(а):
ачнем с того, что мои 77 и его средние 84 (пример с LinX 0.6.5) - цифры в общем-то не столь далекие друг от друга.
сильно разные в общем то хотя тебе не понять
Добавлено спустя 1 минуту 9 секунд:
Bigsun писал(а):
Самое главное. Ни на одном примере не видно, какая установлена ОЗУ. Мы ведь работаем с ней - у нас даже есть выборка "Memory=". Если у них скоростная ОЗУ, тогда эти 84-77=7 или 89-77=12 Гфлопсов, вероятно, по-большей части, по этой причине...
Member
Статус: Не в сети Регистрация: 13.05.2020 Откуда: Мытищи
ffa1978 писал(а):
сам придумал ?
Ну конечно сам -) Алгоритмы, используемые в тестах типа LINPACK (уровень 3 BLAS - Basic Linear Algebra Subprograms), имеют высокий коэффициент переиспользования данных, пересылка данных между процессором и памятью в них занимает менее 1/10 общего времени. Обычно в тестах Linpack используются вызовы подпрограмм из пакетов Lapack (Linear Algebra PACKage, аналог - Intel MKL) и BLAS. Т.е. влияние скорости ОЗУ на FLOPS все же есть. Уровень 3 - уровень содержит матрицу матричных операций, в том числе "общего матричного умножения". Linpack осуществляет операцию умножения матрицы на матрицу несколько десятков раз и вычисляет усредненное значение времени выполнения теста.
Количество операций FLOP за такт у Bulldozer, Piledriver: Для ряда процессорных микроархитектур известны максимальные количества плавающих операций, исполняемых за такт на одном ядре: (single) — одинарной точности; (double) — двойной точности. Каждый двухъядерный модуль Bulldozer/Piledriver имеет один блок для вычислений чисел с плавающей запятой с двумя 128-разрядными блоками FMAC.
Модуль Bulldozer/Piledriver
Вложение:
Процессорный блок (модуль) AMD FX - блоки вычислений.png [ 105.61 КБ | Просмотров: 652 ]
Одновременно могут выполняться одна операция умножения (MUL) и одна сложения (ADD), как в блоках x87 FP, так и в SSE, либо AVX. Single: 8 MUL (32-bit) и 8 ADD (32-bit), т.е. 16 операций с плавающей точкой одинарной точности за один такт (16 SP FLOP/cycle). Double: 4 MUL (64-bit) и 4 ADD (64-bit), т.е. 8 операций с плавающей точкой двойной точности за один такт (8 DP FLOP/cycle).
Вообще говоря, на 4 ГГц надо получать хотя бы 100 Гфлопс (128 теоретически). А у вас, так? 100 - потому что считается, что эффективность алгоритмов Linpack находится на уровне 90% от теоретически возможной. 4[ГГц]х4[модуля]х2[ядра]х2[FMAC]х128/64 = 128 ГФлоп/с пиковой теоретической производительности при вычислениях двойной точности. FLoating-point Operations Per Second. 64 – [64-битными числами с плавающей запятой за такт]. 128 - [128-разрядными блоками FMAC].
Можно и так: 8[DP FLOP/cycle]*4[модуля]*4[Gcycles/sec]= 128 GFLOPS DP
А то вы тут спорите с michernov-ым, а он то похоже прав.... по поводу 100 Гфлопc. Если я все правильно понял -)
Member
Статус: Не в сети Регистрация: 18.04.2010 Откуда: Красноярск
Bigsun это всё теория,и касается интела,потому что линкс пол Интел написан. Тут уже дело вкуса,хочешь верь одному мичерному,а можешь проверить толпе
Добавлено спустя 2 часа 30 минут 14 секунд: Bigsun ну и то что ты привел в теории,на практике у тебя получается и вовсе в двое ниже теоретической нормы,тогда совсем печаль
Member
Статус: Не в сети Регистрация: 13.05.2020 Откуда: Мытищи
Litoy.88 писал(а):
и касается интела
Причем тут Intel? Я все писал касательно именно AMD FX 8ххх. Linpack + GUI = LinX. LinPack не привязан к Intel. OpenBLAS быстрее даже чем Intel MKL на AMD. Я не зря указал аналог. Есть версия, конкретно для AMD. Linpack - программная библиотека, написанная на языке Фортран, которая содержит набор подпрограмм для решения систем линейных алгебраических уравнений. Разница с версией "для Intel" или "для AMD" только в наборе этих подпрограмм (Базовые - Lapack, BLAS, MKL и прочие, но могут быть и другие). Последним версиям LinX пофигу что тестировать - совместимы с обоими кланами цп.
Litoy.88 писал(а):
на практике у тебя получается и вовсе в двое ниже теоретической нормы
Декодер в принципе имеет ограничения по пропускной способности (какое точно - не знаю). Он тупо не справляется, причем у всех.
FPU блок
Общий модуль операций с плавающей запятой (FPU) оделён от двух целочисленных конвейеров. Поэтому когда операции достигают интерфейса диспетчеризации в конце конвейера декодирования, чтобы направиться на целочисленные блоки, все операции с плавающей запятой из этого потока переходят на планировщик работы с плавающей запятой. Там они конкурируют друг с другом за ресурсы и пропускную способность независимо от потока, к которому они принадлежат. Один FPU, производительность AVX, и L2
В худшем случае (минимум), декодер может принять 4 DP FLOP/cycle вместо 8-ми полученных. Создается очередь планировщика. При минимуме это 64 GFLOPS DP. Максимум 128 GFLOPS DP. Истина где-то посередине и это около (128-64)/2 + 64 = 96 GFLOPS DP, что многие здесь и имеют. Причем нивелируют это более высокой тактовой частотой шины и цп. Допускаю, что может быть 100 GFLOPS DP и немного выше.
А насчет меня - у меня просто неудачная либо МП, либо ОЗУ, либо обе сразу. Потому что по шине не гонится, зато прекрасно реагирует на множители. Вообще говоря, у меня и БП не отличается качеством стабилизации, поэтому мне и приходится завышать напряжения, заметил? Я имею ввиду, что вольтаж CPU_NB, CPU у меня немного выше, чем мог бы быть. А даже чуть более высокие напряжения, ведут к троттлингу по VRM (на моей МП). Дальше все ясно? -) Мне надо начать с замены БП, но пока это в мой бюджет не вписывается. Поэтому, что бы я ни делал, мне с этим железом не выйти на "норму". Но, приблизится можно -) Более лучший обдув зоны VRM, например -)
Moderator
Статус: Не в сети Регистрация: 10.06.2011
Bigsun писал(а):
Последним версиям LinX пофигу что тестировать - совместимы с обоими кланами цп.
Брехня. Последние версии linx- это 0.9.7 и 0.9.6, а не древние 0.9.1 и 0.8.0. Последняя библиотека, которая правильно работает на АМД - это 2019.01, все остальные , а кроме еще 4-х версий 2019 года уже есть даже две версии 2020 года, на амд работают неправильно.
Member
Статус: Не в сети Регистрация: 13.05.2020 Откуда: Мытищи
anta777 Правильно или нет - это другой вопрос. Я привел предел теоретической пропускной способности. Это не привязано к практическому измерению. Оценка FLOPS программы - это совсем другой вопрос, верно?
Intel MKL and other programs generated by the Intel C++ Compiler improve performance with a technique called function multi-versioning: a function is compiled or written for many of the x86 instruction set extensions, and at run-time a "master function" uses the CPUID instruction to select a version most appropriate for the current CPU. However, as long as the master function detects a non-Intel CPU, it almost always chooses the most basic (and slowest) function to use, regardless of what instruction sets the CPU claims to support. This has netted the system a nickname of "cripple AMD" routine since 2009.[9] As of 2020, Intels MKL, which remains the numeric library installed by default along with many pre-compiled mathematical applications on Windows (such as NumPy, SymPy, and MATLAB), still significantly underperforms on AMD CPUs by ignoring their supported instruction sets.[10][11] In older versions, setting the undocumented environment variable MKL_DEBUG_CPU_TYPE=5 could be used to override the vendor string dependent codepath choice and activate supported instructions up to AVX2 on AMD processor based systems resulting in equal or even better performance when compared to Intel CPUs.[12][13][14] Since at least Update 1 2020, the workaround does not work anymore.[10][11]
Member
Статус: Не в сети Регистрация: 18.04.2010 Откуда: Красноярск
Bigsun можешь себе доказывать что угодно,нам это не нужно,мы все уже прошли через разгон,это у тебя проблемы,можешь сидеть с теорией и ждать свои 100+ гфлопс на частоте 4гГц
Member
Статус: Не в сети Регистрация: 13.05.2020 Откуда: Мытищи
Litoy.88 , я сюда пришел не за этим. И форум читаешь не ты один. Кому-то будет интересно, где предел FLOPS для FX. И проблем у меня точно нет -)))
OFFTOP
Форум нужен для обмена опытом, знаниями, результатами. А вы вместо этого 80% времени обсираете друг друга. Знаешь - напиши. Не знаешь - лучше промолчать. А насчет меня, так я уже давно смирился со своим железом, и мне глубоко .... пофигу какой у меня FLOPS. Но я бы хотел выжать максимум из своих железок, принеся минимум жертв. Я уже тебе и похожим прохожим, говорил, что если вы знаете КАК, расскажите. Скажите, что конкретно надо исправить. "Примеры" это хорошо. Можно показать на примере, что другие могут сделать своп на своем бмв. "А ты че, не можешь? Лууузееер... Все же просто..." Вот примерно так у вас и происходит -)))))
Сейчас этот форум просматривают: only12889 и гости: 20
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения