Member
Статус: Не в сети Регистрация: 10.09.2015 Откуда: Санкт-Петербург
VINRARUS писал(а):
Я к тому что для многопоточки лучше общий Л3, чем большой раздельный Л2 (без л3).
Если задачи зависят друг от друга (я имею в виду, результаты операций, выполняемых на разных ядрах и из разных потоков), то разделяемый L3, конечно, это очень хорошо, иначе придется синхронизироваться через память. Конечно, быстрый L2 не спасет, если придется постоянно памяти ждать. Даже с HT может просто не быть потоков-кандидатов на выполнение, пока процессор будет выборки из памяти ждать.
VINRARUS писал(а):
Когда то на 1 сайте табличку сфоткал
Все верно. Поэтому нет смысла его сейчас выключать. В Cinebench R15 у меня, если не изменяет память, с HT на примерно 40% быстрее, чем без, и это на 2600k.
Leonator писал(а):
Так-то да. Но собрать двухпроцессорную системку из 2 PIII-S при желании и сейчас можно, если сильно поискать, и это будет тянуть Windows XP и офис-интернет.
Двупроцессорная это все-таки не то же самое, что двуядерная (межпроцессорное соединение так быстро и просто, как межъядерное не сделать), к тому же, это всегда стоит дорого. В то время это было как будто сейчас на 6900К компьютер собирать.
Member
Статус: Не в сети Регистрация: 23.02.2013 Откуда: г. Орел
SmaSheR писал(а):
банальное правило больше объем - выше латентность работает как с кэшами, так и с памятью и с pci-e.
с чего вдруг? как вообще латенси и объем связаны? что опять за магия которую я не понимаю... я все же маг 101 левала.
SmaSheR писал(а):
с тем же КП: выше латентность
да не выдумывайте вы! хрень пишите - латенси от кп не зависит вообще она в 90% весит на памяти. в памяти есть ячейки и в общей сложности 3 процесса запись чтение и стирание. в чтение это доступ к ячейки. запись это как быстро к доступной ячейки может быть сохранен заряд. и стирание это удаление заряда из ячейки (обычно для перезаписи). все это работает в нс - те требуется время на выполнение (те работа с банками памяти). от реализации кп это никак не зависит то есть скажем у дектопных материнок 2 канальный кп и 4 слота под память то есть на одном кп цпу весит по 2 слота в 4 канальном кп слотов под память 4 либо 8 то есть либо по одному модулю на кп либо как в дектопах по 2 модуля. вот и все никакой магии нет - работает все это быстрей потому что дектопные процессоры могут читать / писать данные со скоростью 128бит*на частоту памяти а серверные цпу это делают со скоростью 256*на частоту памяти. все латенси при использовании одинаковых модулей и частоты памяти будут - одинаковые.
SmaSheR писал(а):
DT хасвел в дефолте с ТБ до 4ГГЦ в синглтред сайнбенче быстрее HEDT хасвелл-е на 4.3.
опять фигня 4,3ггц у 5860 допустим разгон только вот у 4790 турбо режим уже 4,4ггц. на 100мгц больше. простая математика - частоту цпу делим на баллы в тесте... получим 1 балл = Х мгц 4300мгц / 173 = 24.85549132947977 4400мгц / 181 = 24.30939226519337 то есть результат уровня погрешности теста в одном случаи требуется 25мгц в другом 24мгц правда разница между частотами 0,55мгц. для меня это уровень погрешности.
Добавлено спустя 19 минут 51 секунду: как пример еще одно вычисление дабы показать что это погрешность. 4,7ггц у 4790к: 4700 / 192 = 24.47916666666667 можете пересчитывать сколько угодно ))) мне врать незачем на интел не работаю.
_________________ Мертвый киберпанк с улыбкой мутанта... (:
Member
Статус: Не в сети Регистрация: 31.08.2005 Откуда: Петербург Фото: 0
mag_ai Воу-воу. Я с тобой в основном согласен, но ты уже заговорился. Видел, на емких плашках тайминг tRFC больше, чем на малоемких? А если к комплекту памяти добавить еще один, CR1 надо повышать до CR2, а в тяжелых случаях и до 3? Латентность измеряемая соответственно падает из-за увеличенных задержек контроллера, чтобы смог память тянуть.
mag_ai писал(а):
латенси от кп не зависит вообще
Ога, конечно. Uncore/cache погоняй у проца отдельно от ядер...
_________________ www.btbooks.ru, www.forums.btbooks.ru - официальный русскоязычный фансайт Battletech
Заблокирован Статус: Не в сети Регистрация: 03.05.2013
Денис писал(а):
Владельцы 2500K, 2600K или более новых i5K/i7K ждут Cannonlake и надеются на чудо.
Лично я жду чуда от амд или хотя бы много ядер с перформансом на ядро как у сандаля за муку . Без этого интель и дальше будет всех дурить . Или выпустит боНбу , но мне она не нужна , с их политикой смены сокета лучше уж амд поддержать , вот будет ли за что ? Посмотрим
_________________ Faith, you're driving me away You do it everyday You don't mean it But it hurts like hell
Member
Статус: Не в сети Регистрация: 23.02.2013 Откуда: г. Орел
Leonator и в чем проблема trfc тайминг который можно вообще не трогать. когда то материнки не позволяли тюнинговать эти тайминги и ничего все жили прекрасно...
Leonator писал(а):
А если к комплекту памяти добавить еще один, CR1 надо повышать до CR2
а это уже не факт. все зависит насколько эти комплекты имеют микросхем и тд можно получить ср2 и на 2 планшетках и ничего не добавляя в систему.
Leonator писал(а):
Латентность измеряемая соответственно падает из-за увеличенных задержек контроллера, чтобы смог память тянуть.
... и опять тут не кп виноват а память. не надо все валить на с больной головы на здоровую. хорошим примером служит другой интерфейс - sli. ну вот нельзя там втыкать разные карты при этом в режимах синхронизации будет выбран режим по слабейшему элементу. вы прекрасно должны понимать что модуль должны работать с одинаковыми показателями задержек по причине синхронной работы - те если один модуль выполнит операцию чтения быстрей чем соседний модуль это в конечном итоге будет "ошибка чтения" как то так. поэтому и повышаются тайминги автоматом потому что нельзя допустить рассинхрона.
Leonator писал(а):
Ога, конечно.
вот реально же - конечно так. дальше какой то уже троллинг. есть по существу что добавить? или мы скатимся к обсуждению статей года так 2005+ по озу и ее разгону.
_________________ Мертвый киберпанк с улыбкой мутанта... (:
А какие "те же"? Если не рендерить, не компилировать параллельно или сервер не собирать (т.е. исключить редкие ситуации, где ядра будут решать совсем независимые или малозависимые друг от друга задачи), то 6 ядер +50% дадут разве только к цене.
Обработка фотографий и видео вполне бытовые задачи, которые получают линейный прирост от числа ядер. Другое дело, что почти все программы для этого уже давно научились использовать для обсчётов видеокарту. Но всё равно прирост от числа ядер там вполне ощутимый. Но интель с маниакальным упорством втюхивает в старшие процессоры никому там не нужное встроенное видео вместо ядер.
Member
Статус: Не в сети Регистрация: 13.12.2005 Фото: 6
mag_ai писал(а):
с чего вдруг?
Эмпирический закон Как и закон Мура.
mag_ai писал(а):
да не выдумывайте вы! хрень пишите - латенси от кп не зависит вообще
А то я не сравнивал латентность в 2-х и 3-х канальном режиме на своей профильной системе, и разгоном анкор не занимался, ага. В общем случае - еще как зависит. У отдельных реализаций разница на практике может и отсутствовать, но это проверять надо, а не поднимать над головой транспарант "Серверный - значит быстрее".
mag_ai писал(а):
опять фигня 4,3ггц у 5860 допустим разгон только вот у 4790 турбо режим уже 4,4ггц. на 100мгц больше.
Согласен. Запамятовал, что он до 4,4 бустит, думал, что до 4, а это - сток. Тем не менее, в синглтред пассмарке e3-1230v3 чуть быстрее i7-5930k, бустят они оба до 3.7. https://www.cpubenchmark.net/singleThread.html
Member
Статус: Не в сети Регистрация: 23.02.2013 Откуда: г. Орел
Leonator писал(а):
Между 3000 и 4000 на Haswell-E уже заметна разница в латентности
с чего вдруг? выше я приводил график латенси к частоте. рекомендую.
SmaSheR писал(а):
А то я не сравнивал латентность в 2-х и 3-х канальном режиме на своей профильной системе
и что оказалось дерьмо? не удивительно ибо 3 канала нифига не симметричная система? вы никогда не задумывались почему все в пк системах "четное"? ну это так тема для размышления.
SmaSheR писал(а):
"Серверный - значит быстрее"
конкретно идет речь про аппаратный уровень и да он "быстрей" по определенным факторам которые я написал несколько раз выше. аминь.
SmaSheR писал(а):
Тем не менее, в синглтред пассмарке e3-1230v3 чуть быстрее i7-5930k, бустят они оба до 3.7.
да блин сколько раз повторить. вы понимаете что н количество баллов в тесте это например разводка на материнки даст? или например если во время теста какой нибудь процесс системный начнет стучать в интернет то некоторое количество тактов уйдет туда и тд. разница ничерта не колоссальная она может в полной мере быть на уровне качества тех же планшеток памяти. 2093 и 2086 - ну что это разница? при этом вы видите что тест ничерта не раскрывает архитектуры либо взять с очень разных систем потому что 4790к очень быстрей чем 6700к - магия.
_________________ Мертвый киберпанк с улыбкой мутанта... (:
Member
Статус: Не в сети Регистрация: 10.09.2015 Откуда: Санкт-Петербург
hendehog писал(а):
Обработка фотографий и видео вполне бытовые задачи, которые получают линейный прирост от числа ядер. Другое дело, что почти все программы для этого уже давно научились использовать для обсчётов видеокарту. Но всё равно прирост от числа ядер там вполне ощутимый. Но интель с маниакальным упорством втюхивает в старшие процессоры никому там не нужное встроенное видео вместо ядер.
Не совсем соглашусь. Это задачи, которые решаются в быту, но относительно нечасто. Насчет прироста и числа ядер я бы сказал так: прирост будет почти линейный в том случае, если ядра такие же. Т.е. если бы интел взяла и сделала вместо 6700К шестиядерный процессор (назовем его 6750K) с теми же затратами транзисторного бюджета, тем же тепловым пакетом и, т.о., той же ценой (т.е. предоставила бы в мейнстрим дешевые 6 ядер), то каждое ядро 6750K было бы медленнее, чем ядро 6700К, т.о., процессор был бы медленнее везде, где все 6 ядер не были бы загружены. 6750К требовал бы большего параллелизма, чем 6700К и был бы медленнее каждый раз, как он бы его не получал. Те задачи, которые вы описали, отлично параллелятся на 8 потоков и загружают 4 ядра под завязку. Если бы это были 6 ядер в тот же транзисторный бюджет, они бы не работали быстрее, а в другой бюджет - так это же 6800К Я открыл один известный магазин и увидел там, что 6700К стоит 26900р., а 6800К стоит 35130р. За МП, конечно, тоже придется доплатить, но вроде как все ОК: +/- лапоть за 50% доплаты получается 50% прироста производительности. Речь же идет о том, что хочется 6 ядер за ту же цену, или я не так понял?
Member
Статус: Не в сети Регистрация: 13.12.2005 Фото: 6
mag_ai писал(а):
и что оказалось дерьмо? не удивительно ибо 3 канала нифига не симметричная система? вы никогда не задумывались почему все в пк системах "четное"?ну это так тема для размышления.
Нет, латентность оказалась заметно выше, но на производительности это не сильно отразилось. Объяснение "так не четное же" не катит - видел тест SB-E так по латентности было четко 4>3>2.
mag_ai писал(а):
конкретно идет речь про аппаратный уровень и да он "быстрей" по определенным факторам которые я написал несколько раз выше.аминь.
Больше - не значит быстрее. Как я уже не раз писал. Аллилуйя!
mag_ai писал(а):
2093 и 2086 - ну что это разница?
Разница какая-никакая. Что уж удалось найти, ленивые нынче тестеры пошли. Ты, кстати, не привел примеров как на одной частоте HEDT камни разрывают десктопные Там, кстати, усредненные результаты сотен систем (подробнее - по клику на название модели камня). И быструю память, например, шанс встретить в HEDT системе повыше будет, чем в рабочей станции/сервере на DT зионе.
mag_ai писал(а):
с чего вдруг? выше я приводил график латенси к частоте. рекомендую.
В огороде бузина... У тебя был график в зависимости от частоты памяти а не от частоты КП (uncore) или частоты ядра, так как она на нее завязана.
Заблокирован Статус: Не в сети Регистрация: 03.05.2013
mag_ai писал(а):
е удивительно ибо 3 канала нифига не симметричная система? вы никогда не задумывались почему все в пк системах "четное"?
ХЗ , я не спец , но что-то я не вижу кривости к примеру у видаков с шиной 192 и 384 бита , думаю там 3 и 6 каналов по те же 64 бита , не вижу ущербности рез-в из-за "нечетности" , все это шняга
_________________ Faith, you're driving me away You do it everyday You don't mean it But it hurts like hell
Member
Статус: Не в сети Регистрация: 23.02.2013 Откуда: г. Орел
SmaSheR писал(а):
Нет, латентность оказалась заметно выше
да с чего вдруг то? блин вы мне приведите нормальный пример а не то что "мне тип кажется / я замерял" мне честно срать что кто намерил когда то там. я конкретно спрашиваю вы понимаете почему у вас латенси растет или нет? хотя выше я вам уже 100500 раз пояснил почему она растет и как этого избежать.
SmaSheR писал(а):
Больше - не значит быстрее.
я писал тогда о еши в цпу и тут вопрос "больше - быстрей" имеет место быть потому что ассоциативность как бэ. для озу и ее псп решает частота + шина памяти. латенси тут вообще будет с боку припеку ибо даже переход с менее частотной ддр3 с более низкими задержками на ддр4 с высокими и небольшой частотой это прекрасно показал только в очень небольшом наборе тестов были просадки на процентов 10% а дальше частота стала больше 2133 и все приехали - ддр3 начала проигрывать только при разогнанных частотах и очень низких задержках может конкурировать со стандартными планками ддр4 на частоте больше 2,6ггц.
SmaSheR писал(а):
Ты, кстати, не привел примеров как на одной частоте HEDT камни разрывают десктопные
любой тест где кеш решает и псп в том числе. где ядра решают тож будет за серверными камнями. я не говорил что 1 ядро серверника будет намного лучше дектопного я говорил о том что эти ядра по производительности буду идентичные с возможностью того что серверный камень обладая большей л3 в некоторых тестах наберет больше дектопника.
SmaSheR писал(а):
Там, кстати, усредненные результаты сотен систем (подробнее - по клику на название модели камня). И быструю память, например, шанс встретить в HEDT системе повыше будет, чем в рабочей станции/сервере на DT зионе.
ну вот опять "если повезет бла бла" есть конкретные тесты конкретных систем если соответствие между ними нет то и результат будет колебаться и разница там уровня погрешности. нет чего такого что доказывали что ядра разные и одни хуже других. конкретно уж тогда нужны тесты где в пересчете на 1мгц и с прогонами около 100 чтоб что то доказать. докажите - идите сразу в суд на интел а то продают дерьмо в серверном сегменте не чита дектопным камням. лол да и только.
SmaSheR писал(а):
У тебя был график в зависимости от частоты памяти а не от частоты КП (uncore) или частоты ядра, так как она на нее завязана.
что вы хотите убавляете частоту на цпу падает частота кп - растут задержки на кп. это даже школьнику понятно будет. 100 мгц опроса 50 мгц опроса - где будет задержка ниже? вот вот решайте простые логические задачи прежде писать фигню на тех. форуме.
ГСК17 видеокарта обращается к банкам памяти напрямую те к каждому кп подведены линии до определенных микросхем. в цпу другая архитектура они общаются через л2-л3 с озу то есть он спокойно может и с 3 кп читать проблема в том что как объяснить то... в этом мире информация храниться в битах а все пк системы двоичные поэтому в 3 банка сложней записать чем в 4. ну вот поэтому задержки немного выше на кп но это случай как и с нетбрустом у интел просуществовал только одно поколение и был заменен на логичные 4 канала... поэтому приводить проблемы не симметричных систем как аргумент не стоит - они не типичны.
// вообщем мне не когда писать одну и туже фигню по 8 раз. еще раз будут актуальные вещи которые показывают "какой я дурак что так считаю" я отпишусь а на этом все - надоело есть более важные дела.
_________________ Мертвый киберпанк с улыбкой мутанта... (:
Member
Статус: Не в сети Регистрация: 10.09.2015 Откуда: Санкт-Петербург
mag_ai писал(а):
для озу и ее псп решает частота + шина памяти. латенси тут вообще будет с боку припеку ибо даже переход с менее частотной ддр3 с более низкими задержками на ддр4 с высокими и небольшой частотой это прекрасно показал только в очень небольшом наборе тестов были просадки на процентов 10% а дальше частота стала больше 2133 и все приехали - ддр3 начала проигрывать только при разогнанных частотах и очень низких задержках может конкурировать со стандартными планками ддр4 на частоте больше 2,6ггц.
Все правильно. Латентность указана в тактах, насколько я помню. Если она выросла на 1/6, а частота на 30%, то будет работать быстрее.
Заблокирован Статус: Не в сети Регистрация: 03.05.2013
mag_ai писал(а):
видеокарта обращается к банкам памяти напрямую те к каждому кп подведены линии до определенных микросхем. в цпу другая архитектура они общаются через л2-л3 с озу то есть он спокойно может и с 3 кп читать проблема в том что как объяснить то... в этом мире информация храниться в битах а все пк системы двоичные поэтому в 3 банка сложней записать чем в 4. ну вот поэтому задержки немного выше на кп но это случай как и с нетбрустом у интел просуществовал только одно поколение и был заменен на логичные 4 канала... поэтому приводить проблемы не симметричных систем как аргумент не стоит - они не типичны.
Да ну , дичь втираешь , те же проблемы должны появляться при наличии в системе планок в количестве больше одной , или как там ты бит один делить на 2 планки собрался ? Аналогично и с 4 каналами , я лично не вижу разницы , что 2 , что 3 , что хоть 100500 их будет . Важна реализация да и только . У видаков насколько знаю тоже есть кеш
_________________ Faith, you're driving me away You do it everyday You don't mean it But it hurts like hell
Member
Статус: Не в сети Регистрация: 23.02.2013 Откуда: г. Орел
ГСК17 как бэ объяснить то вся проблема не только в том что биты нужно в равной степени делить между несколькими банками а еще в конечной нагрузки на каждый кп и как работает подсистема памяти в цпу. те чтение идет не битами а страница... ну вот как бэ страница должна быть "симметричной". аааа... это сложно и честно говоря я сам далек от этой темы системные программисты которые разбираются в памяти и использовании ее лучше меня это объяснят что да как.
ГСК17 писал(а):
У видаков насколько знаю тоже есть кеш
у видеокарт кеш есть только на "кластер" для нв это гпс то есть в одном кластере л2 и один кп на 64 бита - а в цпу л2-л3 и кп работает через весь кеш. как хоть объяснить у видеокарт тож есть "ядра" но они имеют собственные кп через которые и работают. для видеокарт система выглядит так кп (свой кп) >> л2 (свой кусок) >> гпс. для цпу это будет кп (общий на все ядра) >> л2 (раздельная на ядра или общая не важно кп пишет в нее ему это не важно) или л3 (общая для всех ядер) >> ядро цпу. разница как построена система работы кешей / памяти. видеокарты изначально это очень многоядерный кристалл и например языки программирования для них (шейдеры) изначально хорошо параллелятся в том числе например текстуры не требуется хранить "цельным" массивом в цпу же в памяти все хранится "большими кусками" потому что методы исполнения у них другие. фиг знает поняли вы меня или нет... но как то так.
_________________ Мертвый киберпанк с улыбкой мутанта... (:
Member
Статус: Не в сети Регистрация: 12.04.2012 Откуда: UA, Чорнобиль. Фото: 37
1. Давайте не сравнивать видеокодирование на цпу и гпу - результат разный. 2. Скорость опроса и задержки доступа самой памяти ето разные вещи. 3. Помню была игра где FX-6300 сливал 4300, хотя 8300 был значительно впереди. Правда потом пофиксили.
_________________ 1я блокировка по нац. признаку это ксенофобия. 2я блокировка сразу после 1й по той же причине это уже расизм. 3я такая же будет фашызмом. Растёте...
Member
Статус: Не в сети Регистрация: 10.09.2015 Откуда: Санкт-Петербург
SmaSheR
mag_ai писал(а):
ГСК17 как бэ объяснить то вся проблема не только в том что биты нужно в равной степени делить между несколькими банками а еще в конечной нагрузки на каждый кп и как работает подсистема памяти в цпу. те чтение идет не битами а страница... ну вот как бэ страница должна быть "симметричной"
Если вы имеете в виду, что у вас машинное слово, допустим, 8 бит, а канала 3, и это может вызвать проблемы, то, на самом деле, нет, адресация будет такая же, как с одним, они просто чередуются. Каждый первый бит будет в банке №1, второй в банке №2, третий в банке №3. Если вы хотите прочитать 17е слово, то смещение получится равно 129 и надо будет вычитать биты со 128 по 135. Чтение будет идти, соответственно, из банков: 128й бит из банка 3 129й бит из банка 1 130й бит из банка 2 131й бит из банка 3 132й бит из банка 1 133й бит из банка 2 134й бит из банка 3 135й бит из банка 1
Просто начало слова будет в банке 3, а конец в банке 1. Пока один банк обновляется, второй уже готов - в этом и плюс. Чем активнее нужно читать/писать в память, тем от этого толку больше. Это уже зависит от задач и процессоров. Если я правильно понял, о чем речь
Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 13
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения