Member
Статус: Не в сети Регистрация: 24.11.2007 Откуда: Самара
mag_ai писал(а):
ты картинку щелки слепенький ты наш.
Ты матчастью займись, специалист по большим архитектурам с малыми ядрами.
mag_ai писал(а):
изначально амд думало что 8 поточный код станет на рынке тяжелых вычислений популярным, но это не произошло - да и декодирование 2 блоками независимо друг от друга это тоже прибавка в производительности и "мобильности" архитектуры.
Изначально что думало АМД тебе нихрена неизвестно. Зато мы знаем чтобы у них вышло не порежь они ресурсы на 32-нм))) И они это тоже прекрасно видели. А вот что думали это вопрос)
Добавлено спустя 3 минуты 5 секунд:
mag_ai писал(а):
так я уверен что в ядре сан бриджа только 2 128 битных fmac про иви мне честно говоря пофигу да и статью откуда это брали сравнивали сан бридж и haswell предпологаю что изменения иви были незначительные. то есть я написал все верно как всегда - но вам глаз как всегда колит.
А при чём тут Сэнди вообще? Это артефакт начала 2011 года. Таки матчасть подучи, где там и как что реализовали.) В текущей их архитектуре Хасвелл используются как раз 256-битные инструкции.
Последний раз редактировалось Asilus 30.12.2013 20:28, всего редактировалось 1 раз.
Member
Статус: Не в сети Регистрация: 23.02.2013 Откуда: г. Орел
Asilus писал(а):
А при чём тут Сэнди вообще? Это артефакт начала 2011 года. Таки матчасть подучи, где там и как что реализовали.) В текущей их архитектуре Хасвелл используются как раз 256-битные инструкции.
ты достал уймись блин.
архитектура конвейера санди и haswell
#77 #77
ед что вижу перевод на fma3 и увеличение разрядности для vmul / vlau до 256 бит (+ 1 алу 1 агу).
Добавлено спустя 47 секунд:
Asilus писал(а):
Вообще-то по 1) Если вы конечно про блоки для работы с вещественной арифметикой речь ведёте)
там 2 блока fmac по 128 бит как и в ядре сан бриджа!
_________________ Мертвый киберпанк с улыбкой мутанта... (:
Member
Статус: Не в сети Регистрация: 24.11.2007 Откуда: Самара
mag_ai писал(а):
ты достал уймись блин.
При чём тут твоя картинка, мы что Сэнди Бридж обсуждаем??? Этот CPU вышел 3 года назад. Сейчас есть Хасвелл и Вишера (возможно позже появиться Каток).
mag_ai писал(а):
ед что вижу перевод на fma3 и увеличение разрядности для vmul / vlau до 256 бит (+ 1 алу 1 агу).
А что ты ещё должен видеть кроме того что ранее могли использоваться 128-битные инструкции, а теперь и 256-битные AVX2? FMA3 это в GPU-Z посмотрел или в википедии?
mag_ai писал(а):
там 2 блока fmac по 128 бит как и в ядре сан бриджа!
Там:
"блок операций с плавающей точкой, устройства предварительной выборки и декодирования инструкций, а также кэш второго уровня существуют в единичном на пару ядер экземпляре и разделяют между ними свои ресурсы"
...Основой блока FPU являются два FMAC-устройства (Floating Point Multiply-accumulate) разрядностью 128 бит. Отличие их от аналогов в K10 заключается в универсальности: если раньше за разные операции, например сложение и умножение, отвечали разные блоки, то теперь они равноценны...
Бла, бла, бла. Блок один. Ну конечно у теоретиков два FMAC это уже аж два FPU))) Ну как угодно.
Добавлено спустя 1 минуту 27 секунд:
mag_ai писал(а):
там 2 блока fmac по 128 бит как и в ядре сан бриджа!
При чём тут вообще Сэнди и его 1 ядро? У интел всё по другому работает и с другим эффектом. Речь о Буле и будущем Кавери.
Member
Статус: Не в сети Регистрация: 23.02.2013 Откуда: г. Орел
Asilus писал(а):
А при чём тут твоя картинка, мы что Сэнди Бридж осбуждаем?
haswell это первое за долгое время изменение в архитектуре - почему нужно требовать от амд предоставить такие изменения на старом (а она уже реально стара) булеподобном симроллере? ждать не научили родители?
Asilus писал(а):
А что ты уще должен видеть кроем того что ранее могли использоваться 128-битные инструкции, а теперь и 256-битные?
госпади увеличение битности 2 вектнорных блоков это еще не все - количество fmac не изменилось по отношению к санди.
Asilus писал(а):
Бла, бла, бла. Блок один.
ты - дурак. я вынес тебе диагноз. у того же сан бриджа / haswell их тоже 2 просто разрядность у haswell выше по 256 на юнит хотя исполнять линейно 2 инструкции по 256 бит он не особо то и может (хотя я не увидел такой возможности хотя кто то здесь о ней писал значит знает - верю на слово).
Asilus писал(а):
При чём тут вообще Сэнди? У интел вообще всё по другом работает и с другим эффектом.
при том вычислительные юниты у всех процессоров х86 одинаковые - прикинь? то есть это и есть "х86 архитектура" и если вдруг они перестанут быть похожими друг на друга то они перестанут быть обратно совместимыми - и х86 уйдет в трубу. поэтому все блоки х86 типичны и отличаются только... хотя че это я не не пиши бред мне нравиться тебя троллить.
_________________ Мертвый киберпанк с улыбкой мутанта... (:
Последний раз редактировалось ANDRONFRAG 31.12.2013 14:23, всего редактировалось 1 раз.
Member
Статус: Не в сети Регистрация: 24.11.2007 Откуда: Самара
mag_ai писал(а):
haswell это первое за долгое время изменение в архитектуре - почему нужно требовать от амд предоставить такие изменения на старом (а она уже реально стара) булеподобном симроллере? ждать не научили родители?
Ну изменения там косметические конечно, чуток побольше чем в Иви, где они тоже были, но менее значительные. Что обещали в СР помимо допдекодера я уже не очень помню. Основной постулат был что сделают "великолепный параллелизм".
mag_ai писал(а):
госпади увеличение битности 2 вектнорных блоков это еще не все - количество fmac не изменилось по отношению к санди.
Так в этих новых инструкциях и фишка, на них ставка, а не на старые SSE. В этом плане вся работа велась.
mag_ai писал(а):
ты - дурак. я вынес тебе диагноз. у того же сан бриджа / haswell их тоже 2 просто разрядность у haswell выше по 256 на юнит хотя исполнять линейно 2 инструкции по 256 бит он не особо то и может (хотя я не увидел такой возможности хотя кто то здесь о ней писал значит знает - верю на слово).
Сдаётся мне это ты дурак. Специалист по малым ядрам сидящий в этой теме и выискивающий дураков. Это просто верх дебилизма) Что он там "не особо-то" и может? Есть поддержка значит может, без всяких твоих "малых ядер", "фактически" и не "особо-то". Именно для этого и ввели поддержку 256-битных, а в Броадвелл хотят 512-битные ввести)
mag_ai писал(а):
при том вычислительные юниты у всех процессоров х86 одинаковые - прикинь? то есть это и есть "х86 архитектура" и если вдруг они перестанут быть похожими друг на друга то они перестанут быть обратно совместимыми - и х86 уйдет в трубу. поэтому все блоки х86 типичны и отличаются только... хотя че это я не не пиши бред мне нравиться тебя троллить.
Прикинь ты опять о малых ядрах) Попробуй потроллить вот это:
...А вот два таких ядра объединяются в модуль. В последнем еще есть один блок FPU/MMX/SSE и т. п. (на двоих), кэш инструкций емкостью 64К и 2 МиБ кэш-памяти второго уровня...
Прикинь) Угадай это из какой статьи? Не из Орловского вестника по малым ядрам, верно? На 2 ALU - 1 FPU, это надеюсь понятно тебе трольчишка)
Ах да)
The situation for floating point is perhaps the worst of all. Each K10 core had three 128-bit floating point units. These could perform x87 scalar floating point, 128-bit SSE vector floating point, 64-bit MMX vector integer, and 128-bit SSE vector integer operations. Bulldozer has four units in its floating point pipeline. Two are for integer operations (64-bit MMX and 128-bit SSE); the other two are for floating point. In addition to the scalar x87 and vector SSE instructions, the two floating point units can be ganged together, to perform new 256-bit Advanced Vector Extensions (AVX) floating point instructions. Given that this pipeline is now shared between two threads, it's a big reduction in per-thread execution resources.
2 юнита в FPU - 2 операции на такт. FPU в K10 имел 3 юнита и мог 3 операции выполнять.
Member
Статус: Не в сети Регистрация: 23.02.2013 Откуда: г. Орел
Asilus писал(а):
Что он там "не особо-то" и может? Есть поддержка значит может
а есть еще и порты... на которых эти функциональные блоки весят, но это видимо ничего не говорит?
Asilus писал(а):
Попробуй потроллить вот это
какая то хрень - полная охинея отрезок чего то не понятного.
Добавлено спустя 15 минут 36 секунд:
Asilus писал(а):
2 юнита в FPU - 2 операции на такт. FPU в K10 имел 3 юнита и мог 3 операции выполнять.
Цитата:
FMA = Floating-point Multiply-Accumulate (либо Multiply-Add) - общепринятое наименование комбинированных инструкций D=A*B+C. Предполагается, что в Бульдозере будет два полночастотных 128-разрядных (2*64, 4*32) устройства FMA, что позволит выполнять до 8 операций с плавающей точкой двойной точности за такт (16 - одинарной точности). У Интела, по слухам, двойной FMA может появиться в процессоре Sandy Bridge (переименованный Gesher).
_________________ Мертвый киберпанк с улыбкой мутанта... (:
Member
Статус: Не в сети Регистрация: 24.11.2007 Откуда: Самара
mag_ai писал(а):
а есть еще и порты... на которых эти функциональные блоки весят, но это видимо ничего не говорит?
Вероятно об этом в курсе в Интел что там есть порты? Главное что не нужно более склеивать 128-битные в 256-битные.
mag_ai писал(а):
какая то хрень - полная охинея отрезок чего то не понятного.
Хм, а что там непонятного из приведённого текста? Это обзор Буля на ixbt. напиши разоблачительный пост, что нет не 1 FPU там, а 2) С твоей логикой в K10 их аж 3 было.
Добавлено спустя 49 секунд: А по факту в модуле буля 2 целочисленных и 2 вещественных юнита в FPU, т.е. меньше чем в постоянно упоминаемом тобой Сэнди на ядро, ибо на 1 ядро в модуле может работать только один юнит (на 128-битных) и лишь при выполнении 256-битных они объединяются. Т.е. по факту весь FPU он на модуль приходится (как везде и пишут), а не на ядро. Отмечаются какие-то конфликты в их работе (юнитов).
Добавлено спустя 3 минуты 32 секунды:
mag_ai писал(а):
что позволит выполнять до 8 операций с плавающей точкой двойной точности за такт
Старый FPU имел 3 одинаковых юнита и формально умел 3 операции на такт. У нового - 4 юнита, но два из них целочисленные, а два - плавучка. В Сэнди два юнита на ядро, у Буля - два на модуль. 8 операций это 8 юнитов на 8 ядер в 4-х модулях.
Member
Статус: Не в сети Регистрация: 23.02.2013 Откуда: г. Орел
Цитата:
Не только старый SSE код (которого уже целые вагоны, и который будет существовать еще лет 10 минимум), но и новый 256-битный AVX код. Ваш метод увеличения SSE-производительности - тупиковый. После IB у Интел и у АМД не будет ни одного нового процессора, который содержит независимый FMUL. В любом случае будет FMAC, который умеет выполнять как FMUL, так и FMA-операции. Какое-то время возможен независимый FADD, который будет выполнять часть простых операций, чтобы они не мешали FMAC выполнять сложные. В любом случае FPU финального представителя архитуктуры BD будет выглядеть как 4x256FMAC. И проще сделать с самого начала 2x128FMAC и затем их размножать и расширять, чем сделать сначла 2x128FMUL+2x128FADD, а затем переделывать их в FMAC'и. АМД не в том положении, чтобы отрабатывать трудоемкие тупиковые ветви.
Цитата:
Главное что не нужно более склеивать 128-битные в 256-битные.
проблема не слеить а выполнить - за наименьшие количество тактов.
Цитата:
напиши разоблачительный пост, что нет не 1 FPU там, а 2
дайте линк где это пишут это раз а не дербаньте по одной строчке.
Цитата:
А по факту в модуле буля 2 целочисленных и 2 вещественных юнита в FPU, т.е. меньше чем в постоянно упоминаемом тобой Сэнди на ядро, ибо на 1 ядро в модуле может работать только один юнит (на 128-битных) и лишь при выполнении 256-битных они объединяются.
не ты укурен.... ядро работает ему ничего не мешает исполнять 1 128 битную команду - 2 ядрам 2 128 битные команды у санди другая проблема оба модуля fmac в приделах одного ядра и ему приходится либо исполнять 1 128бит команду либо слеивать 2 128битные в одну и исполнять.
_________________ Мертвый киберпанк с улыбкой мутанта... (:
не ты укурен.... ядро работает ему ничего не мешает исполнять 1 128 битную команду - 2 ядрам 2 128 битные команды
Да что ты будешь делать, накуренный дурак это уже страшно) Вероятно что-то мешает в определённых моментах и исполняется только 1 команда на модуль. Может сама реализация общего PPE SMT с общим доступом на 2 ядра ущербная. Я не в курсе этого.
mag_ai писал(а):
у санди другая проблема оба модуля fmac в приделах одного ядра и ему приходится либо исполнять 1 128бит команду либо слеивать 2 128битные в одну и исполнять.
Да неужели) С 1 ядром вопросы отсутствуют изначально, это не модуль с общими ресурсами, нет узких мест.
Member
Статус: Не в сети Регистрация: 23.02.2013 Откуда: г. Орел
Asilus их той статьи надо понимать что человек писал не особо вдаваясь в вопросы технического плана (как минимум наличие смайлов в тексте) и того:
Цитата:
Но единственное, что есть собственного у нового ядра — это кэш данных первого уровня, емкостью 16К. А вот два таких ядра объединяются в модуль. В последнем еще есть один блок FPU/MMX/SSE и т. п. (на двоих)
то есть fpu у буля нет там fmac причем у первых булей это вообще fma4 - при этом он правильно выразил идею общих ресурсов - 1 модуль 1 256 битный fmac состоящий из двух отдельных 128 битных (независимых) fmac.
Asilus писал(а):
Я не в курсе этого.
ничего не мешает все работает.
Asilus писал(а):
Да неужели) С 1 ядром вопросы отсутствуют изначально, это не модуль с общими ресурсами, нет узких мест.
да неужели? (реали?)
_________________ Мертвый киберпанк с улыбкой мутанта... (:
Member
Статус: Не в сети Регистрация: 24.11.2007 Откуда: Самара
mag_ai писал(а):
то есть fpu у буля нет там fmac причем у первых булей это вообще fma4 - при этом он правильно выразил идею общих ресурсов - 1 модуль 1 256 битный fmac состоящий из двух отдельных 128 битных (независимых) fmac.
Терминология везде разная. В нашей расейской терминлогии, пока так. FPU и юниты из коих он состоит. У буля FPU это PPE SMT состоящий из 2 целочисленных юнитов и 2 с плавучкой, общий на модуль.
По поводу Хасвелл это было сделано чтобы 256-битные AVX-инструкции выполнялись бы с той же скоростью, что и 128-битные, и декодировались бы не в режиме FastPath Double (как сейчас), а FastPath Single. Не разбивая каждую 256-битную AVX-инструкцию на две 128-битные. Порты в Хасвелл также переработали и добавили (сразу 2) - теперь их 8. Увеличили пропускною способность кешей L1\L2.
Добавлено спустя 7 минут 59 секунд:
mag_ai писал(а):
ничего не мешает все работает.
Вряд ли ничего не мешает ибо проблем в буле море, прежде всего с кэшем. Медленной записью из 256-битных AVX регистров в память, AMD и AVX - вещи малосовместимые. И.т.д.
mag_ai писал(а):
да неужели? (реали?)
Рили, рили. Ды ты опять троллишь)
Последний раз редактировалось Asilus 30.12.2013 22:26, всего редактировалось 1 раз.
Member
Статус: Не в сети Регистрация: 23.02.2013 Откуда: г. Орел
Asilus мне пофиг что у вас в голове - там fmac это не fpu. об этом я писал выше и привел пост с форума хобота если мне не верите то хоть погуглите по содержанию поста.
Добавлено спустя 4 минуты 37 секунд:
Asilus писал(а):
Вряд ли ничего не мешает ибо проблем в бeле море, прежде всего с кэшем. Медленной записью из 256-битных AVX регистров в память, AMD и AVX - вещи малосовместимые.
причем тут проблемы с кешем и исполнение двух 128 битных команд? причем вообще проблемы с avx который прекрасно исполняется.... что не скажем чтоб выкрутиться?
Asilus писал(а):
По поводу Хасвелл это было сделано чтобы 256-битные AVX-инструкции выполнялись бы с той же скоростью, что и 128-битные, и декодировались бы не в режиме FastPath Double (как сейчас), а FastPath Single. Не разбивая каждую 256-битную AVX-инструкцию на две 128-битные. Порты в Хасвелл также переработали и добавили (сразу 2) - теперь их 8.
Member
Статус: Не в сети Регистрация: 24.11.2007 Откуда: Самара
mag_ai писал(а):
мне пофиг что у вас в голове - там fmac это не fpu. об этом я писал выше и привел пост с форума хобота если мне не верите то хоть погуглите по содержанию поста.
И мне пофиг что у вас в голове, разговор начинался с того что FPU в буле один на модуль. И называйте блок FPE SMT состоящий из 2 целочисленных юнитов и 2 с плавучкой, общий на модуль хоть как, но это FPU и есть. Он и обслуживает ALU. Это не я придумал это абсолютно во всех статьях присутствует (то что FPU общий). Если же принять за FPU юниты FMAC, то у K10 их уже 3 на ядро окажется.
Добавлено спустя 3 минуты 33 секунды:
mag_ai писал(а):
причем тут проблемы с кешем и исполнение двух 128 битных команд? причем вообще проблемы с avx который прекрасно исполняется.... что не скажем чтоб выкрутиться?
При том что там одни сплошные недоделки, вот при чём. Речь идёт о том, что реализация работы общего FPU тоже ховно полнейшее. Проблемы с кэшем лишь продолжение проблем с FPU.
"Интересно, починят в Steamroller багу Piledriver с очень медленной записью из 256-битных AVX регистров в память? А то пока AMD и AVX - вещи малосовместимые."
"не только AVX, но и вообще запись в кэши сильно хромает. Да и чтение не блещет… Переделывать всю кэш-систему надо."
Это у автора статей по архитектурам CPU спрашивали. Говорите прекрасно исполняется?
Member
Статус: Не в сети Регистрация: 24.11.2007 Откуда: Самара
mag_ai писал(а):
это вообще никак не решает проблемы fma модулей которые весят на двух первых портах я еще раз привожу эту картинку
Как не решает если:
Порты 0 и 1 также претерпели изменения — в них появилась поддержка FMA3. Седьмой (восьмой) порт Intel ввела для увеличения эффективности и снятия «блокировки» — когда второй и третий порты работают на загрузку, седьмой (восьмой) порт может заниматься выгрузкой, что раньше было просто невозможно. Данное решение необходимо для обеспечения высокого темпа исполнения AVX/FMA3-кода.
Также в Haswell вдвое увеличили пропускную способность L1—L2, при этом остались прежние величины задержки. Такая мера была просто необходима, так как 32-байтной записи и 16-байтного чтения попросту не хватило бы при наличии восьми портов запуска, а также 256-битных AVX и FMA3.
Дружище ты же полный ландырь, не нужно изображать что хоть что-то понимаешь в том что пишешь)
Member
Статус: Не в сети Регистрация: 23.02.2013 Откуда: г. Орел
MrSlon я говорил что они могут исполнять даже fma4 в отличии от интелов которые кидались радмапами с fma4 а потом резко подобрели к fma3 и фактически буль ед процессор с fma4. точней я не правильно выразился не исполнять а выполнять.
_________________ Мертвый киберпанк с улыбкой мутанта... (:
Последний раз редактировалось mag_ai 30.12.2013 22:42, всего редактировалось 1 раз.
Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 9
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения