Часовой пояс: UTC + 3 часа




Форум закрыт Новая тема / Эта тема закрыта, вы не можете редактировать и оставлять сообщения в ней. Закрыто  Сообщений: 253 • Страница 9 из 13<  1 ... 6  7  8  9  10  11  12  13  >
  Пред. тема | След. тема 
В случае проблем с отображением форума, отключите блокировщик рекламы
Автор Сообщение
 

Member
Статус: Не в сети
Регистрация: 24.11.2007
Откуда: Самара
mag_ai писал(а):
ты картинку щелки слепенький ты наш.

Ты матчастью займись, специалист по большим архитектурам с малыми ядрами.

mag_ai писал(а):
изначально амд думало что 8 поточный код станет на рынке тяжелых вычислений популярным, но это не произошло - да и декодирование 2 блоками независимо друг от друга это тоже прибавка в производительности и "мобильности" архитектуры.

Изначально что думало АМД тебе нихрена неизвестно. :-) Зато мы знаем чтобы у них вышло не порежь они ресурсы на 32-нм))) И они это тоже прекрасно видели. А вот что думали это вопрос)

Добавлено спустя 3 минуты 5 секунд:
mag_ai писал(а):
так я уверен что в ядре сан бриджа только 2 128 битных fmac про иви мне честно говоря пофигу да и статью откуда это брали сравнивали сан бридж и haswell предпологаю что изменения иви были незначительные. то есть я написал все верно как всегда - но вам глаз как всегда колит.

А при чём тут Сэнди вообще? Это артефакт начала 2011 года. Таки матчасть подучи, где там и как что реализовали.) В текущей их архитектуре Хасвелл используются как раз 256-битные инструкции.


Последний раз редактировалось Asilus 30.12.2013 20:28, всего редактировалось 1 раз.


Партнер
 

Member
Статус: Не в сети
Регистрация: 23.02.2013
Откуда: г. Орел
edal а кто отрицает что новая архитектура хуже старой? сан бридж - иви бридж тоже был более актуальным (хотя и не настолько как стимроллер).

_________________
Мертвый киберпанк с улыбкой мутанта... (:


 

Member
Статус: Не в сети
Регистрация: 24.11.2007
Откуда: Самара
edal писал(а):
Вообще то их по 2 на модуль что дает их одинаковое количество в 8-поточных Интел(до Хасвела кажется, или до Иви?) и 8-ядерных АМД

Вообще-то по 1) Если вы конечно про блоки для работы с вещественной арифметикой речь ведёте)


 

Member
Статус: Не в сети
Регистрация: 23.02.2013
Откуда: г. Орел
Asilus писал(а):
А при чём тут Сэнди вообще? Это артефакт начала 2011 года. Таки матчасть подучи, где там и как что реализовали.) В текущей их архитектуре Хасвелл используются как раз 256-битные инструкции.

ты достал уймись блин.
архитектура конвейера санди и haswell
#77
#77

ед что вижу перевод на fma3 и увеличение разрядности для vmul / vlau до 256 бит (+ 1 алу 1 агу).

Добавлено спустя 47 секунд:
Asilus писал(а):
Вообще-то по 1) Если вы конечно про блоки для работы с вещественной арифметикой речь ведёте)

там 2 блока fmac по 128 бит как и в ядре сан бриджа!

_________________
Мертвый киберпанк с улыбкой мутанта... (:


 

Member
Статус: Не в сети
Регистрация: 24.11.2007
Откуда: Самара
mag_ai писал(а):
ты достал уймись блин.

При чём тут твоя картинка, мы что Сэнди Бридж обсуждаем??? Этот CPU вышел 3 года назад. Сейчас есть Хасвелл и Вишера (возможно позже появиться Каток).

mag_ai писал(а):
ед что вижу перевод на fma3 и увеличение разрядности для vmul / vlau до 256 бит (+ 1 алу 1 агу).

А что ты ещё должен видеть кроме того что ранее могли использоваться 128-битные инструкции, а теперь и 256-битные AVX2? FMA3 это в GPU-Z посмотрел или в википедии? :-)

mag_ai писал(а):
там 2 блока fmac по 128 бит как и в ядре сан бриджа!

Там:

"блок операций с плавающей точкой, устройства предварительной выборки и декодирования инструкций, а также кэш второго уровня существуют в единичном на пару ядер экземпляре и разделяют между ними свои ресурсы"

...Основой блока FPU являются два FMAC-устройства (Floating Point Multiply-accumulate) разрядностью 128 бит. Отличие их от аналогов в K10 заключается в универсальности: если раньше за разные операции, например сложение и умножение, отвечали разные блоки, то теперь они равноценны...

Бла, бла, бла. Блок один. Ну конечно у теоретиков два FMAC это уже аж два FPU))) Ну как угодно.

Добавлено спустя 1 минуту 27 секунд:
mag_ai писал(а):
там 2 блока fmac по 128 бит как и в ядре сан бриджа!

При чём тут вообще Сэнди и его 1 ядро? У интел всё по другому работает и с другим эффектом. Речь о Буле и будущем Кавери.


 

Member
Статус: Не в сети
Регистрация: 23.02.2013
Откуда: г. Орел
Asilus писал(а):
А при чём тут твоя картинка, мы что Сэнди Бридж осбуждаем?

haswell это первое за долгое время изменение в архитектуре - почему нужно требовать от амд предоставить такие изменения на старом (а она уже реально стара) булеподобном симроллере? ждать не научили родители?
Asilus писал(а):
А что ты уще должен видеть кроем того что ранее могли использоваться 128-битные инструкции, а теперь и 256-битные?

госпади увеличение битности 2 вектнорных блоков это еще не все - количество fmac не изменилось по отношению к санди.
Asilus писал(а):
Бла, бла, бла. Блок один.

ты - дурак. я вынес тебе диагноз. у того же сан бриджа / haswell их тоже 2 просто разрядность у haswell выше по 256 на юнит хотя исполнять линейно 2 инструкции по 256 бит он не особо то и может (хотя я не увидел такой возможности хотя кто то здесь о ней писал значит знает - верю на слово).
Asilus писал(а):
При чём тут вообще Сэнди? У интел вообще всё по другом работает и с другим эффектом.

при том вычислительные юниты у всех процессоров х86 одинаковые - прикинь? то есть это и есть "х86 архитектура" и если вдруг они перестанут быть похожими друг на друга то они перестанут быть обратно совместимыми - и х86 уйдет в трубу. поэтому все блоки х86 типичны и отличаются только... хотя че это я не не пиши бред мне нравиться тебя троллить.

_________________
Мертвый киберпанк с улыбкой мутанта... (:


Последний раз редактировалось ANDRONFRAG 31.12.2013 14:23, всего редактировалось 1 раз.
3.10 2 недели. С наступающим


 

Member
Статус: Не в сети
Регистрация: 24.11.2007
Откуда: Самара
mag_ai писал(а):
haswell это первое за долгое время изменение в архитектуре - почему нужно требовать от амд предоставить такие изменения на старом (а она уже реально стара) булеподобном симроллере? ждать не научили родители?

Ну изменения там косметические конечно, чуток побольше чем в Иви, где они тоже были, но менее значительные. Что обещали в СР помимо допдекодера я уже не очень помню. Основной постулат был что сделают "великолепный параллелизм".

mag_ai писал(а):
госпади увеличение битности 2 вектнорных блоков это еще не все - количество fmac не изменилось по отношению к санди.

Так в этих новых инструкциях и фишка, на них ставка, а не на старые SSE. В этом плане вся работа велась.

mag_ai писал(а):
ты - дурак. я вынес тебе диагноз. у того же сан бриджа / haswell их тоже 2 просто разрядность у haswell выше по 256 на юнит хотя исполнять линейно 2 инструкции по 256 бит он не особо то и может (хотя я не увидел такой возможности хотя кто то здесь о ней писал значит знает - верю на слово).

Сдаётся мне это ты дурак. Специалист по малым ядрам сидящий в этой теме и выискивающий дураков. Это просто верх дебилизма) Что он там "не особо-то" и может? Есть поддержка значит может, без всяких твоих "малых ядер", "фактически" и не "особо-то". Именно для этого и ввели поддержку 256-битных, а в Броадвелл хотят 512-битные ввести)

mag_ai писал(а):
при том вычислительные юниты у всех процессоров х86 одинаковые - прикинь? то есть это и есть "х86 архитектура" и если вдруг они перестанут быть похожими друг на друга то они перестанут быть обратно совместимыми - и х86 уйдет в трубу. поэтому все блоки х86 типичны и отличаются только... хотя че это я не не пиши бред мне нравиться тебя троллить.

Прикинь ты опять о малых ядрах) Попробуй потроллить вот это:

...А вот два таких ядра объединяются в модуль. В последнем еще есть один блок FPU/MMX/SSE и т. п. (на двоих), кэш инструкций емкостью 64К и 2 МиБ кэш-памяти второго уровня...

Прикинь) Угадай это из какой статьи? Не из Орловского вестника по малым ядрам, верно? На 2 ALU - 1 FPU, это надеюсь понятно тебе трольчишка)

Ах да)

The situation for floating point is perhaps the worst of all. Each K10 core had three 128-bit floating point units. These could perform x87 scalar floating point, 128-bit SSE vector floating point, 64-bit MMX vector integer, and 128-bit SSE vector integer operations. Bulldozer has four units in its floating point pipeline. Two are for integer operations (64-bit MMX and 128-bit SSE); the other two are for floating point. In addition to the scalar x87 and vector SSE instructions, the two floating point units can be ganged together, to perform new 256-bit Advanced Vector Extensions (AVX) floating point instructions. Given that this pipeline is now shared between two threads, it's a big reduction in per-thread execution resources.

2 юнита в FPU - 2 операции на такт. FPU в K10 имел 3 юнита и мог 3 операции выполнять.


 

Member
Статус: Не в сети
Регистрация: 23.02.2013
Откуда: г. Орел
Asilus писал(а):
Что он там "не особо-то" и может? Есть поддержка значит может

а есть еще и порты... на которых эти функциональные блоки весят, но это видимо ничего не говорит?
Asilus писал(а):
Попробуй потроллить вот это

какая то хрень - полная охинея отрезок чего то не понятного.

Добавлено спустя 15 минут 36 секунд:
Asilus писал(а):
2 юнита в FPU - 2 операции на такт. FPU в K10 имел 3 юнита и мог 3 операции выполнять.

Цитата:
FMA = Floating-point Multiply-Accumulate (либо Multiply-Add) - общепринятое наименование комбинированных инструкций D=A*B+C. Предполагается, что в Бульдозере будет два полночастотных 128-разрядных (2*64, 4*32) устройства FMA, что позволит выполнять до 8 операций с плавающей точкой двойной точности за такт (16 - одинарной точности). У Интела, по слухам, двойной FMA может появиться в процессоре Sandy Bridge (переименованный Gesher).

_________________
Мертвый киберпанк с улыбкой мутанта... (:


 

Member
Статус: Не в сети
Регистрация: 24.11.2007
Откуда: Самара
mag_ai писал(а):
а есть еще и порты... на которых эти функциональные блоки весят, но это видимо ничего не говорит?

Вероятно об этом в курсе в Интел что там есть порты? Главное что не нужно более склеивать 128-битные в 256-битные.

mag_ai писал(а):
какая то хрень - полная охинея отрезок чего то не понятного.

Хм, а что там непонятного из приведённого текста? Это обзор Буля на ixbt. напиши разоблачительный пост, что нет не 1 FPU там, а 2) С твоей логикой в K10 их аж 3 было. :D

Добавлено спустя 49 секунд:
А по факту в модуле буля 2 целочисленных и 2 вещественных юнита в FPU, т.е. меньше чем в постоянно упоминаемом тобой Сэнди на ядро, ибо на 1 ядро в модуле может работать только один юнит (на 128-битных) и лишь при выполнении 256-битных они объединяются. Т.е. по факту весь FPU он на модуль приходится (как везде и пишут), а не на ядро. Отмечаются какие-то конфликты в их работе (юнитов).

Добавлено спустя 3 минуты 32 секунды:
mag_ai писал(а):
что позволит выполнять до 8 операций с плавающей точкой двойной точности за такт

Старый FPU имел 3 одинаковых юнита и формально умел 3 операции на такт. У нового - 4 юнита, но два из них целочисленные, а два - плавучка. В Сэнди два юнита на ядро, у Буля - два на модуль. 8 операций это 8 юнитов на 8 ядер в 4-х модулях. :-)


 

Member
Статус: Не в сети
Регистрация: 23.02.2013
Откуда: г. Орел
Цитата:
Не только старый SSE код (которого уже целые вагоны, и который будет существовать еще лет 10 минимум), но и новый 256-битный AVX код.
Ваш метод увеличения SSE-производительности - тупиковый. После IB у Интел и у АМД не будет ни одного нового процессора, который содержит независимый FMUL. В любом случае будет FMAC, который умеет выполнять как FMUL, так и FMA-операции. Какое-то время возможен независимый FADD, который будет выполнять часть простых операций, чтобы они не мешали FMAC выполнять сложные. В любом случае FPU финального представителя архитуктуры BD будет выглядеть как 4x256FMAC. И проще сделать с самого начала 2x128FMAC и затем их размножать и расширять, чем сделать сначла 2x128FMUL+2x128FADD, а затем переделывать их в FMAC'и. АМД не в том положении, чтобы отрабатывать трудоемкие тупиковые ветви.

Цитата:
Главное что не нужно более склеивать 128-битные в 256-битные.

проблема не слеить а выполнить - за наименьшие количество тактов.
Цитата:
напиши разоблачительный пост, что нет не 1 FPU там, а 2

дайте линк где это пишут это раз а не дербаньте по одной строчке.
Цитата:
А по факту в модуле буля 2 целочисленных и 2 вещественных юнита в FPU, т.е. меньше чем в постоянно упоминаемом тобой Сэнди на ядро, ибо на 1 ядро в модуле может работать только один юнит (на 128-битных) и лишь при выполнении 256-битных они объединяются.

не ты укурен.... ядро работает ему ничего не мешает исполнять 1 128 битную команду - 2 ядрам 2 128 битные команды у санди другая проблема оба модуля fmac в приделах одного ядра и ему приходится либо исполнять 1 128бит команду либо слеивать 2 128битные в одну и исполнять.

_________________
Мертвый киберпанк с улыбкой мутанта... (:


 

Member
Статус: Не в сети
Регистрация: 24.11.2007
Откуда: Самара
mag_ai писал(а):
проблема не слеить а выполнить - за наименьшие количество тактов.

Видимо проблема для AVX именно в этом, прочим пока в Интел удовлетворены. Во всяком случае эффект явно есть.

mag_ai писал(а):
дайте линк где это пишут это раз а не дербаньте по одной строчке.

http://www.ixbt.com/cpu/amd-fx-8150.shtml

mag_ai писал(а):
не ты укурен.... ядро работает ему ничего не мешает исполнять 1 128 битную команду - 2 ядрам 2 128 битные команды

Да что ты будешь делать, накуренный дурак это уже страшно) Вероятно что-то мешает в определённых моментах и исполняется только 1 команда на модуль. Может сама реализация общего PPE SMT с общим доступом на 2 ядра ущербная. Я не в курсе этого.

mag_ai писал(а):
у санди другая проблема оба модуля fmac в приделах одного ядра и ему приходится либо исполнять 1 128бит команду либо слеивать 2 128битные в одну и исполнять.

Да неужели) С 1 ядром вопросы отсутствуют изначально, это не модуль с общими ресурсами, нет узких мест.


 

Member
Статус: Не в сети
Регистрация: 23.02.2013
Откуда: г. Орел
Asilus их той статьи надо понимать что человек писал не особо вдаваясь в вопросы технического плана (как минимум наличие смайлов в тексте) и того:
Цитата:
Но единственное, что есть собственного у нового ядра — это кэш данных первого уровня, емкостью 16К. А вот два таких ядра объединяются в модуль. В последнем еще есть один блок FPU/MMX/SSE и т. п. (на двоих)

то есть fpu у буля нет там fmac причем у первых булей это вообще fma4 - при этом он правильно выразил идею общих ресурсов - 1 модуль 1 256 битный fmac состоящий из двух отдельных 128 битных (независимых) fmac.
Asilus писал(а):
Я не в курсе этого.

ничего не мешает все работает.
Asilus писал(а):
Да неужели) С 1 ядром вопросы отсутствуют изначально, это не модуль с общими ресурсами, нет узких мест.

да неужели? (реали?)

_________________
Мертвый киберпанк с улыбкой мутанта... (:


 

Member
Статус: Не в сети
Регистрация: 24.11.2007
Откуда: Самара
mag_ai писал(а):
то есть fpu у буля нет там fmac причем у первых булей это вообще fma4 - при этом он правильно выразил идею общих ресурсов - 1 модуль 1 256 битный fmac состоящий из двух отдельных 128 битных (независимых) fmac.

Терминология везде разная. В нашей расейской терминлогии, пока так. FPU и юниты из коих он состоит. У буля FPU это PPE SMT состоящий из 2 целочисленных юнитов и 2 с плавучкой, общий на модуль.

По поводу Хасвелл это было сделано чтобы 256-битные AVX-инструкции выполнялись бы с той же скоростью, что и 128-битные, и декодировались бы не в режиме FastPath Double (как сейчас), а FastPath Single. Не разбивая каждую 256-битную AVX-инструкцию на две 128-битные. Порты в Хасвелл также переработали и добавили (сразу 2) - теперь их 8. Увеличили пропускною способность кешей L1\L2.

Добавлено спустя 7 минут 59 секунд:
mag_ai писал(а):
ничего не мешает все работает.

Вряд ли ничего не мешает ибо проблем в буле море, прежде всего с кэшем. Медленной записью из 256-битных AVX регистров в память, AMD и AVX - вещи малосовместимые. И.т.д.

mag_ai писал(а):
да неужели? (реали?)

Рили, рили. Ды ты опять троллишь)


Последний раз редактировалось Asilus 30.12.2013 22:26, всего редактировалось 1 раз.

 

Member
Статус: Не в сети
Регистрация: 23.02.2013
Откуда: г. Орел
Asilus мне пофиг что у вас в голове - там fmac это не fpu. об этом я писал выше и привел пост с форума хобота если мне не верите то хоть погуглите по содержанию поста.

Добавлено спустя 4 минуты 37 секунд:
Asilus писал(а):
Вряд ли ничего не мешает ибо проблем в бeле море, прежде всего с кэшем. Медленной записью из 256-битных AVX регистров в память, AMD и AVX - вещи малосовместимые.

причем тут проблемы с кешем и исполнение двух 128 битных команд? причем вообще проблемы с avx который прекрасно исполняется.... что не скажем чтоб выкрутиться?
Asilus писал(а):
По поводу Хасвелл это было сделано чтобы 256-битные AVX-инструкции выполнялись бы с той же скоростью, что и 128-битные, и декодировались бы не в режиме FastPath Double (как сейчас), а FastPath Single. Не разбивая каждую 256-битную AVX-инструкцию на две 128-битные. Порты в Хасвелл также переработали и добавили (сразу 2) - теперь их 8.


это вообще никак не решает проблемы fma модулей которые весят на двух первых портах я еще раз привожу эту картинку - http://www.ixbt.com/cpu/intel-haswell/newort.jpg

_________________
Мертвый киберпанк с улыбкой мутанта... (:


 

Member
Статус: Не в сети
Регистрация: 24.11.2007
Откуда: Самара
mag_ai писал(а):
мне пофиг что у вас в голове - там fmac это не fpu. об этом я писал выше и привел пост с форума хобота если мне не верите то хоть погуглите по содержанию поста.

И мне пофиг что у вас в голове, разговор начинался с того что FPU в буле один на модуль. И называйте блок FPE SMT состоящий из 2 целочисленных юнитов и 2 с плавучкой, общий на модуль хоть как, но это FPU и есть. Он и обслуживает ALU. Это не я придумал это абсолютно во всех статьях присутствует (то что FPU общий). Если же принять за FPU юниты FMAC, то у K10 их уже 3 на ядро окажется. :D

Добавлено спустя 3 минуты 33 секунды:
mag_ai писал(а):
причем тут проблемы с кешем и исполнение двух 128 битных команд? причем вообще проблемы с avx который прекрасно исполняется.... что не скажем чтоб выкрутиться?

При том что там одни сплошные недоделки, вот при чём. Речь идёт о том, что реализация работы общего FPU тоже ховно полнейшее. Проблемы с кэшем лишь продолжение проблем с FPU.

"Интересно, починят в Steamroller багу Piledriver с очень медленной записью из 256-битных AVX регистров в память? А то пока AMD и AVX - вещи малосовместимые."

"не только AVX, но и вообще запись в кэши сильно хромает. Да и чтение не блещет… Переделывать всю кэш-систему надо."

Это у автора статей по архитектурам CPU спрашивали. Говорите прекрасно исполняется?


 

Member
Статус: Не в сети
Регистрация: 23.02.2013
Откуда: г. Орел
Asilus Надоел - ЧС. приятного НГ (:

_________________
Мертвый киберпанк с улыбкой мутанта... (:


 

Member
Статус: Не в сети
Регистрация: 24.11.2007
Откуда: Самара
mag_ai писал(а):
это вообще никак не решает проблемы fma модулей которые весят на двух первых портах я еще раз привожу эту картинку

Как не решает если:

Порты 0 и 1 также претерпели изменения — в них появилась поддержка FMA3. Седьмой (восьмой) порт Intel ввела для увеличения эффективности и снятия «блокировки» — когда второй и третий порты работают на загрузку, седьмой (восьмой) порт может заниматься выгрузкой, что раньше было просто невозможно. Данное решение необходимо для обеспечения высокого темпа исполнения AVX/FMA3-кода.

Также в Haswell вдвое увеличили пропускную способность L1—L2, при этом остались прежние величины задержки. Такая мера была просто необходима, так как 32-байтной записи и 16-байтного чтения попросту не хватило бы при наличии восьми портов запуска, а также 256-битных AVX и FMA3.

Дружище ты же полный ландырь, не нужно изображать что хоть что-то понимаешь в том что пишешь)


 

Заблокирован
Заблокирован
Статус: Не в сети
Регистрация: 04.06.2011
Откуда: Самара
Цитата:
то есть fpu у буля нет там fmac причем у первых булей это вообще fma4
:facepalm: fma4- это набор инструкций.

_________________
Вы предавали Русь стократно, Чужому — вверившись — уму.
Вас Русь прощала, но обратно Тянули шею вы к ярму. (с)


 

Member
Статус: Не в сети
Регистрация: 24.11.2007
Откуда: Самара
mag_ai писал(а):
Asilus Надоел - ЧС. приятного НГ (:

И вам того же) Надеюсь недельки через 2 что-то более подробное выйдет по Кавери) Будет новый стимул для общения.


 

Member
Статус: Не в сети
Регистрация: 23.02.2013
Откуда: г. Орел
MrSlon я говорил что они могут исполнять даже fma4 в отличии от интелов которые кидались радмапами с fma4 а потом резко подобрели к fma3 и фактически буль ед процессор с fma4.
точней я не правильно выразился не исполнять а выполнять.

_________________
Мертвый киберпанк с улыбкой мутанта... (:


Последний раз редактировалось mag_ai 30.12.2013 22:42, всего редактировалось 1 раз.

Показать сообщения за:  Поле сортировки  
Форум закрыт Новая тема / Эта тема закрыта, вы не можете редактировать и оставлять сообщения в ней. Закрыто  Сообщений: 253 • Страница 9 из 13<  1 ... 6  7  8  9  10  11  12  13  >
-

Часовой пояс: UTC + 3 часа


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 9


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Перейти:  
Создано на основе phpBB® Forum Software © phpBB Group
Русская поддержка phpBB | Kolobok smiles © Aiwan