Продвинутые полуавтоматические алгоритмы навроде "openmp" - это лучшее из возможного. Но уже даже потребность в отдельном компиляторе - сводит всё это на нет
согласен, но я так понимаю идея идёт о том что програмная надстройка будет на уровне микрокода работать, грубо говоря a = b*2+c*2 умножение будет выполнено параллельно, да такое сейчас и так есть, но речь идёт об оптимизации на уровне цп а не компилятора ос и тд. что в итоге и может дать прирост так как цп сам лучше может определить когда что и как выполнять параллельно в данный момент времени. А openmp нужны для жёсткого деления на потоки, когда надеяться на оптимальную работу компиляторов или цп в данном случае нельзя. И почти все задачи именно такие. а значит их идея параллелить на уровне цп имеет право на жизнь напаример в таком случае: есть 4 ядра, в двух потоках выполняется a = b*2+c*2 а в остальных всё остальное в том числе ОС. и допустим на одном из двух ядер есть сейчас не используемые блоки производящие умножение( всё очень грубо описываю) и тогда микрокод передаёт одно из двух операций умножения на этот свободный блок. Таким образом получаем прирост производительности
Обещают терять не более 5% производительности по сравнению с транслятором Transmeta. Пока писал новость, в голове крутилась Transmeta. Как оказалось, не у меня одного. http://softmachines.com/wp-content/uplo ... -11303.pdf
В компании Soft Machines работает Томас Кистлер, который работая в NVidia, принимал участие в разработке project Denver. Так же там участвуют двое наших: Александр Дроздов: директор SMWare, дочерней компании Soft Machines, выходец из МЦСТ... Алексей Горелов: выходец из МЦСТ.
Вложилась не только РОСНАНО, но и РВК (Российская Венчурная Компания).
Member
Статус: Не в сети Регистрация: 02.06.2012 Фото: 2
Ставлю почку, что не взлетит. Слишком сложная и неуниверсальная программная поддержка каждой софтины процессором нужна. Не, не взлетит, данна архитектура-это как коммунизм.
Добавлено спустя 1 минуту 28 секунд:
Jeter писал(а):
одно ядро на архитектуре ARMv8 в процессоре Apple Cyclone производительней одного ядра Haswell в расчете на 1 МГц.
Дело в том, что задействованы собственно только классические процессорные ядра. Графические ядра в несколько раз энергоэффективней и мощнее в смысле вычислений, но пока эта мощь используется только в узко специализированных задачах. Чтобы задействовать их в любых задачах нужно: 1)распараллелить код 2)перекодировать х86 в набор инструкций графического процессора. 3)вернуть из него результат в основной поток/программу. Насколько я понял то сложнее всего распараллелить код. Остальные задачи давно уже решены процессоростроителями. У них х86 перекодируется во внутренний RISC .
Охохо, как все запущено... Для того, чтобы был смысл в GPGPU нужно большое кол-во операций с плавающей запятой. Для того, чтобы параллелить потоки, нужно заранее продумывать максимально независимые друг от друга ветки кода. Либо заниматься тем, чем занимается сегодняшний планировщик - предсказанием ветвлений. Любителям распараллеливать, предлагаю задачи: 1) дается девять женщин (не беременных), сделайте так чтобы через месяц родился ребенок. 2) Дается 10 автомобилей каждый из которых развивает скорость более 60км/ч. Задача - доедьте с их помощью за час из Москвы в Воронеж. 3) Дается 10 мастеров резьбы по дереву. Сделайте резной стул в 10 раз быстрее одного мастера. 4) Дается 10 стиральных машин, отстирайте рубашку не за полтора часа, а за 9 минут. Удачи в решении.
Все правильно я написал. Или у вас есть другие данные по поводу энергопотребления процессоров Intel?
Это даже не бред. Это пол-потолок-придумал от невежды с ником Jeter.
Добавлено спустя 7 минут 29 секунд:
GreenCo писал(а):
Transmeta №3 Godson №4 Обещают терять не более 5% производительности по сравнению с транслятором Transmeta. Пока писал новость, в голове крутилась Transmeta. Как оказалось, не у меня одного. http://softmachines.com/wp-content/uplo ... -11303.pdf
ну так у Трансметы, Эльбруса и Годсона - вообщем-то по факту известные архитектуры (VLIW, EPIC и MIPS). А эти товарищи вообще решили сделать по факту виртуальную машину на ядре прямо иещё и с внутренним распараллеливанием... Правда внутри ядра планировщик и так по мере возможности параллелит задания внутри потока (4ALU в Haswell и отличное от 1 кол-во ALU в большинстве современных процессоров тонко намекают)...
Member
Статус: Не в сети Регистрация: 28.07.2005 Откуда: Калининград. RU Фото: 5
aasheron писал(а):
2) Дается 10 автомобилей каждый из которых развивает скорость более 60км/ч. Задача - доедьте с их помощью за час из Москвы в Воронеж.
При условии, что: 1. Дорога прямая и без светофоров и препятствий. 2. Имеется некий колёсно-трансмиссионый "модуль" способный уместить на себе 10 автомобилей (внешне напоминающий поезд-экспресс). Эти 10 автомобилей находясь в модуле, по "беговой" дорожке все одновременно едут со скоростью, при которой КПД каждого отдельно взятого авто наивысшее. Полученная механическая энергия от "беговой" дорожки преобразовывается трансмиссией модуля в большую скорость. Тем самым уменьшая время затрачиваемое на преодоление расстояния.
При условии, что: 1. Дорога прямая и без светофоров и препятствий. 2. Имеется некий колёсно-трансмиссионый "модуль" способный уместить на себе 10 автомобилей (внешне напоминающий поезд-экспресс). Эти 10 автомобилей находясь в модуле, по "беговой" дорожке все одновременно едут со скоростью, при которой КПД каждого отдельно взятого авто наивысшее. Полученная механическая энергия от "беговой" дорожки преобразовывается трансмиссией модуля в большую скорость. Тем самым уменьшая время затрачиваемое на преодоление расстояния.
Не вопрос, только расстояние, напомню, около 500км. И один час Есть дорога и машины и вы Нет, конечно, если вы за час с момента получения задания сможете найти самолет и долететь, или организовать поезд и доехать - то флаг в руки В реальности же распараллеливанию и ОоОЕ поддается не так уж и много, как хотелось бы. Иначе плодили бы жирнющие ядра с множеством ALU и FPU вместо множества ядер.
Это даже не бред. Это пол-потолок-придумал Чем вы это можете обосновать!?
Да чем угодно. Начиная от тестов Silvermont, до тестов Core M 5Y70. Конечно Cortex-M0/M0+ потребляют очень мало, но и производительность их мизерна. А Cortex-A ни при каких обстоятельствах не имеют соотношения производительность на ватт в 5 раз выше чем современные х86 чипы. И даже в 2 раза. Более того, вполне вероятно, что они ещё и проиграют х86.
Jeter писал(а):
от невежды с ником Jeter. Невежа? - это вам больше подходит!
Невежда и невежа - разные слова. Это, наверное, ещё в детском саду учат, г-н невежда Jeter.
Member
Статус: Не в сети Регистрация: 28.07.2005 Откуда: Калининград. RU Фото: 5
aasheron писал(а):
В реальности же распараллеливанию и ОоОЕ поддается не так уж и много, как хотелось бы. Иначе плодили бы жирнющие ядра с множеством ALU и FPU вместо множества ядер.
Member
Статус: Не в сети Регистрация: 01.06.2011 Откуда: Кривий Рiг UA Фото: 1
aasheron писал(а):
Правда внутри ядра планировщик и так по мере возможности параллелит задания внутри потока
у Интела в i7 планировщик ядра выполняет два потока, а у АМД планировщик внутри двух ядер, выполняет два потока, ничего удивительного что им требуется 8 ядер вместо 4 и TDP вкупе с потреблением уходит в стратосферу
aasheron писал(а):
Иначе плодили бы жирнющие ядра с множеством ALU и FPU вместо множества ядер.
наверное у IBМ в их 12-ядерке POWER8 именно такие ядра, 8 потоков исполняют, чисто серверный проц, там полно параллельных задач
_________________ По поводу АМД можно сказать, что... http://images.vfl.ru/ii/1466552059/06f0b3de/13108371.gif
Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 12
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения