Kaveri будет быстрее Richland на 20% в вычислениях и на 30% в графике

Overclockers.ru

Конференция

FAQ по конференции

Текущее время: 30.04.2026 4:36

Сообщения без ответов | Активные темы

Список форумов » Сайт и конференция » Материалы сайта » Обсуждение новостей

Часовой пояс: UTC + 3 часа

Модератор: Sonic-Chainik

Новая тема /

Закрыто

Сообщений: 148 • Страница 6 из 8 • < 1 ... 3 4 5 6 7 8 >

	Пред. тема \| След. тема
В случае проблем с отображением форума, отключите блокировщик рекламы

Автор

Сообщение

edal

Добавлено: 26.11.2013 8:49

[профиль]

Member
Статус: Не в сети
Регистрация: 16.12.2008
Откуда: Воронеж

Renegade1979 писал(а):

а) общий кеш CPU-GPU

В Интел начиная с Санди(если не раньше)

Renegade1979 писал(а):

б) общий контроллер памяти в) общая шина памяти...

И ИНтел и АМД имеется, но пока было без единого(общего) адресного пространства

Renegade1979 писал(а):

впрочем, утверждать, что ядро без своего FPU может быть полноценным ядром?!!

Полноценное ядро - целочисленное, без него никак, так как адресация данных целочисленная, FPU лишь опциональный сопроцессор, обязательный далеко не во всех архитектурах/процессорах и не сразу был даже в Интел-процах

Renegade1979 писал(а):

А я удивлялся почему в Aida64 в большинстве тестов FPU и в половине тестов CPU 8ядерные FX-8350 позорно посливались ниже моего i5 на графиках

В тестах/приложениях где применяется AVX256 нет прироста от НТ и там i5=i7

Renegade1979 писал(а):

Что как бы и приравнивает 2 ядра Вишеры к одному ядру i5

А так и есть, количество FPU в i5, i7 и FX одинаково (только в Хасвеле кажись они удвоили ширину) а оптимизации компиляторов на стороне Интел

_________________
AMD Phenom II X6 1055T, Asus M4A79 Deluxe, 4gb(2x OCZ Titanium XTC OCZ2T11502G), PowerColor Radeon HD 7970 3GB

Реклама
Партнер

devl547

Добавлено: 26.11.2013 9:25

[профиль]

Member
Статус: Не в сети
Регистрация: 10.05.2011
Откуда: Москва

edal писал(а):

В тестах

Угу, в микробенчмарках. Когда в бенче разница в 2-3 раза, а на деле в реальном приложении 5-6 процентов.

San Sanich

Добавлено: 26.11.2013 9:43

[профиль]

Member
Статус: Не в сети
Регистрация: 23.10.2011
Откуда: MO г. Балашиха

Renegade1979

почитай, просветлеешь

http://www.osp.ru/os/2013/08/13037850/

Ещё можешь глянуть материалы с недавней APU13, где Kaveri называют не иначе как first HSA support.

_________________
Лучше гнать процессор, чем пургу.

War1ock

Добавлено: 26.11.2013 9:52

[профиль]

Member
Статус: Не в сети
Регистрация: 26.06.2008

Пузо писал(а):

Я сравнил ядро интела с модулем амд, ибо количество исполнительных блоков в одном ядре интела и одном модуле амд (который состоит из тех самых двух недоядер) - одинаковое. Когда в амд наконец таки осилят сделать нормальный декодер/планировщик модуля по типу интела - сей модуль моментально превратится в ядро без основательного перепиливания прочего его содержимого. Ибо сей декодер/планировщик сможет наконец утилизировать все имеющиеся ресурсы модуля, как это делает декодер/планировщик ядра интела, а не ровно половину, как это делается сейчас.
Отсюда и вытекает слив буля/вишеры в однопотоке старым феномам на одной и той же частоте, ибо там было три алу в ядре, а не два как нынче, и их ресурсы утилизировались полностью.

Вы сравнили картошку и апельсины "ибо и то и то круглое" и на основании своего неверного сравнения сделали совершенно неверный вывод. Модуль AMD это не одно и тоже что и ядро Intel. Поэтому сравнивать их на основании равенства чего-то это глупо. Модуль это два ядра с общими некоторыми блоками. Претензия к модулю AMD что он не использует все ресурсы модуля, сродни претензии к Intel что в однопотоке они не используют ресурсы всех 4-х ядер процессора.
Ядро Intel быстрее ядра AMD в однопотоке? Так никто и не спорит. Да, быстрее. Одна из причин как раз в том что у AMD на одно ядро АЛУ в два раза меньше чем у Intel.

Тех же, кто считает что ядра считаются по кол-ву FPU - я отправляю на несколько десятилетий назад, в начало 80-х, во времена 8086, 80286, 80386. И напоминаю что процессор, ядро процессора, это изначально были блоки для чисто целочисленных вычислений. Со-процессор для вычислений с плавающий точкой это была отдельная микросхема (8087, 80287, 80387), которой в компе могло и не быть. Во внутрь процессора сопроцессор переехал только с 80486DX, но это не значит что ядро без сопроцессора перестало быть ядром. Тогда, если кто забыл, не было никакой многоядерности и одно ядро процессора с одним сопроцессором под одной крышкой, на одной микросхеме это было логично. Так же как в последствии стало логично перенести на процессор северный мост и прочее. Сейчас же, в эпоху многоядерности, AMD сделала очень интересны и вполне логичный ход, сократив кол-во "со-процессоров" вдвое от количества ядер. Логично рассудив что большая часть кода, это целочисленные операции и один со-процессор может удовлетворить нужды двух процессорных ядер.
Соответственно ядро - это ядро. Модуль - это модуль. И сравнивать их между собой это невежество.
Ядро Замбези\Вишеры содержит меньше АЛУ чем Феном - да. Потому что AMD рассчитывала покрыть эту разницу повышенной частотой.

edal

Добавлено: 26.11.2013 11:13

[профиль]

Member
Статус: Не в сети
Регистрация: 16.12.2008
Откуда: Воронеж

Renegade1979 писал(а):

впрочем, утверждать, что ядро без своего FPU может быть полноценным ядром?!! А я удивлялся почему в Aida64 в большинстве тестов FPU и в половине тестов CPU 8ядерные FX-8350 позорно посливались ниже моего i5 на графиках.

Цитата:

Основой FPU Bulldozer являются два FMAC устройства, разрядностью 128-бит каждое. В отличие от K10, где за операции сложения и умножения отвечали разные устройства, эти являются универсальными и способны выполнить весь спектр поддерживаемых команд. Можно сказать, AMD перешла от ассиметричной схемы исполнительных устройств FPU к симметричной. В случае разделения ресурсов между двумя x86 ядрами, каждое может работать со своим FMAC устройством.
Единственным исключением является исполнение AVX команд разрядностью 256-бит, в этом случае оба вычислительных устройства выполняют эту операцию как единый блок. Причём стоит отметить, что если при AVX операциях 256-битной разрядности его производительность на один такт равна FPU Sandy Bridge, то при снижении разрядности AVX операций до 128-бит, темп их исполнения превышает Sandy Bridge в два раза.

Выделенное черным - это к вашему i5, да и i7 тоже. Где то мне попадалась таблица с количеством исполняемых команд(разных) у разных х86 архитектур, жаль не могу найти сейчас

_________________
AMD Phenom II X6 1055T, Asus M4A79 Deluxe, 4gb(2x OCZ Titanium XTC OCZ2T11502G), PowerColor Radeon HD 7970 3GB

devl547

Добавлено: 26.11.2013 11:42

[профиль]

Member
Статус: Не в сети
Регистрация: 10.05.2011
Откуда: Москва

War1ock писал(а):

ядра считаются по кол-ву FPU - я отправляю на несколько десятилетий назад

Да ладно. Ткни их носом в UltraSparc T1. 1 FPU на 8 ядер.

edal писал(а):

то при снижении разрядности AVX операций до 128-бит, темп их исполнения превышает Sandy Bridge в два раза.

К сожалению, в реальности прирост от перехода AVX256 -> AVX128 примерно 3-4%, потому что выше головы не прыгнуть. Либо в 2 раза быстрее, либо в 2 раза шире.
Не стоит забывать, что Intel тоже умеет AVX128 и таки да, оно и у них ВНЕЗАПНО тоже исполняется быстрее.

edal

Добавлено: 26.11.2013 12:27

[профиль]

Member
Статус: Не в сети
Регистрация: 16.12.2008
Откуда: Воронеж

devl547 писал(а):

К сожалению, в реальности прирост от перехода AVX256 -> AVX128 примерно 3-4%, потому что выше головы не прыгнуть. Либо в 2 раза быстрее, либо в 2 раза шире.Не стоит забывать, что Intel тоже умеет AVX128 и таки да, оно и у них ВНЕЗАПНО тоже исполняется быстрее.

Дело в том что Санди умел исполнять своим 256-битным FPU одинаковое количество AVX256/AVX128, а бульдозер может AVX128 исполнять в два раза больше AVX256 так как FPU разделяемое

_________________
AMD Phenom II X6 1055T, Asus M4A79 Deluxe, 4gb(2x OCZ Titanium XTC OCZ2T11502G), PowerColor Radeon HD 7970 3GB

devl547

Добавлено: 26.11.2013 13:32

[профиль]

Member
Статус: Не в сети
Регистрация: 10.05.2011
Откуда: Москва

edal писал(а):

Санди умел исполнять своим 256-битным FPU одинаковое количество AVX256/AVX128

Учту, не знал.

edal писал(а):

а бульдозер может AVX128 исполнять в два раза больше AVX256 так как FPU разделяемое

Только профита от этого чуть.

Цитата:

We found that for the current Bulldozer processors, AVX128 performs better than AVX256. For example, AVX128 is 3% faster than AVX256 on CFP2006, and 2~3% faster than AVX256 on polyhedron.

Это, к слову, разработчики GCC.

edal

Добавлено: 26.11.2013 16:05

[профиль]

Member
Статус: Не в сети
Регистрация: 16.12.2008
Откуда: Воронеж

devl547 писал(а):

Только профита от этого чуть.

Просто в некоторых случаях данные могут быть порциями в 128 бит, и использовать для этого AVX256 не рационально(если они с одного потока то можно упаковать в одну 256, а если с разных?...), и как раз тогда AVX128 оказывается в выигрыше. В случае 256бит порций, без разницы что запускать, 2*128 или 1*256(но и так нашлось пару процентов)

_________________
AMD Phenom II X6 1055T, Asus M4A79 Deluxe, 4gb(2x OCZ Titanium XTC OCZ2T11502G), PowerColor Radeon HD 7970 3GB

devl547

Добавлено: 26.11.2013 19:20

[профиль]

Member
Статус: Не в сети
Регистрация: 10.05.2011
Откуда: Москва

edal писал(а):

но и так нашлось пару процентов

Там эта пара процентов из-за меньшей порции данных, сильнее забиваются конвееры и меньше простоев из-за подгрузки данных из памяти/кэша.

edal писал(а):

а если с разных?

Скажем так, сильно узкая направленность. Вообще, ситуация мне не нравится - куча расширений SSEx/AVX/FMA/XOP/TBM, а используются чуть.

Renegade1979

Добавлено: 26.11.2013 19:42

[профиль] [Фотоальбом]

Member
Статус: Не в сети
Регистрация: 01.06.2011
Откуда: Кривий Рiг UA
Фото: 1

San Sanich писал(а):

Ещё можешь глянуть материалы с недавней APU13, где Kaveri называют не иначе как first HSA support.

если всё так просто, и поддержку ускорения вычислений видяхой для проца на HSA и hUMA можно будет организовать даже на 7970 и Вишере, переписав код, Нвидиа напишет свой аналог для Кеплера, CUDA 6.0 для этого и предназначена. Если же потребуется именно какая-то сугубо желазная архитектура APU, вдобавок придётся переписывать ядро ОС, всяческие HSA отправляются в консольки и под них напишут аналог физюхса на OpenCL, а на ПК это разумеется не портируется, так как японцам лень (боксван разумеется не потянет, аналог 7790, да)

_________________
По поводу АМД можно сказать, что... http://images.vfl.ru/ii/1466552059/06f0b3de/13108371.gif

VINRARUS

Добавлено: 26.11.2013 19:47

[профиль] [Фотоальбом]

Member
Статус: Не в сети
Регистрация: 12.04.2012
Откуда: UA, Чорнобиль.
Фото: 37

Renegade1979 писал(а):

hUMA можно будет организовать даже на 7970 и Вишере

Бред, у обоих своя отдельная память.

_________________
1я блокировка по нац. признаку это ксенофобия. 2я блокировка сразу после 1й по той же причине это уже расизм. 3я такая же будет фашызмом.
Растёте...

Renegade1979

Добавлено: 26.11.2013 20:04

[профиль] [Фотоальбом]

Member
Статус: Не в сети
Регистрация: 01.06.2011
Откуда: Кривий Рiг UA
Фото: 1

edal писал(а):

в играх 8350 обычно и показывает то же, что и тесты FPU в Aida64, то есть идёт в районе i5 2300, таких игр чтобы 8350 взлетал под 3770К, как в тесте CPU AES или CPU Hash, просто нет, значит FPU в играх важен чуть ли не более, чем целочисленные операции. Если такие игры есть, где FPU не важно, то они от ЕА, получивших взятку, и нагрузка там фэйковая, и они обычно являются насквозь забагованными клонами Крусис 2, который теперь чудом стал при той же нагрузке требовать все 16 потоков, и Батлы 3, в которой традиционно 6970 сливает 570й, даже спустя 2 года, а для достижения заветного слива Кеплеров и Интела DICE наделали столько багов, что патчить будут ещё год, и уже сейчас видно, что грофоннн там как был из 3й Батлы, так и остался

VINRARUS писал(а):

у обоих своя отдельная память.

я сказал "если", я и сам не верю в "расчудесное будущее всяческого HSA" (вот это действительно бред), которое работает только на APU от АМД - много ли наускоряешь вычислений встройкой? Физикс и волосикс у нас уже есть, и много где используется, а тут отнюдь не примочка для ускорения физики и волосики, а переписывать всё приложение, после чего его даже на ПК не портнуть. А ведь Kaveri кажется такая себе десктопная архитектура? И значит будет под неё Венда, и в Венде будет C++ и проги будут лагать. А если прогу напишет киевское отделение Убийсофт, лагать будет даже на топовых i7, пока не разгонят до минимум 4,8

_________________
По поводу АМД можно сказать, что... http://images.vfl.ru/ii/1466552059/06f0b3de/13108371.gif

Последний раз редактировалось Renegade1979 26.11.2013 20:11, всего редактировалось 1 раз.

San Sanich

Добавлено: 26.11.2013 20:11

[профиль]

Member
Статус: Не в сети
Регистрация: 23.10.2011
Откуда: MO г. Балашиха

Renegade1979

Renegade1979 писал(а):

Теперь по буквам:

1. HSA не зависит от ядра ОС и его драйверов под GPGPU вычисления!!! Смотри HSAIL по ссылке. Главное, что бы софтина сама по себе поддерживала HSA, остальное не важно. HSA без проблем запиливается на любой процессор, хоть ARModroid.
2. Если верить старым роадмапам AMD когда программа ещё называлась Fusion (потом эту торговую марку у них отсудили, так как она уже была зарегистрирована), то в 2014 году нас ждут дискретные видеокарты с поддержкой HSA. То есть, на 7970 это не реализуемо. На Vishera возможно только вместе с дискреткой.
3. Консоли это консоли, а Kaveri как мы знаем ещё и в ноуты ставиться будут. Так что география распространения гораздо шире. Я вам больше того скажу, Mali T600 уже поддерживает HSA в виде HUMA. Так что вы и в планшетах-смартфонах её увидите.
4. nVidia для начала неплохо было бы обзавестись лицензией на х86 набор команд, что возможно только в принудительном порядке. Тогда да, они смогут сделать свой APU, а единое адресное пространство с процессором они то же обещают в 2014 году уже в Maxwell, только кому нужна проприетарная CUDA, когда есть поддерживаемый всеми производителями железа OpenCL, который например может использоваться в HSA как и Direct Compute.

Добавлено спустя 7 минут 1 секунду:

Renegade1979 писал(а):

Вы знаете порядок цифр производительности вычислений CPU и GPU в гигафлопсах? Я вам скажу, разница там в разы, в пользу GPU конечно.

Renegade1979 писал(а):

Физикс и волосикс у нас уже есть, и много где используется, а тут отнюдь не примочка для ускорения физики и волосики, а переписывать всё приложение, после чего его даже на ПК не портнуть.

Чем занимается Coral и Adobbe знаете?

_________________
Лучше гнать процессор, чем пургу.

Renegade1979

Добавлено: 26.11.2013 20:28

[профиль] [Фотоальбом]

Member
Статус: Не в сети
Регистрация: 01.06.2011
Откуда: Кривий Рiг UA
Фото: 1

San Sanich писал(а):

а единое адресное пространство с процессором они то же обещают в 2014 году уже в Maxwell

на самом деле в Максвелл обещается только новая архитектура, ускоряющая и облегчающая доступ, а поддержка унифицированной памяти начинается уже с Кеплеров, и в списке поддерживаемых API у них OpenCL 1.1, так что при желании могут использовать и всяческий HSA под OpenCL. А вот старьё 2011 года нужно будет апгрейдить.

_________________
По поводу АМД можно сказать, что... http://images.vfl.ru/ii/1466552059/06f0b3de/13108371.gif

devl547

Добавлено: 26.11.2013 20:32

[профиль]

Member
Статус: Не в сети
Регистрация: 10.05.2011
Откуда: Москва

Renegade1979 писал(а):

можно будет организовать даже на 7970 и Вишере, переписав код

Ммм... Нет. В документации явно указывается необходимость в новом IOMMU для hUMA.

Renegade1979 писал(а):

и в списке поддерживаемых API у них OpenCL 1.1

Вот только HSA - это уже OpenCL 2.0 по Кроносу.

San Sanich

Добавлено: 26.11.2013 20:34

[профиль]

Member
Статус: Не в сети
Регистрация: 23.10.2011
Откуда: MO г. Балашиха

[quote="Renegade1979"][

http://www.overclockers.ru/hardnews/533 ... xwell.html

Впрочем, кое-что о преемнике Kepler компания NVIDIA уже успела рассказать. Например, известно, что в процессоры с архитектурой Maxwell будут добавлены вычислительные ядра общего назначения с архитектурой ARMv8, известные под кодовым именем Denver. Совсем недавно стало известно, что начиная с решений поколения Maxwell NVIDIA планирует использовать технологию виртуальной памяти, в рамках которой центральному и графическому процессору будет предоставлен параллельный доступ к общей памяти.

_________________
Лучше гнать процессор, чем пургу.

Renegade1979

Добавлено: 26.11.2013 20:41

[профиль] [Фотоальбом]

Member
Статус: Не в сети
Регистрация: 01.06.2011
Откуда: Кривий Рiг UA
Фото: 1

San Sanich писал(а):

Вы знаете порядок цифр производительности вычислений CPU и GPU в гигафлопсах?

наускорять c 0,856 TFLOPS можно, это чуть больше чем в третьей плойке, главное, что именно и как

опять же - APU для того и создан, чтобы не покупать дискретку, значит карта будет как минимум занята дисплеем или рендером Бэтмана (на минималках в 720р), а не ускорениями CPU, а всякий физикс железяка вроде PS3 просто не потянет... гтс450 может потянет и выше, так что серьёзного буста вряд ли выйдет даже в теории в Винраре, и придётся писать HSA виндар на OpenCL 2.0, который никто не поддерживает, кроме некстген консольков, соотв. разрабы Винрара могут послать эти Кавери к чоррту
ЗЫ за встроенные Денверы ещё бабка надвое сказала, пусть сам Wang выйдет на сцену и скажет, что будет где-то кроме Тегры, АРМ в десктопе и HPC, странное сочетание... Тесла обычно не ставят на сервера с Ведроидом, а в десктопе тем более ARM не надо, что ядра будут делать это вопрос :-)

San Sanich писал(а):

начиная с решений поколения Maxwell NVIDIA планирует использовать технологию виртуальной памяти, в рамках которой центральному и графическому процессору будет предоставлен параллельный доступ к общей памяти

http://devblogs.nvidia.com/parallelfora ... in-cuda-6/ тут написано где и как будут применять, сам 6.0 ещё только разрабатывают. Выйдет как всегда, у АМД HSA, у Нвидии CUDA и каждый будет в своём, на консолях и в Тесла. Га ноутбуках с Кавери будет Венда, а в ней С++, как обычно.

_________________
По поводу АМД можно сказать, что... http://images.vfl.ru/ii/1466552059/06f0b3de/13108371.gif

VINRARUS

Добавлено: 26.11.2013 20:47

[профиль] [Фотоальбом]

Member
Статус: Не в сети
Регистрация: 12.04.2012
Откуда: UA, Чорнобиль.
Фото: 37

San Sanich писал(а):

NVIDIA планирует использовать технологию виртуальной памяти, в рамках которой центральному и графическому процессору будет предоставлен параллельный доступ к общей памяти.

Вот только для ПК пользы минимум. :don-t_mention:

San Sanich писал(а):

Так что вы и в планшетах-смартфонах её увидите.

Это те у которых 8 ядер планируются? Ога, все прямо побегут яву под HSA точить, когда можно не париться и юзать те 8 ядер. :lol:

devl547

Добавлено: 26.11.2013 20:55

[профиль]

Member
Статус: Не в сети
Регистрация: 10.05.2011
Откуда: Москва

Ребят, список участников HSA foundation то гляньте.
"Никто не будет поддерживать", ля-ля и так далее.
Куда денутся, будут как миленькие.

Новая тема /

Закрыто

Сообщений: 148 • Страница 6 из 8 • < 1 ... 3 4 5 6 7 8 >

Список форумов » Сайт и конференция » Материалы сайта » Обсуждение новостей

Часовой пояс: UTC + 3 часа

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 13

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Перейти: