Member
Статус: Не в сети Регистрация: 01.06.2011 Откуда: Кривий Рiг UA Фото: 1
Nimrael писал(а):
Кака и получилось в Томбрайдере, где асинхронные потоки, видимо, не очень грамотно ссинхронизированы.
грамотно же НЕВОЗМОЖНО... без спец. чесночной шины в консольке или в APU встройки АМД (hUMA и такое прочее), синхронизация будет ни к чорррту, посему на ПК этот асинг кампот всегда будет лагать. На соснольках для синхронизации потоков примеряют специальную шину, идущую прямо в оперативку, о обход кеша L2, основные графические потоки не это затрагивает именно потому, что у GCN 1.1 они идут через GCP, отдельный от АСЕ блок, для грофиниума, которого нет у GCN 1.0, из-за чего там последнем асинг кампот вообще как бы и не работает также есть тесселяция, которая тоже графический поток, в Тонге её немного подтянули, но та вышла уже после соснольки, и следовательно тесселяция на мыловарнях тормозит, из-за чего её нигде не ставят и на ПК
Nimrael писал(а):
Но особого проифта оно не дает. Почему? да потому что есть достаточно серьезный и продвинутый внутренний механизм динамического паралелизма, позволяющий балансировать загрузку чипа между потоками
уже не потоками, а инструкциями - на каждом варп-планировщике есть два диспетчера инструкций, специальный кассстыль для мидловых Ферми (и Кеплеров само собой). Если АМД только в 2016м решают скопипастить варп-планировщик 2010го года, и при том до сих пор гоняют 64-поточные блоки тредов на 16 ядер в 4 такта, видимо у них там работают полнейшие слоупоки и индусы. Вангую сливвв и лютый фэйл. Её конкурент, впрочем, такая затычка, что Полюрис её ещё и обгонит, с 2304 ядрами своими против 1280
_________________ По поводу АМД можно сказать, что... http://images.vfl.ru/ii/1466552059/06f0b3de/13108371.gif
грамотно же НЕВОЗМОЖНО... без спец. чесночной шины в консольке или в APU встройки АМД (hUMA и такое прочее), синхронизация будет ни к чорррту, посему на ПК этот асинг кампот всегда будет лагать. На соснольках для синхронизации потоков примеряют специальную шину, идущую прямо в оперативку, о обход кеша L2, основные графические потоки не это затрагивает именно потому, что у GCN 1.1 они идут через GCP, отдельный от АСЕ блок, для грофиниума, которого нет у GCN 1.0, из-за чего там последнем асинг кампот вообще как бы и не работает также есть тесселяция, которая тоже графический поток, в Тонге её немного подтянули, но та вышла уже после соснольки, и следовательно тесселяция на мыловарнях тормозит, из-за чего её нигде не ставят и на ПК
Дак hUMA аналог по факту и применяется для потоков. суть в том, что надо сбалансировать скорость исполнения потоков. Потому что иначе, если правильно сделать, система будет останавливать исполнение других потоков до момента, пока самый слоупочный поток наконец не получит/выдаст нужные данные. а при совсем кривой реализации (верю, что это будет несмотря на все мануалы, где об этом чуть ли не кричаьт) будет ещё веселее - более быстрые потоки ещё и налдписывать данные будут ДО того, как их получит нужный поток. Но это займет хренову тучу времени. А нужно то синхронизировать не только ГПУ пооки. Но и ЦПУ потоки. Совместно с ГПУ-потоками. В итоге получается нечто достаточно серьезно расползающееся. И если в DX11 все выфармливают в доп. слое абстрагирования драйвер и механизмы API, то в DX12 такого слоя просто нет. В итоге, программеру нужно самому ломать моск.
Добавлено спустя 11 минут 41 секунду:
Renegade1979 писал(а):
уже не потоками, а инструкциями - на каждом варп-планировщике есть два диспетчера инструкций, специальный кассстыль для мидловых Ферми (и Кеплеров само собой). Если АМД только в 2016м решают скопипастить варп-планировщик 2010го года, и при том до сих пор гоняют 64-поточные блоки тредов на 16 ядер в 4 такта, видимо у них там работают полнейшие слоупоки и индусы. Вангую сливвв и лютый фэйл. Её конкурент, впрочем, такая затычка, что Полюрис её ещё и обгонит, с 2304 ядрами своими против 1280
Это ты уже на уровень SM перешел. Вернись на макро-уровень Там тоже свой планировщик есть А также декодер и т.д. Вот диспетчеры уже разпределяют внутри SM инструкции на свободные болоки вычислительные SIMD-блоки (2хCUDA), LD/ST и FP64 юниты.
Member
Статус: Не в сети Регистрация: 01.06.2011 Откуда: Кривий Рiг UA Фото: 1
Nimrael писал(а):
Вот диспетчеры уже разпределяют внутри SM инструкции на свободные болоки вычислительные SIMD-блоки (2хCUDA), LD/ST и FP64 юниты.
вся ирония в том, что Хуанг их всё ж оставил, хотя начиная с Мохвела эти диспетчеры вроде как уже не нужны, за такт всегда на каждые 32 ядра у варп-планировщика попадает по треду из варпа, и буферы регистровые у них свои, кеши инструкций тоже свои, конфликтов быть не должно, что именно будут диспетчить эти диспетчеры в таком случае неясно - видимо это сделано с прицелом на всяческий VR, где придётся рендерить вершины и пиксели со смещением по координатам
Nimrael писал(а):
И если в DX11 все выфармливают в доп. слое абстрагирования драйвер и механизмы API, то в DX12 такого слоя просто нет. В итоге, программеру нужно самому ломать моск.
там всё проще - скорее всего программист берёт и пишет за Хуанга сам весь слой абстрагирования а-ля драйвера, наиндусив как Беседка, и все преимущества дх12 тут же теряются, вдобавок под каждую архитектуру придётся колхозить самому, а такие вещи обычно коммерческая тайна и никто не скажет, в итоге получается Квантум Брюх. Так оно и будет. Готовим Титаниксы, лагать будет
_________________ По поводу АМД можно сказать, что... http://images.vfl.ru/ii/1466552059/06f0b3de/13108371.gif
Member
Статус: Не в сети Регистрация: 01.06.2011 Откуда: Кривий Рiг UA Фото: 1
Nimrael писал(а):
Вернись на макро-уровень Там тоже свой планировщик есть
там весь кипеш поднялся из-за того, что Giga-Thread Engine всегда был один (и сейчас один) и переключался с графических потоков на вычислительные, с латентностью (context switching). Там латентность мизерная по сути, и если бы существовало годное альтернативное решение, Хуанг бы давно это сам и применил. Вместо этого в Максвелле глобально начали раздавать уже не варпы, а треды, а в Паскале уже инструкции, а планировщик всё равно остался один, и никаких раздельных АСЕ/GCP даже не планировалось. Видимо так удобнее, и чип не греется, и места не занимает. Почему этими раздельными планировщиками увлекалась омд, так это по одной простой причине - их APU со встройками, их память висит в оперативе, с синхронизацией данных проблем соотв. никогда не будет - GPU всегда видит то же, что и CPU достаточно поставить отдельную шину у глобальных планировщиков и вторую у L2 кеша от CU, и сверяться на лету поэтому упрекать десктопные решения за то, что у них не работает асинг кампот, как ругать людей за то, что у них нет хвоста для хватания бананов. Всё ж 8 ног или хвост вроде и удобнее, но люди не шимпанзе
_________________ По поводу АМД можно сказать, что... http://images.vfl.ru/ii/1466552059/06f0b3de/13108371.gif
Member
Статус: Не в сети Регистрация: 01.06.2011 Откуда: Кривий Рiг UA Фото: 1
vorvort это ещё профит - если бы пришли Хрыстоль Динамикс и выдали нам то, что на ящике, в эмуляторе ящика и обвёртке магазина МС, там бы и 720р слайдшоу в Квантум Брюхе померкло, на фоне слайдшоу. Так что на ПК да будет бойарский API, а холопам дх12 кривой
_________________ По поводу АМД можно сказать, что... http://images.vfl.ru/ii/1466552059/06f0b3de/13108371.gif
Member
Статус: Не в сети Регистрация: 11.06.2016 Фото: 4
Nimrael писал(а):
И если в DX11 все выфармливают в доп. слое абстрагирования драйвер и механизмы API, то в DX12 такого слоя просто нет. В итоге, программеру нужно самому ломать моск.
Ну и смысл так делать? Теперь придется лично в каждую студию заносить на оптимизацию, вместо того, чтобы держать своих программистов на зарплате.
Renegade1979 писал(а):
Так что на ПК да будет бойарский API, а холопам дх12 кривой
Если народ поведется на DX12, он может и прижиться окончательно. А статистика стима по переходу на Win10 не очень веселая (для нас). vorvort Так что тухлую тему твои хозяева затеяли, от которой всем плохо будет.
Renegade1979 писал(а):
Почему этими раздельными планировщиками увлекалась омд, так это по одной простой причине - их APU со встройками, их память висит в оперативе, с синхронизацией данных проблем соотв. никогда не будет - GPU всегда видит то же, что и CPU
Выходит покупать карты АМД - это поддерживать разработку железа для богомерзких приставок. Еще одна причина, почему не стоит этого делать.
Member
Статус: Не в сети Регистрация: 01.06.2011 Откуда: Кривий Рiг UA Фото: 1
coolio писал(а):
Если народ поведется на DX12, он может и прижиться окончательно
народу как раз нафиг не нужно, там Хуанг с Лизой 2гиговых карт мульёны распродавали, ещё в прошлом году даже 4 гига в 380й и 960й были опционалом. Что-то типа 3 гига всегда было на картах с конскими ценниками, даже у АМД. Как только ценники стали пристойные, Тонге сразу же чикнули шынЪу. Там даже по дх11 памяти впритык под консольные текстурки. Какой ещё дх12 с её гирзами и квантумбрюхами, те жрут как паровозы так, что Фуро фризит. Кшмаррр
_________________ По поводу АМД можно сказать, что... http://images.vfl.ru/ii/1466552059/06f0b3de/13108371.gif
Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 10
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения