Часовой пояс: UTC + 3 часа




Форум закрыт Новая тема / Эта тема закрыта, вы не можете редактировать и оставлять сообщения в ней. Закрыто  Сообщений: 74 • Страница 4 из 4<  1  2  3  4
  Пред. тема | След. тема 
В случае проблем с отображением форума, отключите блокировщик рекламы
Автор Сообщение
 

Member
Статус: Не в сети
Регистрация: 20.03.2011
Откуда: Москва
Mokujin_82 ГПУ ядра настолько слабенькие, что синхронизация потоков для ГПУ в таком случае будет убивать весь профит, оверхед больше производительности. Сила ГПУ в числе ядер, а не в их мощности. И только специальные GPGPU-oriented алгоритмы могут нормально там выполнятся. ТО есть - потоки. А процессы раскидывать по гпу-ядрам никакого толка не будет.

_________________
I would tell you a joke about UDP, but you probably wouldn't get it.



Партнер
 

Member
Статус: Не в сети
Регистрация: 16.12.2008
Откуда: Воронеж
Psilon писал(а):
ГПУ ядра настолько слабенькие
Я надеюсь вы неправильно выразились?...типа универсальность слабая...
Psilon писал(а):
что синхронизация потоков для ГПУ в таком случае будет убивать весь профит, оверхед больше производительности
Уж если выделенные GPU на шине PCI-e дают профит(там где действительно нужны вычислительные мощности), что говорить о практически равноправном сопроцессоре?
Psilon писал(а):
И только специальные GPGPU-oriented алгоритмы могут нормально там выполнятся
Естественно - одиночный поток и ядро CPU не загружает ибо и там несколько параллельных ALU/FPU...
Psilon писал(а):
ТО есть - потоки. А процессы раскидывать по гпу-ядрам никакого толка не будет.
Как вариант - пакетная обработка фотографий, каждый GPU-модуль(64 ядра/шейдера) обрабатывает отдельную фотографию, запущенную отдельным процессом программы(ака вкладки в браузере Chrome, каждая по сути отдельный экземпляр браузера)

_________________
AMD Phenom II X6 1055T, Asus M4A79 Deluxe, 4gb(2x OCZ Titanium XTC OCZ2T11502G), PowerColor Radeon HD 7970 3GB


 

Member
Статус: Не в сети
Регистрация: 20.03.2011
Откуда: Москва
edal да вы вообще представляете, какие накладные расходы в системе есть при создании процессов? Создание процесса занимает в разы, а то и на порядки больше времени, чем обработка этой фотографии. Процесс в винде (а винда это основная ось на ПК) создание процессов - это большой геморрой. Да и в лине форкать все подряд если система радовать не будет.

Даже на SO полно топиков на эту тему

_________________
I would tell you a joke about UDP, but you probably wouldn't get it.


 

Member
Статус: Не в сети
Регистрация: 16.12.2008
Откуда: Воронеж
Psilon писал(а):
edal да вы вообще представляете, какие накладные расходы в системе есть при создании процессов? Создание процесса занимает в разы, а то и на порядки больше времени, чем обработка этой фотографии
Ну фотки бывают разные, а вообще пример был к тому что задачи могут быть независимыми и/или вообще принадлежать разным программам и в тоже время хорошо ложиться на архитектуру GPU...

_________________
AMD Phenom II X6 1055T, Asus M4A79 Deluxe, 4gb(2x OCZ Titanium XTC OCZ2T11502G), PowerColor Radeon HD 7970 3GB


 

Member
Статус: Не в сети
Регистрация: 20.03.2011
Откуда: Москва
edal еще раз: современная архитектура ОС не позволяет просто так выполнять рандомные задачи на ГПУ. Если говорим про GPGPU, то там даже просто копирование в память ГПУ, выполнение на ней и копирование обратно - выходит дольше, чем на ЦПУ сделать. Недавно вот топик был: человек сделал на ГПУ вставку, а выполнятся стало дольше, начали выяснять, оказалось, выполнение кода ускорилось в 6 раз, а вот из-за копирования туда-сюда памяти прирост оказался -100%.

Мощность CPU примерно в 8 раз меньше, чем на ГПУ, при том, что ядер у него меньше во сколько раз? То-то. Параллелить можно задачи с общей памятью, и только. А общей памяти у нескольких процессов нет и быть не может, что гарантируется супервизором ОС.

_________________
I would tell you a joke about UDP, but you probably wouldn't get it.


 

Member
Статус: Не в сети
Регистрация: 16.12.2008
Откуда: Воронеж
Psilon писал(а):
Если говорим про GPGPU, то там даже просто копирование в память ГПУ, выполнение на ней и копирование обратно - выходит дольше, чем на ЦПУ сделать
Верно, только к Кавери уже не применимо(если делать с умом) - общее адресное пространство рулит
Psilon писал(а):
Параллелить можно задачи с общей памятью, и только
А независимые задачи на разных блоках GCN запускать Будда запретил?
Psilon писал(а):
А общей памяти у нескольких процессов нет и быть не может, что гарантируется супервизором ОС.
А нам и не надо, нам надо чтоб она была у процессоров(CPU/GPU - ядер в терминологии АМД) а не процессов ака программ.

_________________
AMD Phenom II X6 1055T, Asus M4A79 Deluxe, 4gb(2x OCZ Titanium XTC OCZ2T11502G), PowerColor Radeon HD 7970 3GB


 

Member
Статус: Не в сети
Регистрация: 20.03.2011
Откуда: Москва
edal учите матчасть. Даже ручная оптимизация со знанием алгоритмов может привести к деградации и memory wall hit. А уж про автоматизированный GPGPU не приходится и мечтать ближайшее десятилетие. Или будем ванговать на 20+ лет вперед?

_________________
I would tell you a joke about UDP, but you probably wouldn't get it.


 

Member
Статус: Не в сети
Регистрация: 16.12.2008
Откуда: Воронеж
Psilon Ещё раз, Вы разницу между видеокартой на шине PCI-e и равноправным(применительно к ОЗУ с единым адресным пространством) с ЦПУ графическим сопроцессором видите? Похоже что нет...
Psilon писал(а):
edal учите матчасть.

Надеюсь "матчасть" не вы писали?Одна философия, пусть и по сути, и то если не считать того что нет конечных результатов(кроме как "это было быстрее, а это не пошло") и результатов без Куды вообще, забыли указать платформу, процессор и т.д.
Теперь "финт ушами"
Цитата:
Вычисления производятся с использованием Java-привязки к CUDA (JCUDA) [1] на GT630 (Kepler)...Вычисления происходят в двойной точности (double)
Чего ожидали получить от видеокарты находящейся мало того что на шине PCI-e и скорее всего 2-ой версии а не 3-ей, так ещё и имеющей в пике(теоретическом) всего < 30 Гфлопс в двойной точности, что меньше чем у большинства х86 процессоров. С нею профит можно получить только если иметь в комплекте одноядерный Атом с шиной PCI-e 3 версии

_________________
AMD Phenom II X6 1055T, Asus M4A79 Deluxe, 4gb(2x OCZ Titanium XTC OCZ2T11502G), PowerColor Radeon HD 7970 3GB


 

Member
Статус: Не в сети
Регистрация: 20.03.2011
Откуда: Москва
edal нет, не я.

В общем разговор зашел в тупик. Я более чем уверен, что ядра GPU слишком слабы, чтобы заниматься чем-то кроме перемножения матриц и прочих SIMD. Потому как я видел немало пруфов этому. Если у вас иное мнение - просьба показать источник, хотелось бы ознакомиться.

_________________
I would tell you a joke about UDP, but you probably wouldn't get it.


 

Member
Статус: Не в сети
Регистрация: 16.12.2008
Откуда: Воронеж
Psilon писал(а):
edal нет, не я.
В общем разговор зашел в тупик. Я более чем уверен, что ядра GPU слишком слабы, чтобы заниматься чем-то кроме перемножения матриц и прочих SIMD. Потому как я видел немало пруфов этому. Если у вас иное мнение - просьба показать источник, хотелось бы ознакомиться.

Мне кажется вы немного путаете понятия слабость и универсальность ака всеядность, а точнее привычный код, средства и алгоритмы написания оного(IDE, компиляторы учебники примеры кода, практика). Но и тут мы встречаем примеры быдлокода, чего стоит только сравнение размера и функционала и скорости работы WIN98 и WINXP, и снова WINXP WIN7/8... Чего такого написали в Семёрке что размер оси увеличился в 10 раз? DX10/11 и AERO? Многие из нас помнят вполне шуструю работу 98-ой на процессорах в пару сот мегагерц, или как пример ось Kolibri помещающаяся на дискету...
Высокая производительность процессоров Интел в чем? Как раз в тех самых SIMD(SSE/AVX), способность исполнить одной командой/инструкцией максимальное количество операций. Но обьединяются то только однотипные операции и некоторые комбинации разнотипных команд типа a*b+c(MADD).
Что собой представляют тяжелые вычисления? Чаще всего это как раз и есть обработка больших массивов однотипных данных будь то расчет молекулярной/аэро/гидро динамики или другой вид физических взаимодействий.
Что собой представляют суперкомпьютеры и какие задачи на них решаются? - "массив" процессоров обрабатывает массив данных, то есть задача как нельзя лучше подходящая для GPU, что и подтверждается выбором создателей суперкомпютеров

_________________
AMD Phenom II X6 1055T, Asus M4A79 Deluxe, 4gb(2x OCZ Titanium XTC OCZ2T11502G), PowerColor Radeon HD 7970 3GB


 

Member
Статус: Не в сети
Регистрация: 20.03.2011
Откуда: Москва
edal под тяжелыми данными я имею ввиду алгоритмы с большим числом условных переходов, с большим числом операций над несколькими байтами и прочим. у ГПУ нету кэша, он не умеет в условные переходы, и на этом он сольет вполне прилично. А как раз "расчет молекулярной/аэро/гидро динамики" отлично ложится на гпу.

Мы вроде как про ПК, а не про суперкомпьютеры? Там-то ГПУ пророчили еще лет 20 назад успех.

Добавлено спустя 2 минуты 23 секунды:
Вот, откопал, одна из лучший статей на тему имо:
http://www.ixbt.com/video3/rad.shtml

_________________
I would tell you a joke about UDP, but you probably wouldn't get it.


 

Member
Статус: Не в сети
Регистрация: 16.12.2008
Откуда: Воронеж
Psilon писал(а):
под тяжелыми данными я имею ввиду алгоритмы с большим числом условных переходов, с большим числом операций над несколькими байтами и прочим
Такие алгоритмы как стандарт не являются параллельными(распараллеливаемыми) и сунуть их на GPU нет смысла хотя бы из-за разности частот, так как последовательные алгоритмы будут быстрее выполняться на более высокочастотном устройстве каким является CPU.
Psilon писал(а):
Мы вроде как про ПК, а не про суперкомпьютеры?
Вообще то про тяжелые вычисления, под которыми я понял вычисления требующие больших мощностей а не систему искусственного интеллекта(непредсказуемые действия)...

Добавлено спустя 4 минуты 57 секунд:
Psilon писал(а):
у ГПУ нету кэша, он не умеет в условные переходы, и на этом он сольет вполне прилично
Кеш есть в обоих производителей GPU, условные переходы тоже частично поддерживаются, особенно в Нвидиа Куда

_________________
AMD Phenom II X6 1055T, Asus M4A79 Deluxe, 4gb(2x OCZ Titanium XTC OCZ2T11502G), PowerColor Radeon HD 7970 3GB


 

Member
Статус: Не в сети
Регистрация: 20.03.2011
Откуда: Москва
edal
edal писал(а):
Кеш есть в обоих производителей GPU, условные переходы тоже частично поддерживаются, особенно в Нвидиа Куда


цитаткой отвечу
Цитата:
В Fermi был введен кэш второго уровня размером около 1 МБ, но его нельзя сравнивать с кэшами современных процессоров, он больше предназначен для коммуникации между ядрами и различных программных трюков. Если его размер разделить между всеми десятками тысяч нитей, на каждую придется совсем ничтожный объем.


Цитата:
Такие алгоритмы как стандарт не являются параллельными(распараллеливаемыми) и сунуть их на GPU нет смысла хотя бы из-за разности частот, так как последовательные алгоритмы будут быстрее выполняться на более высокочастотном устройстве каким является CPU.

в этом и вопрос...

В общем, я думаю, все обговорили. Приятно было пообщаться)

_________________
I would tell you a joke about UDP, but you probably wouldn't get it.


 

Заблокирован
Заблокирован
Статус: Не в сети
Регистрация: 30.10.2007
Откуда: Одесса
Rhianon писал(а):
После неудачи с gddr4 АМД не осмелится первое пересесть на что-то новое.

лол, амд первая перешла на gddr5, пеши есчо

_________________
Если Бог за нас, кто против нас?(с) Библия
В случае масштабных военных действий, эвакуация населения не только не производится, но и не планируется.


Показать сообщения за:  Поле сортировки  
Форум закрыт Новая тема / Эта тема закрыта, вы не можете редактировать и оставлять сообщения в ней. Закрыто  Сообщений: 74 • Страница 4 из 4<  1  2  3  4
-

Часовой пояс: UTC + 3 часа


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 17


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Перейти:  
Создано на основе phpBB® Forum Software © phpBB Group
Русская поддержка phpBB | Kolobok smiles © Aiwan