будут резать производительность в ИИ вычислениях, как делали с LHR во времена майнинга
Если 5000 серию порежут в ИИ , то в 5080d не будет никакого смысла учитывая относительно небольшой объём памяти.
Добавлено спустя 2 минуты 5 секунд:
Gorod писал(а):
1.4 миллиарда человек из которых не меньше любителей поиграть чем где либо. Уходить из Китая
Китай это не весь мир и если прикажут, то западные компании будут вынуждены уйти.
Добавлено спустя 3 минуты 17 секунд: Все меняется, не будет централизованного производства на Тайване. Tsmc планирует построить завод в германии, в США. Intel тоже начал строить заводы в США.
Community Manager
Статус: Не в сети Регистрация: 30.12.2004 Откуда: У зайца яйца
vpoluektov писал(а):
Интереснее другое. 5080D даже не планируется. Из чего можно сделать вывод, что 5080 ожидается слабее не то что 4090, но и 4090D.
А с чего бы ей было быть хотя бы сравнимой с 4090D? Чуточку увеличенный чип 4080 на той же 256-битной шине. Это с первого дня было ясно.
vpoluektov писал(а):
Ходили слухи, что чип на сей раз резать вообще не будут - будут резать производительность в ИИ вычислениях, как делали с LHR во времена майнинга.
Это не сработает. Во-1х, если даже написать детектор конкретной LLM-ки, как было с LHR, то его обойдут, как обошли LHR, гоняя другую модель. Но тогда было можно экспериментировать, последствий никаких, потому что это была личная инициатива Хуанга, а сейчас это санкции Госдепа США.
Items: a. Integrated circuits having one or more digital processing units having either of the following: a.1. A `total processing performance' of 4800 or more, or a.2. A `total processing performance' of 1600 or more and a `performance density' of 5.92 or more. b. Integrated circuits having one or more digital processing units having either of the following: b.1. A `total processing performance' of 2400 or more and less than 4800 and a `performance density' of 1.6 or more and less than 5.92, or b.2. A `total processing performance' of 1600 or more and a `performance density' of 3.2 or more and less than 5.92.
1. `Total processing performance' (`TPP') is 2 × `MacTOPS' × `bit length of the operation', aggregated over all processing units on the integrated circuit. a. For purposes of 3A090, `MacTOPS' is the theoretical peak number of Tera (10^12) operations per second for multiply-accumulate computation (D = A × B + C). b. The 2 in the `TPP' formula is based on industry convention of counting one multiply-accumulate computation, D = A × B + C, as 2 operations for purpose of datasheets. Therefore, 2 × MacTOPS may correspond to the reported TOPS or FLOPS on a datasheet. c. For purposes of 3A090, `bit length of the operation' for a multiply-accumulate computation is the largest bit-length of the inputs to the multiply operation. d. Aggregate the TPPs for each processing unit on the integrated circuit to arrive at a total. `TPP' = TPP1 + TPP2 + . . . . + TPPn (where n is the number or processing units on the integrated circuit). 2. The rate of `MacTOPS' is to be calculated at its maximum value theoretically possible. The rate of `MacTOPS' is assumed to be the highest value the manufacturer claims in annual or brochure for the integrated circuit. For example, the `TPP' threshold of 4800 can be met with 600 tera integer operations (or 2 × 300 `MacTOPS') at 8 bits or 300 tera FLOPS (or 2 × 150 `MacTOPS') at 16 bits. If the IC is designed for MAC computation with multiple bit lengths that achieve different `TPP' values, the highest `TPP' value should be evaluated against parameters in 3A090. 3. For integrated circuits specified by 3A090 that provide processing of both sparse and dense matrices, the `TPP' values are the values for processing of dense matrices (e.g., without sparsity).
4. `Performance density' is `TPP' divided by `applicable die area'. For purposes of 3A090, `applicable die area' is measured in millimeters squared and includes all die area of logic dies manufactured with a process node that uses a non-planar transistor architecture.
---
Даже бумаги не пожалели. 2*триллионы FMA*биты, суммарно по всем процессорным блокам, максимальные теоретически возможные. Соответственно, ~75 ТФЛОПС для 32-битного режима, но несколько набирается за счет других компонентов. Более того, считается еще и плотность в "ТРР" на кв.мм. Если она превысит 5.92, а для датацентров 3.2, то нельзя уже даже в три раза слабее (25 ТФЛОПС). Почему такие странные цифры, 3.2 и 5.92? Сложно понять, как они там считали плотность, но в целом явно как-то считают, и это нацелено запретить не только 4090, но и даже более слабые чипы на более тонких техпроцессах. То есть явно с экспертами рассчитали так, чтобы дать Китаю (а также прочим странам в шитлистах) обрезанную 4090, но не мощнее и не новее.
Так что для обхода санкций можно было, конечно, не трогать текстурники и т.п., которые не переназначить на вычисления, отключить часть вычислительных блоков, и сделать карту, которая в растре будет как 4090, а в более сложных вычислениях... только кажется ее уже кто-то делает.
Advanced guest
Статус: Не в сети Регистрация: 03.12.2004
Varg писал(а):
Так что для обхода санкций можно было, конечно, не трогать текстурники и т.п., которые не переназначить на вычисления, отключить часть вычислительных блоков, и сделать карту, которая в растре будет как 4090
Не получится ничего. Растр тоже давным-давно упирается в вычисления. С точки зрения чистой производительности все эти текстурники с запасом в чипах лежат. 4 штуки на SM скорее всего упрощают рендеринг квадами пикселей, минимизируя простои считалок и памяти.
_________________ Unfortunately for you, however, you are maidenless
Community Manager
Статус: Не в сети Регистрация: 30.12.2004 Откуда: У зайца яйца
4e_alex Это шутка про то, что 4090 без лучей будет 7900 ХТХ.
Только помимо шуток - полная правда, т.к. методика выше требует считать сумму по всем блокам, а у нвидии лучи отдельными блоками, так что если их выпилить, то карта тоже уложится под санкции.
Advanced guest
Статус: Не в сети Регистрация: 03.12.2004
Varg писал(а):
у нвидии лучи отдельными блоками, так что если их выпилить
Нельзя их выпилить. Нет никаких отдельных блоков, есть блок работы с геометрией. С ферми по паскаль он назывался polymorph engine в ознаменование поддержки тесселяции. Сейчас это RT core в честь прокаченного перебора BVH и прочих лучефич. К тому же производительность таких блоков очень сложно переводить в бумажные топсы и флопсы. Через OpenCL/CUDA до них все равно не добраться. В теории ведь можно и текстурники начать тогда считать, чем они хуже? Nvidia в pdf заявляет, что 4090 обладает 191 "RT TFLOPS". Что в 2.5 раза больше, чем CUDA cores TFLOPS. Мне кажется, что оно сильно теоретический параметр и не учитывается.
_________________ Unfortunately for you, however, you are maidenless
Community Manager
Статус: Не в сети Регистрация: 30.12.2004 Откуда: У зайца яйца
4e_alex писал(а):
Nvidia в pdf заявляет, что 4090 обладает 191 "RT TFLOPS". Что в 2.5 раза больше, чем CUDA cores TFLOPS. Мне кажется, что оно сильно теоретический параметр и не учитывается.
Госдеп же вокруг всяких Хопперов и 4090 эти правила и писал и подгонял под них )
Цитата:
the `TPP' threshold of 4800 can be met with 600 tera integer operations (or 2 × 300 `MacTOPS') at 8 bits or 300 tera FLOPS (or 2 × 150 `MacTOPS') at 16 bits.
Цитата:
For integrated circuits specified by 3A090 that provide processing of both sparse and dense matrices, the `TPP' values are the values for processing of dense matrices (e.g., without sparsity).
Advanced guest
Статус: Не в сети Регистрация: 03.12.2004
Varg писал(а):
А это что на 11 странице?
Многофункциональный блок обработки геометрии. Без него карта не сможет даже в растр. Он там сидит на одном и том же месте со времен G80, периодически его переименовывают под текущие тренды. Функционал конечно тоже развивают.
Добавлено спустя 3 минуты:
Varg писал(а):
"RT TFLOPS" считаются при меньшей разрядности, чем классические FP32 TFLOPS. А еще и по какой-то формуле суммируются.
Там львиная доля флопсов виртуальная. Теоретическая экономия от того, сколько пришлось бы напихать в GPU обычных CUDA-ядер, чтобы перебирать BVH с той же скоростью. Ускорять вычисления на них не получится. Так что по-хорошему в их формуле все это должно на 0 в итоге умножаться.
Добавлено спустя 11 минут 52 секунды:
Varg писал(а):
тензорники, впрочем для лучей нужны и те и другие
На них много что завязано. VRS, лучи (в части шумодава), DLSS. Второе и третье в теории можно крутить на cuda-ядрах, отъедая ресурсы от рендеринга, как это делают в другом лагере. А вот с VRS будет облом, т.к. основные ядра не умеют в увеличенный темп FP16 (в отличие от AMD и больших чипов nvidia, понятно по какой причине). Без этого карта не может считаться FL 12_2, т.е. уже не DX12 Ultimate.
_________________ Unfortunately for you, however, you are maidenless
Community Manager
Статус: Не в сети Регистрация: 30.12.2004 Откуда: У зайца яйца
4e_alex писал(а):
Многофункциональный блок обработки геометрии.
Нет, не внизу. Ada 4th Generation Tensor Core справа. Без него карта вполне себе будет фырчать в растр, а вот с лучиками будет как на Паскале.
4e_alex писал(а):
Там львиная доля флопсов виртуальная. Теоретическая экономия от того, сколько пришлось бы напихать в GPU обычных CUDA-ядер, чтобы перебирать BVH с той же скоростью.
Да. А Госдеп считает реальные ядра и их разрядность. Правда, учитывая возможность или невозможность параллельного использования.
Advanced guest
Статус: Не в сети Регистрация: 03.12.2004
Генерация нейронкой это сейчас либо какое-то баловство либо крайне точечное применение с последующим контролем человеком. Сомневаюсь, что куртка революцию какую-то совершит в ближайшее время. Если и будет в DLSS4 что-то такое, то очень точечно. А если потребуется интеграция со стороны игры (чтобы давала команду пририсовать пару дополнительных деревьев на фон), то оно не взлетит пока не станет общим стандартом, т.е. сильно не скоро, если вообще.
_________________ Unfortunately for you, however, you are maidenless
С этим трудно согласиться. Рынок КНР огромен, причем не только игровой, но и промышленный. Вычеркивать такой рынок Куртка не станет. Слишком большие потери. Инвесторы не позволят. Найдет обходные пути, но обязательно вывернется. Выпустят под каким-нибудь странным именем типа "Курочка Ряба ГэБэ100ахах", и обойдут санкции.
Добавлено спустя 2 минуты 22 секунды:
Nomad-TM-LIVE писал(а):
#77
A-a-a-a-a!!!
_________________ Ничто не вечно под луной? Да. Кроме человеческой глупости, жадности, и свинства.
Member
Статус: Не в сети Регистрация: 05.10.2024 Фото: 0
Slimchanskiy писал(а):
Где апскейлер текстур который они анонсили год назад? Я думал это гениальный план под 8гб, а оказалось это просто прогрев
Дак это оно мб и есть
#77
Память вам и не нужон теперь Вот Вам и прогрев, ДЖОНС который жрёт как не в себя, но тут на помощь приходит ХУАНГ с инновационным решением экономии ресурсов
Но есть НО
эксклюзивно для RTX 5000
Последний раз редактировалось Nomad-TM-LIVE 17.12.2024 18:51, всего редактировалось 3 раз(а).
Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 18
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения