Member
Статус: Не в сети Регистрация: 05.01.2008 Откуда: 78 Фото: 18
aasheron писал(а):
Если интересно - объясню:
ну вот теперь понятнее, спасибо за пояснения! Теперь я не "альтернативно одаренный невежда и ламер", я теперь "альтернативно одаренный невежда и ламер с информацией к размышлению"! Scientia potentia est! Вот что не совсем понял -
aasheron писал(а):
до достижения 3.5ГБ 970-ка будет работать эффективнее 980-ки в пересчете на SMM
с учётом одинаковой архитектуры и одной частоты(ну на время теста хотя бы) как возможно, что 970 будет эффективнее(быстрее) 980ой? Ведь 980 может обращаться ко всей своей памяти одинаково, в отличие от 970. Менеджер задач в 980ой ведь имеет доступ ко всем блокам(4 кластера со всеми СМ, в отличие от 970) и памяти и не будет заполнять её последовательно? В чём тогда преимущество 970ой будет?? Не понимаю.
aasheron писал(а):
сделать как сделали - до 3.5ГБ все работает как и на 980, потом начинается использование 8-го сегмента как фактически кэша, НЕ в ущерб 7-му сегменту
по логике так не получается, ведь доступ к этой 8ой части будет простыми словами "не полноценным" из-за отстутствия некоторых блоков, судя по схемам которые выложили. В ОЗУ полезет любая карта, которая заполнит всю свою видеопамять, в случае 970 это произойдёт раньше, чем могло бы - с 980 ведь этого не происходит с полноценным ядром. Понятно, что серьёзных проблем нет судя по тестам, но что с обманом покупателей? Они покупали 4ГБ с 256бит шиной, 64 РОП и т.д., а в итоге оказалось, что продали им не совсем такой набор спецификаций. У меня ведь тоже обрезок по блокам, но я купил именно то, что продавали без каких-либо оговорок.
Да, если кого-то смущает, почему я считаю размеры "тестовых кусков" нехарактерными, небольшая математика: Полностью отрендеренный и готовый к передаче фрэйм при разрешении 4к и стандартной 8-битной палитре на канал (24 бита суммарно) займет 24бита х 3840 х 2160 = 199.066.600 бит или 24.883.200 байт, т.е. чуть меньше 23 мегабайт. Более чем в 5 раз меньше, чем "тестовые куски". А текстуры, даже без учета их компрессии, будут занимать минимум на порядок меньше каждая.
Member
Статус: Не в сети Регистрация: 05.04.2012 Откуда: Брест
antiOVER писал(а):
старая заезженная телега.
Именно! Старая заезженная телега, которая столько лет почему-то никем не чинится. Ну, а ты видимо и есть сам центр вселенной и раз уж у тебя все в порядке с карточками, то видимо это должно служить железобетонным аргументом :, а то что все ветки такими исписаны проблемами, как ЧЭ, кривые дрова, БСОДы и прочая хрень, так это ерунда! Все гут! Главное, что карточки в среднем на 50$ дешевле! И на 100 больше геморроя дарят...
Member
Статус: Не в сети Регистрация: 05.01.2008 Откуда: 78 Фото: 18
aasheron писал(а):
А текстуры, даже без учета их компрессии, будут занимать минимум на порядок меньше каждая
На порядок это в 10(десять) раз, если что, а уж без компрессии, что-то совсем не верится в указанном 3840х2160 и в современных играх... ЗЫ Прогнал сейчас с чанком 32МБ, тоже всё нормально как и в случае с 64МБ и 128МБ. ЧЯДНТ??
Member
Статус: Не в сети Регистрация: 04.06.2011 Откуда: у Хуанга cuda? Фото: 0
928 писал(а):
Тот же Мордор или ВатчДогс и подобные игры в 3840х2160 сразу съедят около 4ГБ и больше, а за секунды или десятки секунд это уже не важно. Пойдёт использование ОЗУ почти сразу же, так как видеопамять будет заполнена. Тест эту ситуацию и пытается повторить, хоть и не идельано, но справляется с этой задачей. В случае 970 это приводит уже известно к каким результатам.
А в случае с 980/290 тут все будет хорошо? Сомневаюсь. Опять все к 4К привязываются. Видимо, больше проблем и нет нигде Ведь понятно, что одна карта не вытянет мордор, или собак в 4К и дело там не только в памяти.
_________________ Фильтрами ЛС было удалено личных сообщений: ...
Member
Статус: Не в сети Регистрация: 05.01.2008 Откуда: 78 Фото: 18
K2K я об этом же в теме про 970\980 и написал - что в 3840х2160 при макс. настройках на одночипах не поиграть в современные игры. Вот если выключить сглаживание, и под свою систему настроить опции в игре и в драйвере, тогда можно будет и поиграть. Но 60 фпс точно не будет.
Вот что не совсем понял - с учётом одинаковой архитектуры и одной частоты(ну на время теста хотя бы) как возможно, что 970 будет эффективнее(быстрее) 980ой?
Вот тут нужно глянуть на блок-схему. #77 Вся хитрость состоят в том, что SMM объединены в кластеры по 4 штуки. При отключении 1 SMM в кластере, доступ к кроссбару вместо 4-ех SMM делят 3 (очевидно, что вытянуть все 16 SMM в линейку, чтобы они все параллельно общались с кроссбаром просто нереально, значит организация в кластеры имеет своей целью упорядочивание доступа SMM к кроссбару). Кроме того, насколько я помню, в каждом кластере ещё и общий планировщик (скедулер). Т.е. при отключении 1SMM остальные ресурсы кластера - пропускная способность и ресурсы декодера-планировщика делятся не на 4 части, а на 3. Если принять, что все SMM являются "слабым звеном", т.е. производительность упирается полностью в них, а все остальное обеспечивает их с запасом - тогда эффективность была бы на равне с полными кластерами. Но такое маловероятно, так что с большой долей вероятности "неполные" кластеры будут несколько быстрее полных при равной частоте.
Цитата:
по логике так не получается, ведь доступ к этой 8ой части будет простыми словами "не полноценным" из-за отстутствия некоторых блоков, судя по схемам которые выложили.
Не совсем. Там полностью полноценный контроллер. Вся загвоздка в том, что шина между контроллером памяти и кэшем/кроссбаром будет держать не один контроллер, а два. Т.е. по сути, сама работа с памятью полностью нормальна, а вот из-за шины, адресация идет кое-как. Опять же - это заметно на огромных кусках и объемах. Но в реальной работе, когда отнюдь немалую часть времени шина простаивает (те же самые не полностью используемые бурсты чтения памяти никто не отменял, да и ошибки связанные с передачей данных) - есть вполне себе реальная возможность запитать оба контроллера на одной шине, но с приоритетом одного из них.
Цитата:
В ОЗУ полезет любая карта, которая заполнит всю свою видеопамять, в случае 970 это произойдёт раньше, чем могло бы - с 980 ведь этого не происходит с полноценным ядром.
Тем не менее, некоторые карты на, казалось бы, необрезанных чипах также быстрее лезут в ОЗУ чем нужно.
Цитата:
Понятно, что серьёзных проблем нет судя по тестам, но что с обманом покупателей? Они покупали 4ГБ с 256бит шиной, 64 РОП и т.д., а в итоге оказалось, что продали им не совсем такой набор спецификаций. У меня ведь тоже обрезок по блокам, но я купил именно то, что продавали без каких-либо оговорок.
Фактически ошибка была в кол-ве ROP-ов. Причем производный от него параметр - филлрейт, был написан правильно, только на него никто не обратил внимания, пока не пришло время детально разбираться. Что касается 256 битной шины памяти, то она как была, так и есть. А вот шина после памяти между контроллером и кроссбаром/кэшем - в одном месте с "костылем". Подозреваю, что так не только у GTX970, но и у других чипов, и не только АМД. В конце концов сделать "общую шину" между вычислительными кластерами и контроллерами, куда бы сваливалась вся информация и которая сама делала бы что нужно - и сложно и неэффективно.
Лексагончик поленился и не стал переводить некоторые интересные детали. Под спойлером текст на англ.
Цитата:
Without going quite so far to rehash the entire theory of memory management and caching, the goal of memory management in the case of the GTX 970 is to allocate resources over the entire 4GB of VRAM such that high-priority items end up in the fast segment and low-priority items end up in the slow segment. To do this NVIDIA focuses up to the first 3.5GB of memory allocations on the faster 3.5GB segment, and then finally for memory allocations beyond 3.5GB they turn to the 512MB segment, as there’s no benefit to using the slower segment so long as there’s available space in the faster segment.
Сначала полностью используется 3.5 Гб сегмент, если его не хватает, то подключается 0.5 Гб-тный.
Цитата:
The complex part of this process occurs once both memory segments are in use, at which point NVIDIA’s heuristics come into play to try to best determine which resources to allocate to which segments. How NVIDIA does this is very much a “secret sauce” scenario for the company, but from a high level identifying the type of resource and when it was last used are good ways to figure out where to send a resource. Frame buffers, render targets, UAVs, and other intermediate buffers for example are the last thing you want to send to the slow segment; meanwhile textures, resources not in active use (e.g. cached), and resources belonging to inactive applications would be great candidates to send off to the slower segment. The way NVIDIA describes the process we suspect there are even per-application optimizations in use, though NVIDIA can clearly handle generic cases as well.
Если используются оба сегмента памяти (то есть в случае, если 3.5 гб сегмента не хватило), видеокарта начинает "думать", в какой сегмент какие данные засунуть. Деталей узнать не удалось, но anandtech предполагают, что распределение идет по типу данных и времени последнего использования. Таким образом, текстуры, кешированные ресурсы, ресурсы фоновых приложений можно отправить в инвалидный 0.5 Гб банк (мне нравится его так называть). Они еще подозревают, что Нвидия даже применяет оптимизации под конкретные приложения.
Цитата:
The one remaining unknown element here (and something NVIDIA is still investigating) is why some users have been seeing total VRAM allocation top out at 3.5GB on a GTX 970, but go to 4GB on a GTX 980. Again from a high-level perspective all of this segmentation is abstracted, so games should not be aware of what’s going on under the hood
Игры про разделение на 3.5 Гб и 0.5 Гб не догадываются, все происходит "под капотом" видеокарты.
Ну и сладенькое - как такая конфигурация памяти на производительности скажется.
Цитата:
In all cases with less than 3.5GB of memory allocated the GTX 970 behaves just as if it had a single segment, with no corner cases to be concerned about. Meanwhile in cases with more than 4GB of memory allocation the GTX 970 will still spill over to PCIe, just as the GTX 980 does, typically crushing performance in both cases. This leaves the last case as the only real concern, which is memory allocations between 3.5GB and 4GB.
Интересует отрезок 3.5-4 Гб, т.к. при потреблении <3.5 Гб работает один 3.5 сегмент, а при >4 Гб начинает использоваться ОЗУ, гоняя данные по шине (как и 980), что убивает производительность.
Цитата:
The use of heuristics to determine which resources to allocate to which memory segment, though the correct solution in this case, means that the real world performance impact is going to vary on a game-by-game basis. If NVIDIA’s heuristics and driver team do their job correctly, then the performance impact versus a theoretical single-segment 4GB card should only be a few percent. Even in cases where the entire 4GB space is filled with in-use resources, picking resources that don’t need to be accessed frequently can sufficiently hide the lack of bandwidth from the 512MB segment.
Реальная производительность будет отличаться от игры к игре. Если нвидиевская эвристика и драйверописатели сработают правильно, разница в производительности с видеокартой с нормальными 4 гигабайтами составит несколько процентов. Даже если все 4 гига заполнить используемыми ресурсами, можно выбрать ресурсы, к которым не требуется частого обращения и отправить их в 0.5 сегмент, тем самым компенсировав недостаток пропускной способности 0.5 гигабайтного сегмента.
Цитата:
The worst case scenario on the other hand would be to have the NVIDIA heuristics fail, or alternatively ending up with a workload where no great solution exists, and over 3.5GB of resources must be repeatedly and heavily accessed. In this case there is certainly the potential for performance to crumple, especially if accessing resources in the slow segment is a blocking action. And in this case the GTX 970 would still perform better than a true 3.5GB card since the slow segment is still much faster than system memory, but it’s nonetheless significantly slower than the 3.5GB segment as well.
Худший случай: нвидиевская эвристика ошибется или приложение/игра использует больше 3.5 гигабайт ресурсов, которые нужно постоянно и помногу читать/писать. В таком случае производительность просядет, но гипотетическая 3.5-гигабайтная 970ая все равно просядет куда сильнее, т.к. будет использовать системную память.
Цитата:
But perhaps the most frustrating scenario isn’t having more than 3.5GB of necessary resources, but having more than 3.5GB of unnecessary resources due to caching by the application. One VRAM utilization strategy for games is to allocate as much VRAM as they can get their hands on and then hold onto it for internal resource caching, increased view distances, or other less immediate needs. The Frostbite engine behind the Battlefield series (and an increasing number of other EA games) is one such example, as it will opportunistically allocate additional VRAM for the purpose of increasing draw distances. For something like a game this actually makes a lot of sense at the application level – games are generally monolithic applications that are the sole program being interacted with at the time – but it makes VRAM allocation tracking all the trickier as it obfuscates what a game truly needs versus what it merely wants to hold onto for itself. In this case tracking resources by usage is still one option, though like the overall theme of real world performance implications, it’s going to be strongly dependent on the individual application.
В случае с движками, которые любят кэшировать в VRAM все подряд типа Фростбайта нвидиевской эвристике будет работать сложнее, т.к. кэш может сожрать все 4 гига и поди пойми, какие из данных в кеше нужны здесь и сейчас, а какие в памяти висят потому, что приложение из принципа жрет всю память, до которой может дотянуться, и использует ее для кеширования данных, увеличенных дальностей прорисовки или других менее срочных нужд. Производительность в таком случае будет зависеть от конкретного приложения.
Как я понял, товарищи с зарубежных сайтов сейчас как раз тестируют все возможные игры в 3.5-4 гб диапазоне, пытаясь выявить какие-нибудь аномалии. Поточней про это завтра напишу, сейчас уже поздно и головка не очень варит Если есть какие ошибки или неточности в переводе, пишите
Полноценный, но через "костыль"...Опять вернулись к началу истории - полноценное всё в 980, а здесь слово "полноценный" не уместно. Может само инжереное решение удачное с точки зрения инженера, но вот маркетологам надо было об этом умолчать, а простым смертным такое знать и вовсе не положено. Что в итоге? Так бы и осталось тайное тайным, если бы не этот тест, который все чморят. А тем временем люди жалуются, но вот на жалобы эти только теперь обратили внимание, хотя на ЮТубе уже несколько недель есть видео на эту тему...
Цитата:
Сначала полностью используется 3.5 Гб сегмент, если его не хватает, то подключается 0.5 Гб-тный
Не совсем точный перевод - там говориться, что каким-то образом в начале данные распределяются по приоритету и используются обе области - каким образом это происходит не понятно и это не объясняли. Это про high-priority items end up in the fast segment and low-priority items end up in the slow segment
panda65 писал(а):
Интересует отрезок 3.5-4 Гб, т.к. при потреблении <3.5 Гб работает один 3.5 сегмент
Это как-то противоречит их же фразе из первой цитаты про распределение данных по приоритетам и по использованию того самого "куска"
ЗЫ Так получается, что даже если гипотетическая 3,5ГБ версия 970ой будет медленнее, чем нынешняя с "4ГБ", то это "преимущество" нынешней 4ГБ 970ой будет быстро нивелировано в итоге, хотя и не так сильно скажется на ФПС. Вот только замеры пока по ссылке из этого поста и из других в инете не столь оптимистичны...
Member
Статус: Не в сети Регистрация: 12.03.2003 Откуда: Калининград
antiOVER писал(а):
доброе утро!!! название темы читал перед тем как тут писать?
Ты писал, что Хуанг во всем признался. Где он признался ? Троллинг детектед.
Погонял в фк4 1.7 35-60 фпс, все на максимум, 1920х1200 Ни каких фризов нет. ЧЯДНТ ?
_________________ Lorichic писал(а):Память покупается на весь срок жизни. АМ4 - Сокет свободных людей (с)XRR 14600kf\Zotac 5070ti Solid Core OC\2x16Gb DDR4-3200@4000CL16
Не совсем точный перевод - там говориться, что каким-то образом в начале данные распределяются по приоритету и используются обе области - каким образом это происходит не понятно и это не объясняли. Это про high-priority items end up in the fast segment and low-priority items end up in the slow segment
Спасибо, завтра посмотрю. Вот пока мой более полный перевод цитаты под спойлером:
Цитата:
Управление памятью в 970й сводится к тому, чтобы распределить ресурсы по всем 4 гигабайтам видеопамяти так, чтобы высокоприоритетные ресурсы оказались в 3.5 сегменте, а низкоприоритетные в 0.5 сегменте. Для этого Нвидия первые [запрошенные приложением] 3.5 гигабайта отправляет в 3.5 гигабайтный сегмент, а при запросе свыше 3.5 гигабайт обращается к медленному 0.5 сегменту, т.к. нет смысла использовать медленный сегмент, пока есть место в быстром.
Only after 3.5GB is requested – enough to fill the entire 3.5GB segment – does the 512MB segment get used, at which point NVIDIA attempts to place the least sensitive/important data in the slower segment.
pcper вроде то же самое пишет:
Цитата:
The goal for NVIDIA then is that the operating system would utilize the 3.5GB of memory capacity first, then access the 0.5GB and then finally move to the system memory if necessary.
Member
Статус: Не в сети Регистрация: 05.01.2008 Откуда: 78 Фото: 18
panda65 складывается ощущение, что они пытались не столько решить последствия урезания, сколько спрятать настоящие спецификации(в угоду маркетологам) таким образом, чтобы потом не возникало вопросов. Первую задачу решили - карта ведь быстро работает, а вот со второй задачей не справились. Как в пословице - хотели и на ёлку влезть, и кое-что не ободрать... Ну вот в упор не понимаю этого - зачем?? Карта ведь всё равно успех бы имела, даже с некрасивыми числами в спецификациях...
Ты писал, что Хуанг во всем признался. Где он признался ? Троллинг детектед.
Погонял в фк4 1.7 35-60 фпс, все на максимум, 1920х1200 Ни каких фризов нет. ЧЯДНТ ?
Да ну что ты, все ок, почти двукратные скачки фпс, в игре с guestureworks, оптимизированной под nVidia, второй по мощности карте из "самы-самых" от nVidia. #77
Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 17
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения