Соблюдение Правил конференции строго обязательно! Флуд, флейм и оффтоп преследуются по всей строгости закона! За статью можно проголосовать на странице материала.
Если посмотреть получше, то видно, что речь идет о 2P системе... Так что, никакой сенсации, по 128мб256 на 1 ROME. Отсюда скорее всего и обшибка о 4*2 в чиплете, сандра просто не знает как это все интерпретировать.
Последний раз редактировалось Dambeldor 26.11.2018 16:57, всего редактировалось 2 раз(а).
Member
Статус: Не в сети Регистрация: 28.02.2008 Откуда: Калининград Фото: 99
Если посмотреть ещё внимательнее, то данные об иерархии кэша заключены в скобки начинающиеся с 64C, то есть указана иерархия одного сокета (подложки) Также как деление числа ядер и кэшей L1 и L2 на число блоков L3 кэша 64/16 даёт те же 4 ядра на CCX.
Эти данные, кстати, вполне соответствуют более ранним утечкам сообщавшим о 32мб L3 на один 8-ядерный модуль. Просто теперь становится ясно, что 8-ядерный модуль (чиплет) имеет не монолитную компоновку, а как и прежде, состоит из двух 4-ядерных CCX на SDF (?) и 8-ядерные модули в свою очередь соединяются с IO хабом посредством Low latency IF
Если посмотреть ещё внимательнее, то данные об иерархии кэша заключены в скобки начинающиеся с 64C, то есть указана иерархия одного сокета (подложки)Также как деление числа ядер и кэшей L1 и L2 на число блоков L3 кэша 64/16 даёт те же 4 ядра на CCX.
Все дело в том, что иерархия может не правильно определятся.
Member
Статус: Не в сети Регистрация: 28.02.2008 Откуда: Калининград Фото: 99
Dambeldor писал(а):
Все дело в том, что иерархия может не правильно определятся.
Так рассуждая можно заявить и что размер может неправильно определяться, и частота, и вообщё всё... Хотя по моему, там всё понятно и разночтений никаких не вызывает: написано что система 2 x Engineering sample (и далее в скобках характеристики сэмпла).
А что собственно такого в том что определила Сандра, почему это вызывает сомнения? Картинка не укладывается в ваши ожидания что 8-ядерный чиплет монолитный?
Так рассуждая можно заявить и что размер может неправильно определяться, и частота, и вообщё всё... Хотя по моему, там всё понятно и разночтений никаких не вызывает: написано что система 2 x Engineering sample (и далее в скобках характеристики сэмпла).А что собственно такого в том что определила Сандра, почему это вызывает сомнения? Картинка не укладывается в ваши ожидания что 8-ядерный чиплет монолитный?
Можно пойти и от обратного, вы на 100% уверены, что в реальности будет так как на скриншоте? И никак иначе?
Member
Статус: Не в сети Регистрация: 28.02.2008 Откуда: Калининград Фото: 99
Dambeldor писал(а):
Можно пойти и от обратного, вы на 100% уверены, что в реальности будет так как на скриншоте? И никак иначе?
Да, я уверен что так и будет потому что эта информация подтверждает более ранние утечки об архитектуре кэша Rome. То есть, мне известно что это не первая и не единственная утечка данных на эту тему и все они не противоречат друг другу, поэтому я считаю что эта информация может заслуживать доверия.
Member
Статус: Не в сети Регистрация: 28.02.2008 Откуда: Калининград Фото: 99
Наличие L4 кэша в Rome на мой взгляд сомнительно. Хотя размеры 14нм IO кристалла и намекают что там может быть что-то кроме собственно IO для 64 ядер, я полагаю что очень значительную часть площади занимают интерфейсы, число которых сильно увеличилось и которым требуется разводка, как к "внешним" контактам так и к чиплетам. Схема Rome leak2 вообще нарисована довольно плохо но из неё важно другое, она появилась до официальной презентации New horizons и часть деталей в ней соответствует действительности. Я полагаю что и leak1 и leak2 появились на свет в результате того, что кому-то в руки попали заготовки официальной презентации, и эти люди как смогли попытались на её основе изобразить своё видение будущей архитектуры. Без вангования конечно не обошлось.
Но самая основная деталь - чиплетный дизайн и IO чип в обоих утечках совпадает с официальными данными, потому что в офф.презентации эта деталь раскрыта предельно однозначно, но вот подробностями офф.презентация не блещет, как мы знаем большинство деталей были озвучены либо голосом либо в последовавших за New horizons интервью. Есть еще видео - третья утечка, тоже появившаяся незадолго до офф.презентации и полагаю также основанная на данных заготовки презентации. Таким образом, в целом с поправкой на сроки появления, эти утечки складываются в непротиворечивую картину вместе с сегодняшней инфой об объеме L3 кэша.
Что касается того, почему я считаю что в 8-ядерных чиплетах более вероятны 2 ССХ по 4 ядра, чем цельный 8-ядерный ССХ. Из подробностей об устройстве Zen и Zeppelin мы знаем что в 4-ядерном CCX все ядра имеют равные возможности доступа к доле кэшу (slice) каждого из ядер внутри CCX. А вот обращения к кэшам соседнего на чипе, на упаковке или на сокете идут через блоки Cache-coherent master (CCM) и транслируются SDF/IFOP/IFIS соответственно далее к адресату. Так вот, важно что внутри 4-ядерного ССХ каждое ядро имеет равную возможность (читай скорость, что подтверждается тестами) доступа к данным других ядер в ССХ, а значит все 4 доли кэша внутри ССХ имеют набор прямых интерконнектов по принципу "full mesh" или "каждое с каждым". Подсчет говорит что для 4 ядер потребуется 6 таких интерконнектов. Но для 8-ядерного ССХ, чтобы соединить каждое с каждым, потребуется уже 28 (!) прямых интерконнектов. Что колоссально усложняет топологию.
Member
Статус: Не в сети Регистрация: 04.06.2005 Откуда: Оксфордшир
Alex TOPMAN писал(а):
Пущай увеличивают. Главное, чтобы потолок скорости передачи данных от одного ядра к памяти (через этот увеличенный кеш) не падал.
Нет никакой причины к этому. L3 кеш в Zen это victim cache. Он хранит только то что вытолкнули из L1 и L2. Загружаемая из основной памяти информация в L3 напрямую не попадает. Увеличение его в два раза на сколько то повышает вероятность что из памяти не надо будет заново загружать данные.
_________________ Таких людей уже нет, а скоро совсем не будет BTEAM_Shifty
Из подробностей об устройстве Zen и Zeppelin мы знаем что в 4-ядерном CCX все ядра имеют равные возможности доступа к доле кэшу (slice) каждого из ядер внутри CCX. А вот обращения к кэшам соседнего на чипе, на упаковке или на сокете идут через блоки Cache-coherent master (CCM) и транслируются SDF/IFOP/IFIS соответственно далее к адресату. Так вот, важно что внутри 4-ядерного ССХ каждое ядро имеет равную возможность (читай скорость, что подтверждается тестами) доступа к данным других ядер в ССХ, а значит все 4 доли кэша внутри ССХ имеют набор прямых интерконнектов по принципу "full mesh" или "каждое с каждым". Подсчет говорит что для 4 ядер потребуется 6 таких интерконнектов.Но для 8-ядерного ССХ, чтобы соединить каждое с каждым, потребуется уже 28 (!) прямых интерконнектов. Что колоссально усложняет топологию.
Только в Zen2 стоит 1 IO чип с одним большим блоком Cache-coherent master (CCM)/Cache Coherent Network, это уже само по себе отменяет костыль в виде IFIS между чиплетами...и в таком виде, внутри чиплетов, тоже вряд ли оставят IFIS соединения, которые только будут увеличивать латентность. Они не генералы, которые всегда готовятся к прошедшей войне и не будут повторять ошибки 1 версии.
Member
Статус: Не в сети Регистрация: 28.02.2008 Откуда: Калининград Фото: 99
VRoman писал(а):
L4? Вот это уже интересно! Будет ли выпущен другой урезаный чип IO для настольных процессоров или можно помечтать о громадном кэше?
Я сомневаюсь что там будет L4. Во первых, это уже бы засветилось в той же Сандре. Во вторых, полагаю, огромная площадь 14нм чипа получается из-за того, что интерфейсы и IO, которыми так богат 64-ядерный EPYC, занимают банально очень много места. Не забываем что помимо 8 каналов DDR4 и 128 линий PCIe 4.0, там ещё 8 линий "нового поколения IF" для связи чиплетов с IO чипом. Ну и в третьих, пожалуй, большой L4 был бы непременно упомянут в обзоре архитектуры на New horizons. АМД на моей памяти всегда любила продавать цифры, больше частота, больше рейтинг (привет атлон хр), больше кэша, теперь вот больше ядер... В общем, думаю, был бы большой L4 - его бы упомянули в презентации или интервью после неё.
Насчет другого чипа IO, моя основная версия на сегодня вообще в том, что для настольных процессоров будет совсем отдельный 7нм чип. И весьма вероятно что это будет APU'шка, что логично учитывая что у Интела все мейнстрим процы имеют видеоядро. Полагаю что именно такой инженерник 8С16Т засветился в RTG https://hardforum.com/threads/the-radeo ... e.1967802/ Причём он работал не на серийной материнке, не ясно даже АМ4 это или что-то другое, но явно не SP3/TR4 сокет.
Ещё одна причина почему я думаю что чиплетный дизайн не пойдет в мейнстрим, это предполагаемые высокие задержки обращения к памяти при мультичиповой конфигурации, которые если не убьют то основательно придушат планы наконец настичь и расправиться с Интелом в играх. И что приемлемо в серверах/HEDT, для мейнстрим аудитории скорее минус несмотря на возможность впихнуть в АМ4 много ядер. Кроме того, в первом поколении Zen у АМД также было два дизайна кристаллов, APU и Zeppelin. Так что не думаю, что чиплеты будут в АМ4.
Добавлено спустя 6 минут 15 секунд:
Dambeldor писал(а):
Только в Zen2 стоит 1 IO чип с одним большим блоком Cache-coherent master (CCM)/Cache Coherent Network, это уже само по себе отменяет костыль в виде IFIS между чиплетами...и в таком виде, внутри чиплетов, тоже вряд ли оставят IFIS соединения, которые только будут увеличивать латентность. Они не генералы, которые всегда готовятся к прошедшей войне и не будут повторять ошибки 1 версии.
Нет, конечно в чиплетах не будет IFIS, ясное дело что там будет только специализированный интерфейс CCM-CCM, но как ни крути, задержки на уровне монолитного чипа получить не удастся. Причем это никак не меняет моих возражений по 4-ядерному CCX вместо ожидаемого многими 8-ядерного.
Насчет другого чипа IO, моя основная версия на сегодня вообще в том, что для настольных процессоров будет совсем отдельный 7нм чип. И весьма вероятно что это будет APU'шка, что логично учитывая что у Интела все мейнстрим процы имеют видеоядро. Полагаю что именно такой инженерник 8С16Т засветился в RTG https://hardforum.com/threads/the-radeo ... e.1967802/Причём он работал не на серийной материнке, не ясно даже АМ4 это или что-то другое, но явно не SP3/TR4 сокет. Ещё одна причина почему я думаю что чиплетный дизайн не пойдет в мейнстрим, это предполагаемые высокие задержки обращения к памяти при мультичиповой конфигурации, которые если не убьют то основательно придушат планы наконец настичь и расправиться с Интелом в играх. И что приемлемо в серверах/HEDT, для мейнстрим аудитории скорее минус несмотря на возможность впихнуть в АМ4 много ядер. Кроме того, в первом поколении Zen у АМД также было два дизайна кристаллов, APU и Zeppelin. Так что не думаю, что чиплеты будут в АМ4.
Да откуда у вас берутся большие задержки, если все те места из-за которых они были таким большими на ZEN убрали в ZEN2?) То что они будут не на одном кристалле, не значит что задержки вырастут многократно...да черт побери, даже с огромными дорожками от ЦП до RAM задержка получается в 74нс...а там дорожки многократно короче будут. А вы не думаете, что так быстро появился АПУ, потому что он собран на одном чиплете + IO + GPU ? и это гораздо быстрее чем делать отдельные матрицы для производства уникального чипа. Монолитный APU появился прилично позже Райзенов.
Member
Статус: Не в сети Регистрация: 28.02.2008 Откуда: Калининград Фото: 99
Дело не в длине дорожек, а в наличии/отсутствии логических интерфейсов. У чиплетов Coherent cache master и со стороны IO чипа они же. Дорожки к модулям памяти длинные, но на всей их длине не происходит никакого кэширования и логических преобразований сигнала. А вот в интерфейсах CCM-CCM они будут. Опять же, если бы задержки доступа к памяти не выросли, Пейпермастер в интервью обязательно бы об этом упомянул. https://www.anandtech.com/show/13578/na ... apermaster
Цитата:
IC: When you say improved latency, do you mean average latency or peak/best-case latency?
MP: We haven’t provided the specifications yet, but the architecture is aimed at providing a generational improvement in overall latency to memory. The architecture with the central IO chip provides a more uniform latency and it is more predictable.
Вот так было у EPYC: #77
Говорит что задержки станут предсказуемее (предположительно, практически равны для ядер всех чиплетов), но вот минимальный их размер, который нас и интересует применительно к 2-канальному дизайну АМ4, вряд ли снизится. При этом если посмотреть на EPYC Naples, где возможны сценарии с задержками 130+нс и даже 240+нс, если Rome получит например задержки доступа к памяти на уровне 110-120нс но для всех ядер, это будет безусловный improvement. Вот только боюсь что такие величины не порадуют вас в десктопе, даже если взамен вам пихнут 12 или даже 16 ядер. Что прекрасно иллюстрируют сегодняшние Тредрипперы, где больше ядер чем в АМ4 но более высокие задержки доступа к памяти, и поэтому в играх Рипперы почти везде проигрывают ряженкам.
Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 13
Вы не можете начинать темы Вы не можете отвечать на сообщения Вы не можете редактировать свои сообщения Вы не можете удалять свои сообщения Вы не можете добавлять вложения