Постиндустриальная наука: сноб-потребитель и SDRAM память

Overclockers.ru

Конференция

FAQ по конференции

Текущее время: 23.04.2026 22:46

Сообщения без ответов | Активные темы

Список форумов » Общение » Персональные Страницы

Часовой пояс: UTC + 3 часа

Новая тема /

Закрыто

Сообщений: 93 • Страница 1 из 5 • 1 2 3 4 5 >

	Пред. тема \| След. тема
В случае проблем с отображением форума, отключите блокировщик рекламы

Автор

Сообщение

grizlyk

Добавлено: 04.11.2012 6:27

[профиль]

Member
Статус: Не в сети
Регистрация: 24.10.2011

Обсуждение заметки 'Постиндустриальная наука: сноб-потребитель и SDRAM память'.

В этой серии заметок постиндустриальный сноб-потребитель не ведет борьбу с хищниками-производителями, он ... исследует!

Цитата:

Современного сноба-потребителя, который чтобы до отвала наесться, напиться и удовлетворить все потребности уже не должен тратить все свое время на охоту и собирательство, помимо борьбы с последствиями избытка удовольствий все время тянет на разнообразные исследования самых загадочных явлений во Вселенной, т.е. когда жажда познания живет в снобе-потребителе, она получает все возможности к реализации.

В нашем случае загадочным и неизведанным объектом для исследования представляется область компьютерной оперативной памяти — почему эта память работает?

Почему SDRAM память может работать так быстро?

Как обычно, идем в обход и используем много дополнительных сведений.

Содержание.

1. SRAM.
2. DRAM.
3. Временн'ая диаграмма DRAM.
4. Синхронизация.
5. Пакетная память SDRAM.
6. CPU cache test (console version) и память им. Б. Гейтса.
7. Потребительские перспективы.

...что давало удвоение пропускной способности памяти, кстати, это было преподнесено в рекламе DDR как открытие Америки в виде «специальная архитектура 2n Prefetch» и благополучно размножено в интернете специалистами по рефератам...
...это та самая надежная и любимая еще с ДОС времен утилитка, которая показывает нам размер кэша и скорость его работы...
...многие известные по тестам отставания Athon для AM3 от i3 на LGA1156 обусловлены тем, что Athon для AM3 не может использовать двухканальный режим DDR3...

Реклама
Партнер

Deep1984

Добавлено: 04.11.2012 19:01

[профиль]

Member
Статус: Не в сети
Регистрация: 27.10.2007
Откуда: Экибастуз, KZ

grizlyk
годная статья
спс

_________________
MAXIMUM MAXIMORUM

AnxA

Добавлено: 05.11.2012 8:33

[профиль]

Junior
Статус: Не в сети
Регистрация: 06.10.2009
Откуда: Украина

Статья то нормальная, только вот написана дилетантом, не разбирающемся в электронике.

Цитата:

Например, на рисунке «tt.png» изображен D-триггер, значение сигнала 0 или 1 на входе D появляется на выходе Q по сигналу записи C и после снятия сигнала записи С это значение сигнала сохраняется на выходе триггера независимо от состояния входа D, т.е. сигнал как бы запоминается.

Я всегда думал, что вход С - это вход синхронизации, а не сигнал записи...

_________________
Идея не несёт ответственности за тех кто в неё верит....

AKS

Добавлено: 05.11.2012 10:51

[профиль]

Member
Статус: Не в сети
Регистрация: 26.09.2004
Откуда: Petrozavodsk

где собственный взгляд-вывод?
а про *чётность* ни полслова...

з.ы. это похоже на *копирастизм*, но полезность статьи = несомненна!!!

_________________
Дай Бог каждому иметь то, что имеют те, кто имеет нас...

rabbit_plus

Добавлено: 05.11.2012 14:59

[профиль] [Фотоальбом]

Member
Статус: Не в сети
Регистрация: 22.03.2009
Откуда: Город Мейнстрим
Фото: 6

По поводу того участка статьи, где grizlyk предлагает развести 65536 проводников -- подход, в котором координата задается столбцом и строкой элемента (все ячейки матрицы соединены по столбцам и строкам, а логическое И дает 1 лишь на пересечении) не является уникальным тех. решением, он так же используется для разводки тонкопленочных транзисторов в матрицах TFT дисплеев. Пример не самый яркий. Соотв. встречное предложение: разведите 3х2560х1600 = 12'288'000 проводников для каждого пикселя ЖК монитора, а потом еще сделайте к нему провод до видеокарты

_________________
Be quiet and drive

Aloha

Добавлено: 07.11.2012 8:48

[профиль] [Фотоальбом]

Member
Статус: Не в сети
Регистрация: 20.06.2004
Откуда: Наб. Челны
Фото: 3

IBM PC XT-4МНц/8МНц - что это такое ?
По поводу канальности я не понял , сейчас двухканальный режим используют , вы предлагаете больше каналов ? Кроме серверного сегмента 4 плашки или 8 памяти кто будет ставить в здравом уме , чтобы выиграть в потоковом чтении\записи , который используется в общей сложности пару % от общей работы с памятью ?

Добавлено спустя 21 минуту 12 секунд:

rabbit_plus писал(а):

предлагает развести 65536 проводников

Это гон . даже древние РУ5 микросхемы имели двойное назначение входов выборки адреса . А ру7 насколько я помню еще и могли пакетом по 4 бита выдавать данные с одного выхода , потому что В РУ5 - адресация страничная, а в РУ7 - словная .
Нет времени на ожидание окончания регенерации - используй статическую память . Мало того в Z80 была встроена функция регенерации памяти , а в комплекте 580 была специальная микросхема КР580ВТ42 — адресный мультиплексор и счётчик регенерации динамического ОЗУ .
Кроме всего прочего , данные в памяти на сегодняшний день используются 32 и 64 разрядные , для чего шину данных плодить то ? Это как сравнить выборку по байтам и по битам .

_________________
Это моя аватарка. Личная!

grizlyk

Добавлено: 12.11.2012 20:24

[профиль]

Member
Статус: Не в сети
Регистрация: 24.10.2011

Aloha писал(а):

По поводу канальности я не понял , сейчас двухканальный режим используют , вы предлагаете больше каналов ? Кроме серверного сегмента 4 плашки или 8

Про плашки я тоже не понял. Сколько, сколько дюймов?

На самом деле если бы сокет AM3/AM3+ реализовал двухканальный режим как написано в рекламе AMD хоть в ganged, хоть в unganged настройке, никто бы и не заметил.

но раз вы настаиваете...

Вот я бы на месте AMD, в принципе, делал так:
все каналы чередовал бы через размер кэш линии (одну ddr3 передачу), первый канал физический адрес - 0, второй - 64 и т.д.
все обращения к памяти со стороны процессора (его контроллера памяти) выравнивал бы по границе кэш-линии
все обращения к памяти кэшировал бы в контроллере памяти L4 кэшем (это просто часть L3 кэша, если он есть),
причем линии L4 кэша также выровнены по границе кэш-линии, так что их можно пересылать разом в память и из памяти

далее, у нас есть несколько источников, которые могут независимо обмениваться с памятью,
пусть это четыре ядра и четыре мастера на внешней шине (например, видео, аудио, диск, сеть), всего 8 источников,
для каждого из этих 8 надо иметь несколько линий L4 кэша, для ядер как минимум столько, чтобы обеспечить выполнение строковых команды типа "movs"
посмотрим как работает L4 и выясним сколько надо кэша

между L4 и каждым каналом памяти делаем очередь из запросов, каждый элемент этой очереди это адрес кэш линии для обмена (выровненный по границе кэш-линии)
в исходном состоянии очередь пуста
для двухканального режима у нас две независимые очереди запросов

пусть у нас каждый запрос от этих 8 на чтение требуемой им кэш линии попадет только в один из банков целиком (выровнен по границе кэш линии),
в этом случае каждый запрос просто направляется в свою очередь запросов (в свой канал)
в рабочем режиме эти 8 источников засыпают контролллер запросами, каждая очередь полна и каждый цикл генерируется сдвоенное обращение к памяти (чтение из обоих банков),
причем банки в соседних каналах не всегда смежные по адресам,
прочитанное помещается в L4 кэш и потом передается адресату.

На самом деле эти 8 источников таковы, что они генерит кэш линию по произвольному адресу кратному 4 байтам,
поэтому такой запрос расщепляется на пару выровненных по границам кэш линии и создает сразу пару выровненных обращений, в оба канала сразу,
эти обращения спариваются в очередях, т.е. обрабатываются вместе, чтобы источнику не надо было ждать 2 цикла памяти, поэтому такой запрос заполнит сразу две линии L4 кэша,
но спереди и сзади такого запроса будут "мусорные данные" не нужные для этого запроса чтения, но которые тоже попадут в L4. Плохо ли это?

Поскольку есть принцип локальности программ, данные вокруг этого запроса с большой вероятностью потребуются в следующем запросе,
поэтому следующее обращение идущее подряд за этим (например в команде movs) не потребует второго обращения к памяти, данные уже в L4,
в среднем скорость будет как при "2n-prefetch". Для запросов идущих не подряд "2n-prefetch" не может дать выгоду, если они не выровнены по границе кэш линии.

Для запросов чтения надо как минимум 2 кэш линии (по числу каналов), для запросов записи еще две (movs генерирует чтение/запись), всего 256 байт на канал.
Но лучше довести значение этого кэша до 1Кбайта на канал.
Если процессор понимает цикл память-память, то данные так и останутся в L4, не загрязнят вышележащий кэш.

На восемь источников надо будет 8Кбайт L4 и можно будет вкушать "2n-prefetch".
Запись несколько сложнее, но в принципе то же самое.

Практически конечно много ньюансов, но в принципе это так. Если таких или подобных мер не принимать, то будет медленно, как у AMD.

Вообще AMD начинает раздражать: тех. информацию не публикуют, рекламные заявления такие, что хоть сейчас в суд иди за компенсацией, проблема только что Интел бывает еще хуже, но в общем см. мою ПС "AMD+Intel" - все они одинаковы, но AMD брали пока она была дешевле, для многих это важно.

Aloha

Добавлено: 12.11.2012 20:57

[профиль] [Фотоальбом]

Member
Статус: Не в сети
Регистрация: 20.06.2004
Откуда: Наб. Челны
Фото: 3

grizlyk писал(а):

Про плашки я тоже не понял. Сколько, сколько дюймов?

Плашки (линейки) памяти . На данный момент они 64 бит или я ошибаюсь ? Какой бонус в том , 2 линейки я поставил или 4 ? Контроллер все равно 2х канальный .

_________________
Это моя аватарка. Личная!

grizlyk

Добавлено: 13.11.2012 11:41

[профиль]

Member
Статус: Не в сети
Регистрация: 24.10.2011

Aloha писал(а):

grizlyk: Про плашки я тоже не понял. Сколько, сколько дюймов?
Плашки памяти...

Сколько бы ни было, заметка неопровержима, поскольку основана на единственно верном учении Б. Гейтса "о 640 Кбайтах". Какие могут быть возражения? Лично я склонен считать, что RAM в его истинном, гейтсовском смысле, это только L1 кэш, потому как L1 кэш не только управляемый программно, но и непакетный, т.е. размер пакета равен размеру регистра CPU, а вот L2 уже работает с кэш-линиями, и не может быть настоящим RAM.

Безусловно, начиная с i486 и появления L1 кэша данных, система команд CPU должна была бы начать ориентироваться на память вида sdram + cache-as-built-in-ram, т.е. нужны были команды по явной работе с таким встроенным в CPU типом данных, как кэш-линия, для оптимизации кода и выравнивания данных. Но этого не произошло.

И построение L1 кэша данных должно было бы быть таким же стабильным и важным параметром, как разрядность процессора, однако, в то время некоторые посчитали что L1 кэш это тот же кэш от i386, который просто помещен внутрь. Логически для программиста это так, но аппаратно нет.

У Интел в то время произошла нестыковка и непонимание между теми, кто разрабатывает аппаратуру процессора и теми, кто разрабатывает его программный интерфейс.

Aloha писал(а):

Какой бонус в том, 2 линейки я поставил или 4? Контроллер все равно 2х канальный.

Если не цепляться к словам ради достижения своих неблаговидных целей, то многоканальный режим отличается от многобанкового одноканального (одноканального с таким же числом плашек) как раз тем, что может работать с каналами независимо. Но независимо не вообще, а ради практической выгоды - повышения производительности.

Тестовые замеры продукции конкурентов АМД показывают, что единственная практическая выгода это когда каналы работают независимо не в разнобой, а одновременно - почти удваивая скорость обмена с памятью по отношению к одноканальному режиму, не теоретически и не в экзотических случаях, а практически и в обычных случаях. Это то, что ожидают от слова "многоканальность" потребители и такой смысл в "каналы памяти" они вкладывают, когда сравнивают продукцию разных производителей. Применение к слову "канал памяти" иных значений вводит в заблуждение. Это все равно что называть i3 "четырехядерным" с независимыми ядрами вообще, но работающими в специальном режиме.

Почему за время AM3/AM3+ АМД так и не улучшила скорость обмена с памятью у своих новых процессоров до показателей конкурентов это одна из многих загадок в решениях АМД, венцом которых стало совершенно безумная комбинация
- отказа от L1 кэша данных на запись
- отказа от увеличения числа входов L1 кэша программ (при том что еще одно ядро из него выполняется)
- отказа от улучшения NB-CPU
- отказа от 9xxG чипсета для AM3+
для FX бульдозеров, что привело как минимум к фактическому снижению производительности на ядро по отношению к предыдущим моделям АМД на равной частоте и к невозможности конкурировать с i3 платформой конкурента. Плюс отказ от совмещения с AM3. Мнение очень многих из тех, кто думал приобретать продукцию АМД, было совершенно однозначным и сопровождалось очень, очень плохими словами в адрес этой компании.

Сравнить это можно только с самодовольным решением Интел о расчленении потребителей на p/h части, которое существовало 4 года и только к лету 2011 ушло как страшный сон.

Это только предположение, но может быть, когда процессоры будут разрабатывать инженеры, а не маркетологи, то дело сдвинется, инженеры не учат маркетологов как зарабатывать деньги, почему же те учат инженеров как делать процессоры?

В любом случае, практически процессоры с сокет AM3/AM3+ очень хорошо отзываются на разгон NB-CPU в двухканальном режиме, в разгоняемых пределах рост производительности памяти линейный (разогнали NB-CPU на 30%, производительность памяти выросла тоже на 30%/коэфф при той же самой частоте CPU). Причем Феномы и FX из-за кэша L3 практически не поддаются разгону с 2000 выше 2600 (30%), а вот даже 2700 атлоны достигают для NB-CPU 2800 (возможно что и выше, но для этого нужно брать атлон 3.3 или атлон c разлоченным множителем NB-CPU).

Почему процессоры с сокет AM3/AM3+ не дают в БИОСЕ отключать свой кэш разных уровней тоже загадка, иногда выгодней разогнать память, чем кэш, который тормозит, иногда наоборот, выгодней разлочить "плохое" ядро и кэш и работать на более низкой частоте.

В этом ключе для потребителей продукции АМД интерес представляет разгон новых процессоров на FM2, например AMD A8 5600K, который из-за наличия слишком крупного видеоядра не содержит кэша L3, чем невольно дает возможности к разгону NB-CPU. Интересно было бы услышать результат, а вдруг NB-CPU на FM2 даже хуже, чем для AM3+?

Aloha

Добавлено: 13.11.2012 11:58

[профиль] [Фотоальбом]

Member
Статус: Не в сети
Регистрация: 20.06.2004
Откуда: Наб. Челны
Фото: 3

Правильно , все что озу -все гавно , не зря АОНы на Z80 работали без внешней памяти , вся программа умещалась в регистрах процессора .
не нравится идея о 640 кб - выдвини свою и развивай , мы пошли не по тому пути и совместимость должна быть сверху вниз . паровоз свернувший не на той стрелке назад уже не вернешь . Раньше на асме проги писали , теперь не пойми на чем , производительность падает и компенсируется более быстрыми процессорами .

К сожалению мои познания в этой теме поверхностны и я не претендую на правоту своих высказываний .

_________________
Это моя аватарка. Личная!

grizlyk

Добавлено: 23.01.2013 22:17

[профиль]

Member
Статус: Не в сети
Регистрация: 24.10.2011

Новая серия - разгоняем DDR3 сохранением CL.

Цитата:

Содержание.

1. Оверклокинг в понятии сноба-потребителя.
2. Опыт разгона DDR3 памяти с существенным улучшением паспортного CL.

Вывод неутешительный, но ожидаемый - в общем разогнать оперативную память с сохранением CL нельзя...
К чему же приводит "разгон до 1600 с сохранением CL" на практике? К операции аналогичной "перепиливанию" процессора...

nanoflooder

Добавлено: 24.01.2013 0:34

[профиль]

Member
Статус: Не в сети
Регистрация: 28.06.2011

Цитата:

Снизу ограничение для CL для DDR3 это 5.

#77

Цитата:

отношение "(базовая тактовая частота)/CL" останется тем же самым

#77
1800/7 = 240
1350/4 = 338

Цитата:

Вывод неутешительный, но ожидаемый - в общем разогнать оперативную память с сохранением CL нельзя. Невозможно. Увы.

#77

Цитата:

Давайте посмотрим на подозрительное утверждение о том, что "даже самая дешевая память 1333 разгоняется до 2000 с сохранением CL".

Давайте ещё услышим, что кто-то процессоры на воздухе до пяти гигагерц разгонял, и достанем G530, начав дёргать ему BCLK. К слову, насчёт туалатинов: 143 мгц? Это на каком, 1000A или 1133? Я бы не отказался от 1400-го на 143 шине

Глюков-то там как раз хватало при разгоне, и на копперах, и на туликах. Особенно если память и мамка не топовые (коих подавляющее большинство было).

_________________
из всего разогнанного барахла наибольшую радость принёс монитор

RaySpb

Добавлено: 24.01.2013 11:27

[профиль]

Member
Статус: Не в сети
Регистрация: 09.07.2010
Откуда: Санкт-Петербург

Применительно к ddr3 CL (он же CAS) — это время между запросом на стобец памяти в открытой строке, и началом чтения первой из восьми (подряд) ячеек.
Определяющее слово здесь - ВРЕМЯ, это характеристика конкретной связки контроллер памяти-память, измеряемая в наносекундах.
Но дискретная техника "сверяет часы" не по секундам а в командных циклах.

Допустим на руках модуль памяти ddr3-1600 с паспортной характеристикой CAS задержки 11нс, но экземпляр удачный и стабилен при задержке в 10нс. Пусть в нашем теоретическом случае именно CAS - бутылочное горлышко, другие тайминги имеют запас по разгону

Номинальные частоты и тайминги памяти ddr3-1600
Command rate = 800мгц (время одного цикла= 1,25нс)
время CAS, 9 циклов - 11,25нс

Разгоняем до 2000
Command rate -1000мгц (1 цикл - 1нс)
подгоняем время CAS, 11 циклов - 11нс

понижаем тайминг CAS
10 циклов - 10 нс

По итогу нашего разгона CAS ускорена до 10нс (~11%), остальные характеристики (задержка на запрос строки, чтение ячеек и т.д.) ускорены на 25%

Вывод: Кроме CAS разгон могут ограничивать и другие виды таймингов, например tRCD, tRP. Для эффективного разгона желательно что бы время задержки в наносекундах в разогнанном состоянии не превышало номинального

При определенных знаниях матчасти ваш текст мог выглядеть примерно так, вместо этого нелепые самопальные формулы и спорные утверждения. Похвально желание разобраться самому и делать выводы - но раз вы решили публиковаться - разобраться надо полностью и выводы делать верные

Цитата:

Я сохранил соотношение "(базовая тактовая частота)/CL", разделил 800 на 75 и получил 11.

800- с этим все ясно - командная (базовая частота)
75 -что такое? если CL9
ваше отношение "командные циклы в сек/командные циклы" после сокращения даёт сек^-1 степень, это что за коэффициент такой?

_________________
Ray->RaySpb

Последний раз редактировалось RaySpb 24.01.2013 13:15, всего редактировалось 3 раз(а).

Dex

Добавлено: 24.01.2013 13:00

[профиль] [Фотоальбом]

Moderator
Статус: Не в сети
Регистрация: 17.12.2010
Откуда: Мск
Фото: 1

Я всё жду, пока автор откроет толковый словарь и посмотрит значение слова "сноб"... Но нет, надо употрелять слово, значения которого не знаешь, это же так красиво!

_________________
Прощай, Лёха...

Ecowar

Добавлено: 24.01.2013 13:05

[профиль] [Фотоальбом]

Member
Статус: Не в сети
Регистрация: 02.05.2008
Откуда: скрепы
Фото: 54

много курить опасно

_________________
Запахло рывком.....

Mosga

Добавлено: 24.01.2013 15:14

[профиль]

Member
Статус: Не в сети
Регистрация: 21.06.2004
Откуда: Санкт-Петербург

Я пытаюсь понять, эта статья - такой тонкий вброс? Или?..

Особенно поразило утверждение, что мол на планке DDR-памяти может быть GDDR-чип. Ага. А отличия GDDR-чипа от DDR куда делись? Просто так, типа, поставили GDDR и контроллер памяти смог это пережить? :facepalm:

С меня пиво, если кто-либо сможет показать этот самый GDDR чип на планке - на фото или по тех. паспорту (а Kingston дает достаточно полное описание).

_________________
BE VIGILANT.

АМ3

Добавлено: 24.01.2013 19:03

[профиль]

Member
Статус: Не в сети
Регистрация: 24.10.2010
Откуда: Якутск

Mosga +1
Мне тоже это интересно стало...

_________________
2500K 4,6 ГГц / TR Archon Rev.A / ASRock P67 Extreme6 / 16 Gb DDR3 / 41 Tb / AeroCool StrikeX 1100 / Lian Li PC-D8000 / 2x GTX770

rfhkbnj

Добавлено: 24.01.2013 19:25

[профиль]

Member
Статус: Не в сети
Регистрация: 02.07.2011

Тут такая байда
прогнал тест cctc на старой системе Phenom945 + ddr2 4-4-4-15 fsb 200 - разницы с дд3 не увидел
что и отражают тесты в реальных приложениях - прирост от разгона памяти небольшой

Master991

Добавлено: 25.01.2013 1:36

[профиль]

TSC! Russia member
Статус: Не в сети
Регистрация: 30.05.2010
Откуда: Москва

Вопрос к автору:
Почему 4 модуля Samsung 1333 (dh0-ch9) cl9 (9-9-9-27) замечательно себя ведут при разгоне до 2133МГц cl9 (9-10-9-27)?
Система работает 24/7, тестировалась на стабильность linpack. Система не простаивает: фолдинг в виртуальной машине (а это неплохая проверка на стабильность).
Может я что-то не так понял? Прошу объяснить

GReY

Добавлено: 25.01.2013 11:23

[профиль]

Advanced member
Статус: Не в сети
Регистрация: 13.04.2003
Откуда: Салават

Ecowar писал(а):

много курить опасно

присоединяюсь. автор несёт феерический бред

_________________
О браузерах без субъективизма http://people.overclockers.ru/GReY/16906/Obektivnyj_test_brauzerov

Новая тема /

Закрыто

Сообщений: 93 • Страница 1 из 5 • 1 2 3 4 5 >

Список форумов » Общение » Персональные Страницы

Часовой пояс: UTC + 3 часа

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 1

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Перейти: