О статье "Производительность подсистемы памяти"

Overclockers.ru

Конференция

FAQ по конференции

Текущее время: 02.05.2026 18:37

Сообщения без ответов | Активные темы

Список форумов » Сайт и конференция » Материалы сайта

Часовой пояс: UTC + 3 часа

Модераторы: Sonic-Chainik, donnerjack

Новая тема /

Закрыто

Сообщений: 36 • Страница 2 из 2 • < 1 2

	Пред. тема \| След. тема
В случае проблем с отображением форума, отключите блокировщик рекламы

Автор

Сообщение

serj

Добавлено: 15.04.2003 11:20

[профиль]

Advanced member
Статус: Не в сети
Регистрация: 10.04.2003
Откуда: Москва

GReY писал(а):

Сколько байт шина?

Чо прицепился?

=bits=, в формуле так и написано.

Цитата:

Вообще таким образом латентность не узнаешь - предикторы, мать их... Латентность меряется через pointer-chasing.

Вообще-то я говорил о потоковой скорости, коюю и приводят в документах.
Если говорить о полной(мгновенной), то надо прибавить тик на конвеерность доступа.

Цитата:

Для первых К7 L1 latency ... была и остаётся 3.

Ммм ... попробовал посмотреть ... нет, я пас! Повторно переваривать полгида pdf? ...
Мои цифры были "не с потолка", но доказывать ничего не хочу из принципа "Неуловимого Джо".

p.s.
Знаешь ... достала эта 'недокументированная теория'.
Нечто подобное я постоянно замечаю, но нет инструмента, чтоб сказать
что-то _конкретное_. Порой, даже чтение официальной документации вызывает
недоумение, а что уж о слухах в и-нете?
У меня в планах так и написано(этак недели 3 назад):
"Хотелось бы сделать:.... график memory latency для разного доступа"
Так что ... моя интуиция говорит не верю, а я редко ошибаюсь.

p.p.s.
Бойся стереотипов, они везде.

Реклама
Партнер

GReY

Добавлено: 15.04.2003 12:24

[профиль]

Advanced member
Статус: Не в сети
Регистрация: 13.04.2003
Откуда: Салават

serj_

Цитата:

"Хотелось бы сделать:.... график memory latency для разного доступа"

Дык есть же в CacheBurst!

serj

Добавлено: 15.04.2003 13:02

[профиль]

Advanced member
Статус: Не в сети
Регистрация: 10.04.2003
Откуда: Москва

GReY писал(а):

serj_

Цитата:

"Хотелось бы сделать:.... график memory latency для разного доступа"

Дык есть же в CacheBurst!

Да есть, как есть и cachemem. Не то, чтоб я не доверял этим программам,
ни коем образом, ... проблема измерения времени доступа настолько сложна,
что я ставлю жирный знак ?? и пока не сделаю сам - ничего не смогу
сказать _конкретно_.
Даже такая тупая процедура, как измерение производительности памяти
(см. графики с статье) имеет скрытые нюансы от реализации MMX/SSE,
то latency ... все на попядок сложнее.

VRoman

Добавлено: 16.04.2003 21:30

[профиль] [Фотоальбом]

Member
Статус: Не в сети
Регистрация: 24.11.2002
Откуда: New Mexico, USA
Фото: 42

Цитата:

А где тут высший балл статьям ставят?

Вот тоже мучаюсь этим вопросом... Вобще давно таких информативных статей не читал. Так держать!

ALT-F13

Добавлено: 19.04.2003 17:39

[профиль]

*Cofradia Intel*
Статус: Не в сети
Регистрация: 08.02.2003
Откуда: ModLabs.net

хм. немного критики. Основной плюс статьи - она большая! Но с другой стороны, выглядит оно как "посмотрите, как долго я могу работать над одной темой". Нет "глобальной идеи", что ли. Мне кажется, что на overclockers.ru статьи должны быть несколько другой тематики... А вот то, сколько времени (вероятно, судя по обьему) было потрачено - впечатляет. Сколько писал-то?

_________________
//Intel Skulltrail up and running
www.ModLabs.net || *Cofradia Intel* || *Voodoo Masters* || Team MXS || V8 power!

serj

Добавлено: 21.04.2003 17:54

[профиль]

Advanced member
Статус: Не в сети
Регистрация: 10.04.2003
Откуда: Москва

GReY писал(а):

serj_

Цитата:

"Хотелось бы сделать:.... график memory latency для разного доступа"

Дык есть же в CacheBurst!

В первом приближении посмотрел latency для L1/L2/RAM
Цифры лучше привести в сравнении с CacheBurst и CacheMem:
programm: L1 L2 RAM
CacheBurst 3 20 371
CacheMem 4 20 380
my test (1) 4 13 373
my test (2) 2 17 399

тест выполнялся для одного запроса (1) или нескольки запросов
на чтение, время доступа к второму приведено в (2).
По L1 .... да, 4, с этим ничего не сделать...........

По L2 .... ну нет там 20! Кстати, увеличение время на второй запрос
так-же предсказуемо - надо передать первый блок (для L1 нет "блока")
По RAM ... аналогично L2, только она находится от процессора еще дальше
и тактов бОльше.
Интересное наблюдение - по RAM разница составляет 26 тактов, а в моем
процессоре частота FSB=110MHz, CPU=1.8G, что дает 4 тика на 1 тик обмена
шины --- 26/4=6.5 .... т.е. как раз время пердачи остальных 7 посылок в блоке.

p.s.
под измерением latency понимается время от выдачи команды на чтение байта
(word/dword/qword) до выполнения этой операции.

Илья /Martin/

Добавлено: 21.04.2003 18:11

[профиль]

Advanced member
Статус: Не в сети
Регистрация: 08.12.2002
Откуда: Нижний Новгород

serj_
Ну что ж..
Будем знать, к кому по поводу памяти обращаться. Столько рутинной работы сделать... Wow!!!

_________________
Граждане Германии, Франции и Японии, аккуратнее там на своих автомобилях - нам на них еще ездить!

GReY

Добавлено: 22.04.2003 14:04

[профиль]

Advanced member
Статус: Не в сети
Регистрация: 13.04.2003
Откуда: Салават

serj_

Цитата:

По L1 .... да, 4, с этим ничего не сделать...........

Там 3, и автор кэшмема сам признаёт свой баг!

Цитата:

По L2 .... ну нет там 20!

20 это в случае переполнения виктим-буфера. При "прореженных" запросах должно получаться 11 тактов. На Athlon XP (с аппаратным префетчером) латентность L2 иногда достигает 24.

serj

Добавлено: 22.04.2003 15:07

[профиль]

Advanced member
Статус: Не в сети
Регистрация: 10.04.2003
Откуда: Москва

GReY писал(а):

Там 3, и автор кэшмема сам признаёт свой баг!

Наверно, я очень туп (весенний авитаминоз, однако), но не могу понять....
Время выполнения команды mov eax,[edi] составляет 4 тика.
Цифра 3 получается вычитанием 1=mov из 4?
Если не так - желательно указать, где сие обсуждалось ... вряд-ли
стоит повторяться.

Цитата:

20 это в случае переполнения виктим-буфера.

есть такое дело, именно 20 и получал.
Специально боролся с этим эффектом .... наверно, не совсем
корректно добиваться затыкания системы и говорить о времени доступа?
Или надо приводить 2 цифры - из незагруженной системы и 'потоковое'.
Я неправ?

Цитата:

При "прореженных" запросах должно получаться 11 тактов.

За 13 отвечаю, '11' не видел ни разу. Где-то "не в'ехал" в технологию?

Цитата:

На Athlon XP (с аппаратным префетчером) латентность L2 иногда достигает 24.

... и вообще, там черт голову сломит!

p.s.
Sorry, приведенные цифры в '3' и '11' получены измерением или из документации? Я не придираюсь, упаси Боже, просто интересно.

GReY

Добавлено: 22.04.2003 15:46

[профиль]

Advanced member
Статус: Не в сети
Регистрация: 13.04.2003
Откуда: Салават

serj_

Цитата:

Время выполнения команды mov eax,[edi] составляет 4 тика

Извини, но оно равно 3!!! В кешбёрсте нет никаких компенсаций.

Цитата:

желательно указать, где сие обсуждалось ...

Обсуждалось в почте. Написано в официальных документах. И по тестам так получается.

Цитата:

Или надо приводить 2 цифры - из незагруженной системы и 'потоковое'

Угу, "typical" и "worst"

Цитата:

За 13 отвечаю, '11' не видел ни разу. Где-то "не в'ехал" в технологию?

Честно говоря, получить на работающем процессоре ненагруженное состояние не представляю возможным, потому мы и не стали это делать в CB32. Можно попробовать находить минимальное время из серии одиночных обращений. Но там вопрос с зачистками кэш... и опять появляется переполнение виктим-буфера

Он ведь всего на восемь строк.

PS
На каком процессоре получается 13? Это 11+2, т.е. попадает лишний L2 turnaround time.

GReY

Добавлено: 22.04.2003 15:50

[профиль]

Advanced member
Статус: Не в сети
Регистрация: 13.04.2003
Откуда: Салават

PPS
serj_

Цитата:

приведенные цифры в '3' и '11' получены измерением или из документации?

http://www.amd.com/products/cpg/athlon/pdf/cache_wp.pdf

serj

Добавлено: 22.04.2003 16:16

[профиль]

Advanced member
Статус: Не в сети
Регистрация: 10.04.2003
Откуда: Москва

GReY писал(а):

PPS
serj_

Цитата:

приведенные цифры в '3' и '11' получены измерением или из документации?

http://www.amd.com/products/cpg/athlon/pdf/cache_wp.pdf

Позор на мою дурную голову! ....
Сработало органическое неприятие "White Papers" и пропустил эту информацию.... :?

Спасибо!

(чуть настораживает дата - 2000 .. ну да ладно!

)

serj

Добавлено: 23.04.2003 12:58

[профиль]

Advanced member
Статус: Не в сети
Регистрация: 10.04.2003
Откуда: Москва

Видимо, обсуждение закончилось? ....

Ok, resume:

По 'latency':
- есть 2 параметра - полное время доступа из 'спокойного' состояния и 'потоковое',
первое показывают программы CacheMem,CacheBurst, другие;
второе - никто. (насколько я знаю) Тестовые программы сидят на одном
и том-же engine(наверно) и .... не думаю.
- влияние первого параметра на общую производительность системы ....
я бы оценил как нулевое, только второй параметр оказывает существенное
влияние. Как комментарий: на Irongate можно переключать bypass, что на 30%
уменьшает 'первый' latency, но никак не влияет на 'второй'. Реальные программы
и тесты(bench) показывают нулевую эффективность bypass.(не особенно долго тестил)
- latency доступа к RAM определяется занятостью буферов запросов и самим
контроллером, и для случая 'простоя' программы (когда она циклится в малом
наборе адресов без чтения/записи памяти) должна быть минимальна, ведь
запросов нет? ... а вот нет ли?.
УВЫ!

- .... по этому вопросу хватит
(хоть вторую часть статьи писать ... брррр .............)

По процессорам:
1) EV7 - это тот-же EV68 с крутым межпроцессорным интерфейсом
2) AMD процессоры не разрабатывает, это технологическая фирма
3) 64х регистры в K7 были, например регистр с номером 'A'
4) найдите 3 отличия в картинках:
http://testmem.nm.ru/a.jpg
http://testmem.nm.ru/b.jpg
http://testmem.nm.ru/c.jpg
с учетом разного об'ема L2, контроллера памяти и межпроцессорного интерфейса.

1+2+3+4 = расширенный Barton
Т.е. никакой это не "принципиально новый процессор".

p.s.
Бойтесь стереотипов, они везде.

-------------------------------------------------------------------------------------------
Best regards,
Serj

GReY

Добавлено: 24.04.2003 7:31

[профиль]

Advanced member
Статус: Не в сети
Регистрация: 13.04.2003
Откуда: Салават

serj_
Я поражаюсь, как легко и непринуждённо вам удаётся запутать свои мысли до степени практически совершенной иррациональности

Цитата:

полное время доступа из 'спокойного' состояния и 'потоковое',
первое показывают программы CacheMem,CacheBurst

кэшмем и кэшбёрст меряют именно потоковое

serj

Добавлено: 24.04.2003 10:55

[профиль]

Advanced member
Статус: Не в сети
Регистрация: 10.04.2003
Откуда: Москва

GReY писал(а):

Цитата:

полное время доступа из 'спокойного' состояния и 'потоковое',
первое показывают программы CacheMem,CacheBurst

кэшмем и кэшбёрст меряют именно потоковое

Чтоб завершить обсуждение...
- пусть так, чтоб ответить твердо и конкретно надо потратить
время на написание серьезной тестовой программы.

Если BenchMem никому 'не нать', то тратить время на модуль измерения
latency просто глупость. ... эх!

GReY

Добавлено: 24.04.2003 13:22

[профиль]

Advanced member
Статус: Не в сети
Регистрация: 13.04.2003
Откуда: Салават

serj_
Предлагаю обсуждение не завершать

Что значит "не нать"?

Новая тема /

Закрыто

Сообщений: 36 • Страница 2 из 2 • < 1 2

Список форумов » Сайт и конференция » Материалы сайта

Часовой пояс: UTC + 3 часа

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 63

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Перейти: