Влияние изменения таймингов оперативной памяти на производительность Athlon 64 2800+ на платформе с чипсетом VIA K8T800
В сравнении с чипсетом NVIDIA nForce 3 150, постепенно заменяемым на рынке более продвинутым NVIDIA nForce 3 250, чипсет VIA K8T800 имеет преимущество в виде фирменной технологии под названием "Hyper8", по сути, представляющей собой поддержку режима шины HyperTransport между процессором и чипсетом по 16 бит/800МГц в обе стороны. Тогда как у NVIDIA nForce 3 150 обмен между процессором и чипсетом осуществляется по шине 8 бит/600МГц в одну сторону и 16 бит/600МГц в другую. Другое дело, что влияния на производительность, как положительного, так и отрицательного, данный факт не оказывает совсем, и в завершении статьи я еще раз скажу об этом.

В усовершенствованной же версии чипсета компании VIA для процессоров AMD Athlon 64 – VIA K8T800Pro – скорость шины HyperTransport увеличена до 1000MHz. Кроме того введена возможность фиксации частот PCI/AGP – что является более полезным нововведением для оверклокинга, чем "ускоренная шина".
К основным техническим характеристикам чипсета VIA K8T800 относятся:
- поддержка процессоров AMD Athlon 64, Athlon 64 FX, Opteron (любых серий и под любые разъемы) ;
- AGP 8x;
- двунаправленная шина HyperTransport до процессора с частотой 800 МГц при разрядности 16 бит в каждую сторону;
- шина V-Link 8x (533 МБ/с) для связи с южным мостом;
- 2 канала на четыре устройства Parallel ATA (ATA133);
- поддержка двух устройств Serial ATA (SATA150);
- поддержка еще двух устройств Serial ATA при использовании PHY-контроллера (интерфейс SATAlite);
- V-RAID для создания RAID-массива из SATA-устройств (JBOD, 0, 1, 0+1 — последний режим, разумеется, только при возможности подключения 4 SATA-накопителей);
- 8 портов USB 2.0;
- 6 устройств PCI;
- MAC-контроллер Fast Ethernet (до 100 Мбит/с);
- интерфейс AC’97 для аудиокодеков (до 6 каналов);
- интерфейс MC’97 для модемных кодеков;
- LPC-шина для подключения устаревшей периферии.
(учитывая дискретность чипсетов VIA, необходимо добавить, что функциональность южного моста дана для VT8237).
Итак, изначально в процессе тестирования изменению подвергались следующие тайминги:
- CAS# Latency (tCL);
- RAS# to CAS# Delay (tRCD);
- Row Precharge (tRP);
- Cycle Time (Tras).
реклама
Напомню краткое описание значений таймингов оперативной памяти*:
CAS# Latency (tCL) – параметр, управляющий задержкой времени (по периодам синхронизирующих импульсов) которая происходит до момента когда память начинает выполнять команду считывания после ее получения. Также определяет значение "цикла таймера" для завершения первой части пакетной передачи. Чем меньше время ожидания, тем быстрее происходит транзакция. Может принимать значения: 2; 2,5 и 3.
RAS# to CAS# Delay (tRCD) – опция, позволяющая выставить задержку между сигналами RAS (Row Address Strobe) и CAS (Column Address Strobe). Проще говоря – задержка, происходящая когда что-то записывается, обновляется или считывается в памяти. Естественно, что уменьшение данного параметра приводит к улучшению производительности, а увеличение, наоборот, к ее снижению. Выбор осуществим из значений: 2; 3 и 4.
Row Precharge (tRP) – время предварительного заряда. Данная опция устанавливает количество циклов необходимых, чтобы RAS накопил свой заряд перед обновлением SDRAM. Как правило, уменьшение времени предварительного заряда улучшает производительность SDRAM. Допустимые значения: 2; 3; 4.
Cycle Time (Tras) – функция, позволяющая изменить минимальное количество циклов памяти требуемых для Tras и Trc. Tras означает SDRAM`s Row Active Time (время активности ряда SDRAM ), то есть период времени в течение которого ряд открыт для переноса данных. Также существует термин Minimum RAS Pulse Width (минимальная длительность импульса RAS). Trc, с другой стороны, означает SDRAM`s Row Cycle Time (цикл памяти/время цикла ряда SDRAM), то есть период времени в течение которого завершается полный цикл открытия и обновления ряда. В большинстве BIOS материнских плат, основанных на чипсете VIA K8T800, возможен широкий диапазон выбора между значениями от 5 до 15.
* источник.

Тестирование было проведено на следующей конфигурации системного блока:
- Материнская плата: Micro-Star K8T Neo-FSR (MS-6702), VIA K8T800;
- Процессор: AMD Athlon 64 2800+ 1800MHz, 512Kb, 1.5v. (NewCastle);
- Память: 1 x 512Mb PC3200 400MHz 2.6v., (Patriot);
- Видеокарта: ATI Radeon 9800SE 128Mb @9800Pro 430/730MHz;
- Жесткий диск: 164.7Gb SATA150 Hitachi 7200rpm 8Mb;
- Привод: DVD±R/RW & CD-RW NEC ND-2510A;
- Корпус: INWIN-S508 + блок питания 420W (Thermaltake-W0009) + два корпусных 80-мм кулера Zalman (~1700 rpm, 7v.).
реклама
Операционная система: Windows XP Home SP1. Системные драйверы VIA Hyperion v.4.53, версия DirectX – 9.0c, Catalyst 4.11. Все лишние сервисы были отключены. Никаких дополнительных программ также не устанавливалось ("чистый" трэй). Система настроена на максимальное быстродействие.
Технология Cool’n’Quiet во время тестирования была отключена в BIOS Setup материнской платы.
Настройки BIOS материнской платы Micro-Star K8T Neo-FSR (MS-6702) в части, относящейся к оперативной памяти и чипсету, не отличаются особым богатством:

Несмотря на последнюю доступную версию биоса, выбор параметра "Bank Interleaving" возможен только из значений "Auto" и "Disabled".
В качестве тестов были выбраны следующие синтетические бенчмарки, программы и игры:
- SiSoft Sandra-2004.10.9.133;
- Everest v.1.52.215;
- CrystalMark v.0.9.106.215;
- PCMark’04 build 1.2.0;
- Super PI;
- WinRar v.3.4;
- 7-Zip v.4.09;
- Lame v.3.96;
- CINEBENCH 2003;
- Unreal Tournament 2004 build 2225;
- Far Cry v.1.3 build 1337;
- DOOM 3;
- 3DMark’03 build 3.5.0.
Все тесты выполнялись минимум по два раза. В случае, если какой-то результат "выпадал" (то есть значительно отличался от предыдущего), то тестирование проводилось дополнительно еще как минимум один раз.
Результаты тестов:

Популярный синтетический бенчмарк неожиданно оказался практически равнодушен к изменению таймингов оперативной памяти. Прирост от изменения максимальных таймингов на сочетание 2-2-2-9 приносит только менее 1% производительности.

Результаты Everest-а также не отражают заметного прироста производительности. Если только обратить внимание на операции запись в память – суммарный прирост составил 6,6%. Посмотрим, как влияет уменьшение таймингов в бенчмарке "Latency" (меньше – лучше):

реклама
Неплохо! Особо заметен прирост при изменении CAS# Latency (tCL) с 2.5 на 2, а также уменьшении параметра RAS# to CAS# Delay (tRCD) с 3 до 2. Разница между результатами при максимальных таймингах и минимальных составляет 19,2% и, забегая вперед, скажу, что это максимальное %-е значение прироста из всех проведенных бенчмарков.


Оба последних синтетических бенчмарка данной статьи не выявили заметного прироста производительности от уменьшения таймингов оперативной памяти. Посмотрим, как поведут себя реальные приложения и игры.

При расчете 2Mb в Super PI выигрыш минимальных таймингов над максимальными составил 4 секунды или 3,4%. Немного, конечно, но предположу, что на более "длинных дистанциях" разрыв будет больше.

Особо заметный прирост в WinRar можно наблюдать при уменьшении параметра RAS# to CAS# Delay (tRCD), а общая разница между результатами на минимальных и максимальных таймингах составляет 18%!

В данном архиваторе разница видна лишь при упаковке файлов. При распаковке 7-zip к таймингам оперативной памяти равнодушен.
Перед проведением тестов в играх, необходимо сказать, что для минимизации влияния производительности видеокарты тестирование проводилось в разрешении 640х480 и максимально скоростных настройках драйверов Catalyst (AA off, AF off).
Тестирование проводилось на BotMatch "Rankin".

По результатом данной игры сложно выявить какой из таймингов наиболее сильно влияет на производительность процессора. Каждый из параметров при его уменьшении вносит свой небольшой вклад в общее дело, что в сумме выливается в +7,6%.
Как выяснилось из тестирования GeForce 6600GT производства LeadTek, демо-запись от 3DNews на уровне "Research" очень сильно процессорозависима, что нам как раз и нужно. Бенчмарк прогонялся по два раза.

В очередной раз можно наблюдать, что максимальный прирост производительности происходит при уменьшении RAS# to CAS# Delay (tRCD) и при этом в целом составляет 2.3FPS (c 61.2FPS до 63.5FPS). Суммарное увеличение производительности при уменьшении таймингов памяти в Far Cry равно 7,2%.
Тестирование было выполнено на стандартном demo1 за два прохода.

По аналогии с Far Cry, RAS# to CAS# Delay (tRCD) в DOOM 3 наиболее "влиятельна".
И в завершении приведу результаты 3DMark’03 CPU Benchmark.

3DMаrk’03 CPU Benchmark подтвердил правоту Far Cry и DOOM 3 по отношению к параметру RAS# to CAS# Delay (tRCD) – это наиболее значимый и наиболее влияющий на производительность тайминг оперативной памяти для платформы на чипсете VIA K8T800.
Удивлены состоянием счета? Тьфу! Извините :) Удивлены отсутствием результатов тестирования при сжатии аудио в формат MP3 кодеком Lame и рендеринга в CINEBENCH 2003, присутствующими в списке бенчмарков? Я не забыл их привести, а просто не стал загружать статью лишними диаграммами. Дело в том, что изменение таймингов ни как не повлияло на оба данных приложения (+0,4% в CINEBENCH 2003 не в счет).
Приведу итоговые результаты прироста производительности при уменьшении таймингов с сочетания 3-4-4-11 на 2-2-2-9 в одной сводной таблице:
Test's | Прирост от изменения таймингов с 3-4-4-11 на
|
|
Sandra 2004.10.9.133 Memory | Int Buff | +0,9% |
Float Buff | +0,9% | |
Everest v.1.52.215 | Read | +1,7% |
Write | +6,6% | |
Latency | +19,2% | |
CrystalMark v.0.9.106.225 | Memory Score | +6,0% |
PCMark'04 v.1.2.0 | Memory Score | +1,0% |
Super PI, 2Mb | Time | +3,4% |
WinRAR v.3.4 | KB/sec | +18,0% |
7-Zip v.4.09 (MIPS) | Pak | +4,4% |
Unpak | 0,0% | |
Lame 3.96 | 320 kbit/s | 0,0% |
CINEBENCH 2003 | Rend. 1 CPU | +0,4% |
UT2004 | 640x480 | +7,6% |
Far Cry | +7,2% | |
DOOM 3 | +7,8% | |
3DMark 2003 | CPU Score | +4,8% |
Средний прирост: | +5,3% |
У внимательных читателей также могут возникнуть вопросы и о причине отсутствия тестов при дальнейшем уменьшении параметра Cycle Time (Tras) с 9 до минимально возможных 5. Тесты были проведены во всем возможном диапазоне от 11 до 5, и Вы можете убедиться в этом сами, ознакомившись с полным вариантом таблицы результатов (10.4Kb). Но так как увеличения производительности при снижении Cycle Time (Tras) ниже 9 не происходит, то и приводить их, на мой взгляд, нет необходимости.
Аналогично (то есть никак :)) реагировала система и на изменение DRAM Burst Length - длину пакета, указывающую количество блоков данных, отсылаемых в один цикл передачи. В идеальном случае одна передача будет заполнять одну строку памяти в кэше L2 современных процессоров. То есть она должна равняться 64 байтам или восьми пакетам данных. Оба допустимых значения – 4 и 8 – протестированы.
Как я уже упоминал в начале статьи, дополнительно было изучено влияние на производительность изменения параметров чипсета VIA K8T800: LDT to AGP Lokar (Upstream) 8bit или 16bit и LDT to AGP Width (Downstream) 8bit или 16bit. Также проводились тесты и при заниженной с дефолтовых 800MHz до 600MHz частоты шины HyperTransport. Результаты тестов присутствуют в приведенной выше таблице. Изменений – 0,0.
На очереди изучение прироста производительности от двухканального режима работы с оперативной памяти в системах с Athlon 64. Но это уже будет другая статья и, естественно, на другой платформе.
Удачи Вам!
Ваши замечания и предложения по теме статьи предлагаю обсудить в специально созданной ветке конференции.
Сергей Лепилов aka Jordan
Лента материалов раздела
Соблюдение Правил конференции строго обязательно!
Флуд, флейм и оффтоп преследуются по всей строгости закона!
Комментарии, содержащие оскорбления, нецензурные выражения (в т.ч. замаскированный мат), экстремистские высказывания, рекламу и спам, удаляются независимо от содержимого, а к их авторам могут применяться меры вплоть до запрета написания комментариев и, в случае написания комментария через социальные сети, жалобы в администрацию данной сети.
Сейчас обсуждают