В процессе подготовки обещанного материала по разгону и тестированию Phenom II X4/X6 на материнской плате Socket AM3 встал вопрос, с какой памятью тестировать процессоры на указанной платформе — де-юре поддерживаемой указанной платформой DDR3-1333 или более высокочастотной DDR3-1600, поддерживаемой де-факто в большинстве случаев. Да и в комментариях к предыдущей статье было справедливо отмечено, что использованная в тестах на Socket AM2+ плате DDR2-800 память с первичными таймингами 6-6-6, мягко скажем, не предел мечтаний. Так что было решено посмотреть, что даст процессорам микроархитектуры K10 более быстрая память, причём как на Socket AM2+, так и на Socket AM3. И начнём мы с ответа на вопрос: а откуда вообще есть уверенность, что быстрая память хоть как-то поднимет производительность тестируемых компьютерных систем? Ведь если это не так, то и смысла в задуманном тестировании исчезающе мало.
Что ж, надеюсь, что для большинства читателей этого ресурса не станет откровением упомянутый ещё в прошлой статье следующий общеизвестный факт — производительность большинства современных компьютерных систем в большинстве задач ограничена не столько скоростью счёта процессора, сколько латентностью и пропускной способностью памяти. Именно по этой причине, например, простое увеличение тактовой частоты процессора поднятием множителя без увеличения пропускной способности памяти и уменьшения её латентности — априори не самый эффективный способ разгона. И по этой же причине быстрая память всегда увеличивает производительность хоть сколь-нибудь современных компьютерных систем даже при использовании процессора на стоковых частотах. Вопрос лишь в том, насколько вырастет производительность в конкретном сценарии использования и будет ли, как следствие, покупка более быстрой памяти или её разгон целесообразны.
А почему вообще имеет место вышеупомянутая ситуация с ограничением производительности скоростью работы оперативной памяти? Короткий ответ — так сложилось исторически. Дело в том, что начиная примерно с 1980 года скорость выполнения процессорами инструкций росла значительно опережающими темпами по сравнению со скоростными характеристиками наиболее массовой DRAM-памяти. Вот так, например, выглядит динамика изменения производительности одного процессорного ядра по сравнению с динамикой производительности DRAM-памяти за последние десятилетия. График взят из известной книги по архитектуре компьютерных систем Computer Architecture: A Quantitative Approach (авторы John L. Hennessy и David A. Patterson).
Линия производительности процессора на графике отражает рост количества запросов на доступ к памяти в секунду, а линия производительности памяти — рост количества операций доступа к памяти в секунду, которые DRAM-память способна обслужить (величину, обратную латентности памяти). Да, время доступа к памяти год от года улучшается, но темпов этого улучшения уже давно недостаточно чтобы соответствовать темпам роста производительности процессоров. Для понимания масштабов проблемы обратите внимание на тот факт, что вертикальная ось имеет логарифмический масштаб. Так что даже переход индустрии на многоядерные процессоры, сопровождающийся серьёзным замедлением темпов роста производительности отдельного процессорного ядра, не вселяет никакого оптимизма. К тому же, не стоит забывать, что помимо латентности имеет значение и пропускная способность памяти, и в этом отношении с одной стороны ситуация обстоит несколько лучше, так как разрыва на несколько порядков между желаниями процессора и способностями DRAM-памяти здесь уже нет, но с другой у многоядерных процессоров требования к пропускной способности выше и с ростом среднего числа ядер они лишь продолжают год от года расти. Так, например, в вышеупомянутой книге приводится пример Intel Core i7-6700, пиковые теоретические потребности которого в пропускной способности памяти составляют внушительные 409.6 ГБ/с, что аж в 8 раз превышает пропускную способность DDR4-3200 памяти в двухканальном режиме (2×25.6 ГБ/с). Разрыв, конечно, не такой катастрофический как в случае с латентностью, но ведь сейчас в 2020 даже в настольных системах с двумя каналами памяти и 8 ядрами уже никого не удивишь, а пропускная способность DRAM-памяти практически не изменилась.
Безусловно уже многие десятилетия и отчасти успешно инженеры пытаются обойти обсуждаемое “узкое место” компьютерных систем путём совершенствования иерархии процессорных кэшей и других многочисленных усовершенствований архитектуры, однако, это сильно усложняет архитектуру современных процессоров, что приводит не только к их удорожанию, но и к высокому риску наличия уязвимостей (вспоминаем пресловутые Spectre, Meltdown и иже с ними). Впрочем, сегодня разговор не о микроархитектурных уязвимостях, а о быстрой памяти, так что не будем отвлекаться, а перейдём к результатам синтетических и игровых тестов.
Для тестов был выбран единственный участник предыдущего "забега" (Phenom II X4 925) так как ни времени, ни особого желания тестировать несколько процессоров одной микроархитектуры во всём множестве вариантов не было. Помимо уже имеющихся данных о производительности выбранного процессора с DDR2-800 CL6 памятью, были дополнительно протестированы варианты с DDR2-1066 CL5, DDR3-1333 CL9 и DDR3-1600 CL9 памятью. Тестовый стенд в случае использования DDR2-памяти тот же, что и ранее, а основой тестового стенда с DDR3-памятью стала материнская плата ASUS M4A79T Deluxe.
Напомню, что комплект из двух 4 ГБ плашек DDR2-800 CL6 представляет собой классическую дешёвую "AMD-only" DDR2-память с Aliexpress, использующую особенность контроллера памяти K10 и, как следствие, корректно работающую только с процессорами AMD. Первичные тайминги tCL-tRCD-tRP памяти "всемирно известного" бренда Atermiter равны 6-6-6, что есть худший вариант для DDR2-800 памяти согласно спецификации JEDEC. Да и скорость передачи данных в 800 MT/s для DDR2-памяти не предел — JEDEC был определён ещё стандарт DDR2-1066, который процессоры микроархитектуры K10 поддерживают, правда, с оговорками. А именно, в описании ко многим материнским платам, у которых заявлена поддержка DDR2-1066 памяти, имеется предупреждение о том, что такая память поддерживается только в режиме одна планка на канал (Note: Due to AMD AM3/ AM2+ CPU limitation, memory module of DDR2 1066 or above speed is only supported by 1 dimm per channel). На практике у меня проблем с двумя планками на канал не возникло, но отметить этот момент стоило. Итак, наша "скоростная" DDR2-1066 CL5 память представлена четырьмя 2 ГБ модулями Kingston KHX8500D2/2G с первичными таймингами 5-5-5 — не предел мечтаний, конечно, но на фоне DDR2-800 (6-6-6) смотрятся неплохо: прирост по теоретической пропускной способности составляет 33.3%, а латентность ниже на 37.5%.
DDR3-1333 CL9 представлена двумя 4 ГБ DDR3-1866 планками от ещё одного именитого китайского бренда Kllisre. На деле в использованных в тестировании экземплярах планок стоят чипы SEC K4B2G0846D-HYK0, номинальным режимом работы которых является DDR3-1600 (11-11-11), но поддерживаются ещё и режимы DDR3-1333 (9-9-9) и DDR3-1066 (7-7-7). Собственно, второй из этих режимов и обозначен в результатах как DDR3-1333 CL9. Так же как и в случае c DDR2-800 набор первичных таймингов 9-9-9 для DDR3-1333 отнюдь не предел мечтаний — в спецификации JEDEC хуже для DDR3-1333 памяти только вариант 10-10-10. DDR3-1600 CL9 — те же планки, только с "ужатыми" до 9-9-9 первичными таймингами. По сравнению с тестируемыми вариантами DDR2, преимущества более скоростной DDR3-памяти над её менее скоростным вариантом, конечно, не столь значительны (всего 20% по пропускной способности и 16.7% по латентности), но что есть. От покупки более скоростной DDR3-памяти было решено пока отказаться, так как тут имеется, как минимум, один нюанс — есть желание использовать одну и туже DDR3-память в тестах платформы Socket AM3 и пока ещё только планируемых замерах производительности на LGA775, а последняя платформа поддерживает лишь DDR3-память с чипами (относительно) невысокой плотности. Так, например, на LGA775 4 ГБ планки с 8 чипами по 512 МБ с одной стороны работать не будут, а двусторонние 4 ГБ планки с 16 чипами по 256 МБ "поедут" без проблем. Вот только среди таких планок вариантов DDR3-1600 с таймингами ниже 9-9-9 особо и нет, поэтому решено было остановится на том, что уже есть в наличии, благо имеющиеся планки 4 ГБ планки Kllisre двусторонние и работают на LGA775.
Система с Intel Pentium G4600, как и ранее, оснащена двумя 4 ГБ модулями DDR4-2400 (18-17-17).
При сравнении результатов тестов пропускной способности памяти сразу бросается в глаза, что скорости чтения закономерно возрастают примерно на треть при переходе от DDR2-800 к DDR2-1066 (33% прирост в частоте), а вот скорости записи остаются равными. Схожую картину можно увидеть в тестах Phenom прошлых лет, по всей видимости причиной является наличие в контроллере памяти некого ограничение на скорость записи в память, так как при разгоне процессора с повышением частоты контроллера памяти с 2.0 до 2.6 ГГц скорость записи увеличивается, но по-прежнему никак не откликается на повышение частоты модулей памяти. Ограничение в контроллере памяти имеется и на скорость чтения, только достигается оно, как видно из диаграммы результатов, уже на более высоких частотах работы оперативной памяти. Так, например, скорость чтения из DDR3-1600 выше всего на 8% по сравнению с DDR2-1066 при 50% преимуществе в частоте, а при разгоне процессора с повышением частоты контроллера памяти разрыв между вышеупомянутыми комплектами возрастает уже до 32%.
Результаты тестов CPU и FPU в общем и целом тривиальны, но "для галочки" всё же приведены. Как уже упоминалось ранее, хороший синтетический бенчмарк должен в идеале тестировать производительность единственного узла компьютерной системы без упора в остальные его части. В этом, собственно, и заключается как преимущество любого хорошего синтетического теста производительности, так и его недостаток. И надо сказать, в этом отношении синтетические тесты CPU и FPU в AIDA64 хороши за одним единственным исключением — все бенчмарки, кроме CPU PhotoWorxx, никак не отреагировали на улучшение скоростных характеристик подсистемы памяти, и именно так и должны вести себя синтетические тесты скорости выполнения инструкций различными исполнительными устройствами центрального процессора. Девиантное поведение PhotoWorxx, впрочем, сюрпризом не стало, ибо практически любой, кто занимался разгоном оперативной памяти о таком поведении этого бенчмарка в курсе. Другой вопрос — место ли PhotoWorxx в тестах производительности CPU, но это уже не ко мне.
Grand Theft Auto V (2015, RAGE, DX11)
Batman: Arkham Knight (2015, Unreal Engine 3, DX11)
Deus Ex: Mankind Divided (2016, Dawn Engine, DX11 и DX12)
Sid Meier's Civilization VI (2016, Собственный, DX11 и DX12)
Tom Clancy's Ghost Recon Wildlands (2017, AnvilNext 2.0, DX11)
Warhammer 40,000: Dawn of War III (2017, Essence Engine 4, DX11)
Total War: Warhammer II (2017, TW Engine 3, DX11 и DX12)
Middle-earth: Shadow of War (2017, Firebird Engine, DX11)
F1 2018 (2018, EGO Engine, DX11 и DX12)
Strange Brigade (2018, Asura Engine, DX12 и Vulkan)
Shadow of the Tomb Raider (2018, Foundation Engine, DX11 и DX12)
Forza Horizon 4 (2018, ForzaTech, DX12)
Hitman 2 (2018, Glacier 2, DX11 и DX12)
Far Cry New Dawn (2019, Dunia 2, DX11)
Metro Exodus (2019, 4A Engine, DX11 и DX12)
Gears 5 (2019, Unreal Engine 4, DX12)
Borderlands 3 (2019, Unreal Engine 4, DX11 и DX12)
В этот раз было решено отказаться от обсуждения результатов в каждой из протестированных игр в отдельности (так как они очень схожи), а сразу перейти к обсуждению средней производительности по всем протестированным игровым проектам. Итак, что же мы видим?
На этом на сегодня всё, а в следующем материале таки наконец сравним Phenom II X4 и X6 на плате Socket AM3 с DDR3-1600 памятью.