Тестирование GTX 750 c 2 ГБ GDDR5-памяти — продолжаем всплытие

На сей раз наш постепенный подъём со дна современного гейминга будет остановлен на отметке под кодовым названием "младший Maxwell" — мы посмотрим, что сможет GTX 750 в современных приложениях и играх.

30 июня 2020, вторник 17:05

wildcat [ ] для раздела Блоги

Введение: коротко об архитектуре и позиционировании

Максвелл посылает Кеплера в нокаут.

В феврале 2014 года NVIDIA представила новую архитектуру графических процессоров Maxwell, которая несколько непривычно вышла на рынок в виде весьма слабых по производительности решений GeForce GTX 750 и GTX 750 Ti. Обычно первый представитель новой архитектуры — это топовое решение, но с Maxwell вышло иначе, и на то у компании были свои причины.

Во-первых, к 2014 году значительно возросла доля различного рода мобильных устройств (смартфонов, планшетов, ультрабуков) на рынке, а в них важнейшим параметром является энергоэффективность. Топовые прожорливые монстры в мобильном сегменте в принципе не нужны, а вот решениям среднего уровня, представляющим собой компромисс между производительностью и энергопотреблением, здесь всегда рады. С самого начала было видно, что Maxwell разрабатывался с прицелом именно на портативные устройства и дальнейшее развитие архитектуры это только подтвердило — если не рассматривать решения для рабочих станций, то в настольном сегменте оригинальный Maxwell ничем кроме GTX 750 и GTX 750 Ti (и ещё GTX 745, существовавшей только в OEM-варианте) и не отметился, а вот в мобильном сегменте решения на это архитектуре составляли основу 800-й и 900-й серии 3D-ускорителей. Правда, чуть позже был ещё Maxwell 2.0, оставивший свой след и в настольном сегменте, но это уже несколько другая, более поздняя, история.
Во-вторых, Maxwell, по всей вероятности, изначально был рассчитан на техпроцесс 20 нм, но так как у TSMC возникли сложности с его освоением, то как минимум первый чип пришлось делать на старом-добром 28-нм техпроцессе и среднего уровня. Планировался ли далее переход на 20 нм при производстве более мощных GPU мы, возможно, не узнаем, но факт состоит в том, что этого не произошло — все чипы Maxwell, включая топовые варианты Maxwell 2.0 для моделей 900-й серии, производились по нормам 28 нм. Конечно, добиться улучшения в области энергоэффективности можно и без перехода на более тонкий техпроцесс, а за счёт архитектурных изменений, вот только хорошо работает такой подход преимущественно не для топовых решений, так как наибольшие достижения в области энергоэффективности всегда связаны именно с переходом на более тонкий техпроцесс и соответствующим увеличением плотности транзисторов и снижением энергопотребления.

Итак, с одной стороны, у NVIDIA было острое желание создать энергоэффективную архитектуру преимущественно для мобильных платформ, с другой — у TSMC были серьёзные задержки в освоении 20-нм техпроцесса. Поэтому NVIDIA, что добиться прогресса в энергоэффективности, пришлось прибегнуть к архитектурным оптимизациям в рамках 28-нм техпроцесса, причём опыт подобного рода проектов (и опыт, надо сказать, успешный) у компании уже был — речь идёт о перевод видеоядра Kepler на мобильную однокристальную систему Tegra. Вообще говоря, видеокарты предыдущей архитектуры Kepler уже имели неплохую энергоэффективность, но в Maxwell было решено в этом аспекте попытаться выжать из 28 нм всё, что только получится, пускай и ограничившись не самыми производительными решениями.

На высоком уровне логической организации Maxwell следовал тем же базовым принципам, что и Kepler — вычислительная логика была сосредоточена в структуре под названием Graphics Processing Cluster (GPC), вне которой были расположены блоки растеризации, кэш L2, контроллеры памяти и планировщик Giga Thread Engine, загружающий все имеющиеся в наличии GPC инструкциями. В состав младших чипов GK107 и GM107 входило всего по одному GPC, но в старших более крупных чипах их было больше. Основным же отличием Maxwell от Kepler на самом высоком уровне было значительное увеличение кэша L2 (с 256 до 2048 КБ) с целью компенсировать узкую 128-битную шину памяти и сократить количество обращений к сравнительно "прожорливой" в плане расхода электроэнергии GDDR5-памяти.

Блочная диаграмма чипов GK107 (слева) и GM107 (справа)

На уровне GPC существенных архитектурных нововведений по сравнению с Kepler также не было замечено — есть несколько потоковых мультипроцессоров Stream Multiprocessors (SMX в терминологии Kepler и SMM в Maxwell) и единственный Raster Engine, выполняющий первоначальные задачи 3D-рендеринга (определение граней полигонов, проекцию и отсечение невидимых пикселов). Единственное, что сразу бросается в глаза при сравнении младших представителей обеих архитектур, так это вдвое возросшее в GM107 относительно GK107 число мультипроцессоров (если речь идёт о варианте GM107 для GTX 750, где полностью отключен один мультипроцессор SMM, показанный на рисунке выше серым цветом). Так что даже с учётом того факта, что число ядер CUDA в каждом мультипроцессоре уменьшилось в Maxwell со 192 до 128, их общее число существенно возросло в младшем решении с 384 до 512. Основные же архитектурные изменения в Maxwell произошли непосредственно внутри потоковых мультипроцессоров, где относительно Kepler соотношение управляющей и вычислительной логики было смещено в сторону первого компонента.

В Maxwell 128 ядер CUDA, входивших в состав мультипроцессора SMM были разделены на 4 блока, по 32 ядра каждый, при этом каждый из 4 планировщиков Warp Scheduler, количество которых не изменилось, теперь был привязан лишь к одному блоку CUDA ядер. В Kepler же мультипроцессоры SMX имели в своём составе по 192 ядра CUDA, не разделённых на блоки, а 4 планировщика Warp Scheduler распределяют и планирует работу и обмен данными сразу для всех вычислительных ядер.

Устройство потоковых мультипроцессоры в Kepler (слева) и Maxwell (справа)

Как следствие, в Kepler управляющий блок довольно сложен, а в Maxwell одна сложная задача планирования и управления большим числом CUDA ядер разделена на несколько заметно более простых. Как итог пиковая производительность CUDA ядер выросла на 35% по сравнению с чипами архитектуры Kepler. Конечно, здесь сказались и другие архитектурные улучшения, о которых можно прочитать в детальных обзорах прошлых лет, однако, решающее значение имело именно значительное упрощение управляющей логики мультипроцессоров.

Кроме того, благодаря архитектурным оптимизациям повысилась не только энергоэффективность, но и плотность размещения транзисторов на кристалле — площадь чипа при переходе от GK107 к GM107 увеличилась со 118 мм² до 148 мм², то есть на 25%, а число транзисторов возросло с 1.3 до 1.87 млрд, то есть на 44%. Таким образом, архитектурные изменения не только увеличили среднюю производительность каждого отдельно CUDA-ядра, но и позволили уместить значительно больше ядер, оставив размер кристалла почти неизменным. И именно увеличение числа CUDA-ядер и привело к заметному росту производительности в поколении Maxwell. Важно также отметить, что благодаря архитектурным улучшениям в GM107 и количество транзисторов, и производительность удалось существенно поднять, оставаясь в рамках энергопотребления GK107 (TDP GM107 был даже ниже). В этом и состояла вся суть архитектуры Maxwell — выжать максимальную производительность на Ватт из 28 нм.

Если говорить о позиционировании карты GeForce GTX 750 на рынке, то в собственной продуктовой линейке новый ускоритель NVIDIA пришёл на смену выпущенному ранее GeForce GTX 650 Ti, а среди продуктов AMD основным конкурентом новинки был ускоритель Radeon R7 260. В целом указанные ускорители демонстрировали близкие результаты, но на стороне GTX 750 было более низкое энергопотребление, так что как только цены в рознице на новинку пришли в норму, она стала одной из лучших (если не просто лучшей) лучшей видеокартой в своём ценовом сегменте. Давайте же посмотри, на что способна популярная недорогая карта 2014 в современных реалиях.

Карта

Изначально разница между видеокартами GeForce GTX 750 и GTX 750 Ti заключалась не только в отключенном в первой одном потоковом мультипроцессоре, но и в объёме видеопамяти — "младшая" GTX 750 вышла в варианте только с 1 ГБ памяти GDDR5, в то время как у "старшей" GTX 750 Ti объём видеопамяти составлял уже 2 ГБ. Позже, однако, 2 ГБ версия появилась и у GTX 750, и именно в таком варианте мы и протестируем ускоритель, так как ранее протестированный GTX 650 так же был укомплектован 2 ГБ видеопамяти. Карта от GIGABYTE (GV-N750OC-2GI) выполнена в классическом для решений начального уровня этого производителя дизайне с один большим 100-мм аксиальным вентилятором.

Карта с Алиэкспресса, бралась в своё время знакомому "танкисту" в понятных целях в сборку на Xeon "под" LGA775, затем у него же была выкуплена за недорого по переезду хозяина на современное "железо". Набор внешних интерфейсов вполне стандартный для той поры — порты DVI-I, DVI-D и два HDMI. Имеется 6-пиновый разъём для питания и небольшой заводской разгон.

Под простеньким алюминиевым радиатором видим ровно то, что ожидаем увидеть: чип GM107 в варианте 300-A2 и 4 микросхемы памяти SAMSUNG K4G41325FC-HC03, каждая по 512 МБ.

Синтетические и игровые тесты

3DMark

Результаты в 3DMark однозначно настраивают на более, чем позитивный лад — GTX 750 быстрее GTX 650 почти в два раза во всех тестах независимо от разрешения. В Fire Strike добираемся до условной границы играбельности в 30 FPS хотя бы в HD, а вот Time Spy всё ещё не по зубам, даже в HD. Но давайте посмотрим, как дела обстоят в реальных играх.

Grand Theft Auto V (2015, RAGE, DX11)

Sid Meier's Civilization VI (2016, Собственный, DX11)

Total War: Warhammer II (2017, TW Engine 3, DX11)

Middle-earth: Shadow of War (2017, Firebird Engine, DX11)

F1 2018 (2018, EGO Engine, DX11)

Shadow of the Tomb Raider (2018, Foundation Engine, DX12)

Assassin's Creed Odyssey (2018, AnvilNext 2.0, DX11)

Hitman 2 (2018, Glacier 2, DX12)

Far Cry New Dawn (2019, Dunia 2, DX11)

Metro Exodus (2019, 4A Engine, DX12)

Borderlands 3 (2019, Unreal Engine 4, DX12)
Red Dead Redemption 2 (2019, RAGE, Vulkan)

Результаты в реальных игровых бенчмарках демонстрируют туже картину — в среднем по всем протестированным играм и обоим разрешениям GTX 750 опережает GTX 650 почти вдвое, или на 86% и 96% по средней и минимальной производительности, если быть более точным. Такой отрыв выводит "младший" Maxwell на совершенно иной уровень игровой производительности — на GTX 750 все современные игры играбельны "на минималках" в HD-разрешении, а многие и в FHD.

Тесты в профессиональном ПО

В этот раз было решено не ограничиваться лишь игровыми тестами, а протестировать также и неигровое программное обеспечение. Напомню, что в целом нас интересует производительность настольных компьютерных систем в, как это обычно говорится в таких случаях, “актуальном программном обеспечении", будь то приложения или игры. И если конкретно про "актуальность" и в целом про выбор игровых проектов для тестирования было сказано не один раз, начиная ещё с самой первой заметке, то о выборе "актуального" неигрового ПО для тестирования производительности стоит поговорить здесь и сейчас, ибо нюансов там тоже хватает.

С “актуальностью” всё более или менее понятно — актуальными можно считать приложения, используемые в данный момент времени большинством. Но тут всё, конечно же, не так просто. Начнём с того, что безусловно существует некий небольшой набор приложений, используемых абсолютным большинством пользователей ПК в их повседневной (и, чаще всего, непрофессиональной) деятельности, например, текстовый процессор или электронная таблица. Однако особого смысла в тестировании производительности таких "повседневных" приложений в повседневных же задачах нет — их "потянет" любая "печатная машинка". Так что подобных тестов мы делать не будем, но если кому-то станет интересно, то отметим, что PCMark 8 и PCMark 10 можно использовать (среди прочего) для оценки производительности при работе с реальными приложениями из пакета Microsoft Office.

Конечно, существует и, так скажем, "профессиональное" ПО, однако, у каждого из нас, по понятным причинам, не только свой список таких приложений, но зачастую ещё и совершенно разные сценарии использования, так что любой полезный для некоторого абстрактного большинства пользователей перечень "профессиональных" приложений, содержал бы слишком большое, “неподъёмное” для практических измерений, количество позиций. Более того, производительность большинства приложений не так просто измерить в принципе, так как соответствующих инструментов попросту не существует, а чтобы создавать собственные нужно неплохо разбираться в соответствующих предметных областях. А разбираться одновременно во всём и сразу в нашем узкоспециализированном мире уже просто физически невозможно, поэтому нужно какое-то готовое решение, причём желательно именно одно, пускай и не всеобъемлющее. Вот, скажем, в вышеупомянутом PCMark 8 имеется возможность измерять производительность нескольких профессиональных программных пакетов от Adobe (Photoshop, InDesign, Illustrator и After Effects), но хотелось бы большего. Есть ещё бенчмарки от американского сборщика ПК Puget Systems, но в них опять-таки фокус почти исключительно на продуктах Adobe.

В результате поисков в направлении чего-то более универсального и готового к использованию был обнаружен набор тестов SPECworkstation 3 от небезызвестной некоммерческой организации Standard Performance Evaluation Corporation (SPEC). SPEC объединяет ведущих производителей аппаратного и программного обеспечения и ставит своей главной целью как раз таки разработку и публикацию наборов тестов, предназначенных для измерения производительности компьютеров. SPECworkstation 3 включает почти 140 тестов, измеряющих производительность центрального и графических процессоров (а также подсистемы хранения данных) в различных пакетах профессионального ПО. Набор тестов SPECworkstation 3 доступен для бесплатного использования в некоммерческих целях, не требует установки тестируемого ПО, а так как и AMD, и Intel Corporation, и NVIDIA являются полноправными членами SPEC, то ожидать каких-то “перекосов“ в сторону одного из производителей не стоит.

Помимо проверки производительности достаточно известных профессиональных пакетов, таких, например, как редактор трёхмерной графики Autodesk Maya 2017, ПО для 3D-моделирования Autodesk 3ds Max 2016, САПР SolidWorks 2013 SP1 и Autodesk Showcase 2013 (тесты maya-05, 3dsmax-06, sw-04 и showcase-02, соответственно), тестируются и более специфические и, как следствие, более экзотические пакеты визуализация и моделирования: САПРы CATIA V6 R2012 французской Dassault Systèmes (catia-05), Creo 3 и 4 от PTC (creo-02), NX 8.0 производства компании Siemens PLM (snx-03), пакет объёмной визуализации ImageVis3D (medical-02) и пакет сейсмической визуализации OpendTect (energy-02). Помимо множества упомянутых CAD/CAM/CAE-систем и пакетов визуализации в состав тестов GPU входят ещё два чисто вычислительных бенчмарка: caffe, тестирующий производительность одноимённой среды для глубинного обучения и fah, использующий довольно известный проект распределённых вычислений по моделированию свёртывания молекул белка Folding@home. Больше подробностей можно узнать на страничке с описанием тестов, мы же перейдём к результатам. Результаты, кстати, SPECworkstation 3 приводит относительно рабочей станции Z240 со следующими характеристиками:

ЦП: Intel Xeon E3-1240 v5 @3.5GHz
ГП: AMD Radeon Pro WX3100
Память: 16GB, DDR3 2133MHz
Хранилище: SanDisk 512GB SSD
ОС: MS Windows 10 build 17134

Видеокарта, конечно, профессиональная, но у неё есть очень близкий аналог среди "игровых" — Radeon RX 550. Конечно, практический смысл в использовании сравниваемых карт в профессиональном ПО сейчас уже исчезающе мал, но картина относительной производительности всё же интересна. Да и прогресс со временем будет лучше виден, если начинать с самых низов.

В среднем по всем тестам имеем 57% прирост при переходе от GTX 650 к GTX 750, а если отбросить результаты единственного теста, не демонстрирующего никакого прироста (snx-03), то GTX 750 обходит GTX 650 уже на 64%. В чисто вычислительных тестах caffe и fah прирост более чем двукратный (117%). И так как в прошлый раз совсем забыл добавить информацию о тестах профессионального ПО, то сравним здесь и эффект от перехода к более быстрой GDDR5-памяти в рамках GK107: GTX 650 обходит GT 640 в среднем на 35%, правда, в этом случае такое преимущество получается преимущественно благодаря ускорению визуализации, а в чисто вычислительных тестах прирост несколько скромнее (27% и 20% в caffe и fah, соответственно).

Выводы

В современных играх GTX 750 почти вдвое обходит GTX 650 по показателям игровой производительности, и представляет собой решение совершенно другого уровня — на GTX 750 все современные игры всё ещё играбельны "на минималках" в HD-разрешении, а многие даже в FHD.
В самом этом факте нет ничего особо нового, так как и на момент выхода GTX 750 обходила GTX 650 на 50–100% по игровой производительности, в среднем, правда, прирост двукратным всё-таки не был. Куда удивительнее на фоне такой разницы в производительности другое — незначительная разница в цене между GTX 650 и GTX 750 на вторичном рынке. Так, на AliExpress цены на первую начинаются от 2800 ₽ ($39), а вторая обойдётся всего примерно на 500 ₽ дороже — 3450 ₽ ($48). Это за версии ускорителей с 1 ГБ памяти, 2 ГБ модели дороже, но разрыв между GTX 650 и GTX 750 в цене также мал.
В профессиональном ПО отрыв GTX 750 от GTX 650 скромнее — около 60%, при этом максимальный прирост (107%) наблюдается в чисто вычислительных задачах, а не программах визуализации.

Материалы по теме в хронологическом порядке: