Первенец на архитектуре Maxwell: обзор и тестирование видеокарты NVIDIA GeForce GTX 750 Ti
Оглавление
- Вступление
- Технические особенности
- Технические характеристики
- Внешний вид и размеры
- Печатная плата
- Тестовый стенд
- Методика тестирования СО
- Исследование потенциала системы охлаждения
- Результаты разгона
- Энергопотребление
- Методика тестирования производительности
- Результаты тестов 3D
- 3DMark 2011
- Company of Heroes II
- Metro Last Light
- Sleeping Dogs
- Tomb Raider (2013)
- Total War Rome II
- Sniper Elite V2
- Far Cry III
- Battlefield 4
- Crysis 3
- Итоговые результаты
- Соотношение средних кадров
- Заключение
Вступление
С учетом задерживающихся 20 нм норм техпроцесса компании-производители графических решений вынуждены затягивать анонсы новых поколений GPU. Но если не сидеть сложа руки, а попытаться выжать последние соки из 28 нм, то результат может быть очень и очень интересным.
Как такое возможно? Об этом вы узнаете из обзора, посвященного новинке компании NVIDIA – видеокарте GeForce GTX 750 Ti, основанной на архитектуре Maxwell.
Технические особенности
Появление архитектуры Maxwell ожидалось в начале этого года, но реальные события вокруг доступности 20 нм техпроцесса расставили всех на свои места. По этой причине компания NVIDIA достаточно долго оттягивала неизбежное, лишь недавно решившись на первый показ новой архитектуры в рамках 28 нм.
Чтобы лучше понять тенденции развития архитектур NVIDIA, будем держать в уме некоторые ключевые вещи, указанные в таблице ниже.
Характеристики |
|
|
|
|
|
Graphics Processing Clusters, шт. |
|
|
|
|
|
SMx, шт. |
|
|
|
|
|
Блочность |
|
|
|
|
|
Количество CUDA Cores в блоке, шт. |
|
|
|
|
|
CUDA Cores в SMx, шт. |
|
|
|
|
|
Всего SP |
|
|
|
|
|
Scheduler в SM |
|
|
|
|
|
Всего scheduler |
|
|
|
|
|
L1 Cache, Кбайт (16-48 Кбайт на SM) |
|
|
|
|
|
L2 Cache, Кбайт |
|
|
|
|
|
Texture Units |
|
|
|
|
|
Threads на Warp |
|
|
|
|
|
Warps |
|
|
|
|
|
Threads |
|
|
|
|
|
Thread Blocks |
|
|
|
|
|
Число CUDA ядер в SM сократилось со 192 штук до 128, текстурных блоков – с 16 до 8. Эволюция SMX в SMM превратила массив GPC в сумму пяти SMM (GPC теперь содержит пять SM, а не два, как было раньше). Общее количество логики осталось приблизительно на том же уровне. WarpSheduler и DispatchUnit по-прежнему привязаны к CUDA Cores (по 32 штуки). Общее число CUDA ядер уменьшилось в полтора раза на один SM.
Если вспомнить архитектуры Fermi и Kepler, нельзя не заметить, что Maxwell ожидался более прогрессивным, ведь в том, что получилось, заметен консервативный подход. Скорее всего, перед нами пока что гибрид из Kepler и Maxwell, причем с частичными вкраплениями Fermi (общий на SM регистровый файл разбили под каждый SIMD, как это было в Fermi), а настоящий Maxwell будет представлен на 20 нм техпроцессе.
При дальнейшем рассмотрении появляются очевидные отличия, характерные для новой архитектуры и реализованные с целью адаптации под существующие графические вычисления:
- Четыре SIMD на SM вместо шести. Решение, которое при одинаковой транзисторной сложности даст меньшее число SP и повысит эффективность SIMD.
- Пять SM на GPC вместо двух. Решение, которое на той же площади позволит разместить большее число SP, теоретически приводящее к снижению геометрической производительности.
На данный момент при разборе скудного описания архитектуры Maxwell в White Paper получается, что NVIDIA отдала предпочтение увеличению производительности в пиксельных шейдерах ценой некоторого уменьшения геометрической скорости, что в текущих условиях выглядит разумно. Обращает на себя внимание существенный рост L2 кэша, который был увеличен до 2 Мбайт.
Теоретически после громких заявлений компании о том, что L2 не столь важен для общей производительности, остается вопрос, зачем увеличивать то, что не принесет прироста. Ответ может лежать в другой плоскости. CEO NVIDIA упоминал о скором переходе на StackedDRAM, и, скорее всего, L2 Cache не просто увеличился в размерах, а стал более функциональным. Но, увы, описание всех нововведений производитель держит под грифом «Секретно» и остается лишь догадываться о внесенных изменениях.
У каждого блока появился Instruction Buffer и количество TMU уменьшилось – следовательно, вектор сместился в сторону математики. Очевидно, что с Cache памятью произошли более глобальные метаморфозы: если раньше L1 и Shared Memory делили общий объем (64 Кбайта) на двоих в разных пропорциях, то теперь 64 Кбайта отведено под Shared memory отдельным блоком, а L1 делит объем с текстурным кэшем (возвращение к конфигурации кэшей G80).
Изменилась и блочность в SM. Стало что-то среднее между Fermi и Kepler: четыре SIMD по 32 CUDA ядра вместо четырех SIMD по 48 CUDA ядер. По всей вероятности, при такой ребалансировке GPU точно не обошлось бы без дальнейших изменений в самих SP, планировщиках и конвейерах вычислительных устройств. В конце концов, это может привести к более эффективной загрузке SM и параллельному уменьшению площади, занимаемой SM.
Возвращаясь к эволюции Fermi -> Kepler -> Maxwell, отмечу интересные преобразования. В Fermi эффективность исполнения кода на одном SIMD была высокой, поскольку число SIMD в одном SM было невелико (это, кстати, съедало площадь и повышало сложность GPU). В Kepler мы увидели увеличение числа SIMD в SM, что дало улучшение энергоэффективности, но увеличило нагрузку на логику GPU и снизило производительность. Внеся ряд изменений в SP, NVIDIA снизила энергозатраты на работу SP и вернулась к прежнему количественному соотношению. В результате родился графический процессор с низким энергопотреблением, с небольшим увеличением уровня сложности и высоким коэффициентом полезной деятельности. В планах производителя присутствует переход на 20 нм, который должен решить проблему сложности и позволит нарастить дальше удельное число SP.
Если хорошенько подумать, то предварительный вывод будет прост: GM107 на самом деле полу-Maxwell (первое поколение), а GM20x станет полноценным преемником Kepler.
По заявлениям компании-производителя, архитектура SM обеспечивает высокую энергоэффективность и дает прирост до 35% на сложных задачах с шейдерами. Для этого с целью снижения удельных затрат энергии на распределение команд заново спроектированы планировщики команд и алгоритмы. Каждый SM разделен логически на четыре блока с персональным буфером инструкций, планировщиком и 32 ядрами CUDA. Блоки попарно делят четыре TMU и область текстурного кэша. Кэш L1 вычислений для увеличения КПД объединен с текстурным кэшем инструкций, а shared memory теперь стала отдельным блоком. Кстати, последняя теперь доступна для всех блоков единовременно.
Физический размер SM уменьшился, но он по-прежнему обладает девяностопроцентной производительностью такого же блока, но с 192 CUDA ядрами. Якобы существенное уменьшение SM в будущем позволит NVIDIA размесить большое число SM в более производительных GPU. По сравнению с GK107 новый GM107 на 25% превосходит его в пиковых текстурных операциях и в два с лишним раза быстрее на шейдерных операциях.
Обновления затронули и аппаратный блок H.264 NVENC. В частности, он обязан своему появлению в GPU функции ShadowPlay. Как всегда, производитель заявляет о радикальном снижении энергопотребления с возросшей производительностью кодирования и декодирования. В цифрах это звучит следующим образом: кодирование – в шесть-восемь раз быстрее реального времени для Maxwell в сравнении с 4х для Kepler, декодирование – в восемь-десять раз быстрее реального времени. И все это благодаря кэш-памяти для NVENC.
Кроме того, стоит отметить, что Maxwell обзавелся новым режимом GC5. Он заточен на максимальное снижение энергопотребления, но не в простое или в выключенном состоянии, а в моменты легкой нагрузки на GPU: при проигрывании видео, например. Да, загруженный рабочий стол тоже попадает под влияние режима GC5, в чем можно будет убедиться ниже.
Итак, подводя итоги, можно сказать, что NVIDIA раскрывает тайны архитектуры Maxwell лишь в общих чертах, не позволяя конкуренту узнать все о низкоуровневой организации графического процессора. А очередную порцию информации нам обещают только весной.
Технические характеристики
|
|
|
|
|
|
|
Кодовое имя |
|
|
|
|
|
|
Версия |
|
|
|
|
|
|
Техпроцесс, нм |
|
|
|
|
|
|
Размер ядра/ядер, мм2 |
|
|
|
|
|
|
Количество транзисторов, млн |
|
|
|
|
|
|
Частота ядра, МГц |
|
|
|
|
|
|
Частота ядра Turbo, МГц |
|
|
|
|
|
|
Число шейдеров (PS), шт. |
|
|
|
|
|
|
Число блоков растеризации (ROP), шт. |
|
|
|
|
|
|
Число текстурных блоков (TMU), шт. |
|
|
|
|
|
|
Максимальная скорость закраски, Гпикс/с |
|
|
|
|
|
|
Максимальная скорость выборки текстур Гтекс/с |
|
|
|
|
|
|
Тип памяти |
|
|
|
|
|
|
Эффективная частота памяти, МГц |
|
|
|
|
|
|
Объем памяти, Гбайт |
|
|
|
|
|
|
Шина памяти, бит |
|
|
|
|
|
|
Пропускная способность памяти, Гбайт/с |
|
|
|
|
|
|
Питание Pin |
|
|
|
|
|
|
Потребляемая мощность (2D/3D), Вт |
|
|
|
|
|
|
CrossFire/Sli |
|
|
|
|
|
|
Рекомендованная цена, $ |
|
|
|
|
|
|
Заменяет модель |
|
|
|
|
|
|
Внешний вид и размеры
|
мм |
мм |
мм |
мм |
мм |
мм |
мм |
AMD Radeon HD 7750 |
|
|
|
|
|
|
|
AMD Radeon HD 7770 |
|
|
|
|
|
|
|
AMD Radeon HD 7850 v1 |
|
|
|
|
|
|
|
AMD Radeon HD 7850 v2 |
|
|
|
|
|
|
|
AMD Radeon R7 260X |
|
|
|
|
|
|
|
AMD Radeon R9 270X |
|
|
|
|
|
|
|
NVIDIA GeForce GTX 650 Ti Boost |
|
|
|
|
|
|
|
NVIDIA GeForce GTX 750 Ti |
|
|
|
|
|
|
|
А – длина печатной платы, без учета системы охлаждения и планки портов видеовыходов.
В – ширина печатной платы, без учета контактов PCI-E и системы охлаждения.
С – высота от горизонтальной плоскости печатной платы до уровня верхней поверхности системы охлаждения.
D – диаметр вентилятора/ов по внешнему радиусу.
А1 – длина печатной платы, с учетом системы охлаждения (если выходит за пределы печатной платы) до планки портов видеовыходов.
В1 – ширина печатной платы, без учета контактов PCI-E, но с замером системы охлаждения (если выходит за пределы печатной платы).
С1 – высота, с учетом задней пластины (если есть)/винтов крепления радиатора до уровня верхней поверхности системы охлаждения. Если она ниже высоты задней планки портов видеовыходов, то измеряется высота до верхней точки планки.
Низкое энергопотребление позволило отказаться от крупной системы охлаждения и выпустить компактную печатную плату. Необходимо отметить, что партнеры могут анонсировать сразу две версии плат без дополнительного питания (для HTPC половинной высоты и без питания) и полноразмерную с питанием в расчете на оверклокеров.
Компания NVIDIA при разработке референсной модели отказалась от D-SUB, оставив пару DVI и mini-HDMI.
Печатная плата
Видеокарта GeForce GTX 750 Ti заменяет GTX 650 Ti (не Boost), по факту можно ожидать полного исчезновения линейки GTX 650. И правда, зачем продолжать выпуск плат на устаревшей архитектуре? Тем не менее, NVIDIA решила все же оставить простую версию GTX 650.
Схемотехника печатной платы максимально простая: 2+1 фаза питания. Никаких ультрасовременных DrMOS, все банально и просто. Разводка под разъем питания оставлена для партнеров, по замыслу инженеров, GTX 750 Ti должна разгоняться с ним еще больше.
Подходим к очень интересной особенности. Вы помните, что NVIDIA всегда ограничивает максимальное энергопотребление своих решений? Та же участь постигла и GTX 750 Ti. Но вместо 100+6% нам предложили всегда оставаться на 100%. Как так? Почему? Вспомним о максимальной отдаче слота PCI-e – 75 Вт. Официально новинка потребляет в среднем 60 Вт, а запас в 15 Вт не такой уж большой. Но теперь 100% означают не 60 Вт, а все 75 Вт. В компании разумно посчитали, что неплохо бы отдать пользователям весь лимит, обеспечиваемый слотом, а дальше пусть они сами им распоряжаются. Поэтому в тестах под 100% нагрузкой видеокарта съедала 60 Вт и требовала добавки, если дело заканчивалось разгоном.
Страницы материала
Лента материалов раздела
Соблюдение Правил конференции строго обязательно!
Флуд, флейм и оффтоп преследуются по всей строгости закона!
Комментарии, содержащие оскорбления, нецензурные выражения (в т.ч. замаскированный мат), экстремистские высказывания, рекламу и спам, удаляются независимо от содержимого, а к их авторам могут применяться меры вплоть до запрета написания комментариев и, в случае написания комментария через социальные сети, жалобы в администрацию данной сети.
Комментарии Правила