Ретроверсус — Radeon HD 4870 (RV770) vs. GeForce GTX 280 (GT200)
Введение
Если резюмировать описанную в предыдущих статьях цикла историю противостояния первого и второго поколений DX10-ускорителей ATI/AMD и NVIDIA, то можно утверждать, что микроархитектура TeraScale, использовавшаяся в продуктах первой компании, показала себя на фоне микроархитектуры Tesla от конкурента не с самой лучшей стороны, ведь топовые ускорители ATI/AMD, обладая более высокой теоретической производительностью, заметно уступали топовым продуктам конкурента в играх. И как мы уже неоднократно отмечали, причину такого положения дел, по всей видимости, стоит искать в том, что в рамках VLIW-подхода, использованного в TeraScale, высокая теоретическая эффективность зачастую оказывалась труднодостижимой в реальности, так как на практике часто невозможно получить поток инструкций, оптимальным образом использующий имеющиеся аппаратные блоки.
ATI/AMD, конечно, получалось навязывать конкуренцию близким по стоимости решениям NVIDIA, ведь те обычно были не только быстрее, но и дороже, однако, стоит понимать, что конкурентоспособные решения у ATI/AMD имелись лишь в предтоповом сегменте, в то время как топовые ускорители NVIDIA долгое время крыть было просто нечем. Да, во втором поколении DX10-решений у ATI/AMD таки появился ускоритель, который обходил топовые карты NVIDIA — Radeon HD 3870 X2 — вот только ускоритель этот был двухпроцессорным, а не стоит забывать о том, что такие решения проигрывали одночиповым по энергопотреблению и тепловыделению, а также требовали значительных затрат на оптимизацию драйверов и игр, которые имели место, мягко скажем, не всегда.
реклама
В свете вышесказанного может показаться ошибочным решение ATI/AMD не разрабатывать новую микроархитектуру для своих DX10-ускорителей третьего поколения, а продолжить работать в рамках VLIW-архитектуры TeraScale. Однако, здесь не всё так однозначно. Во-первых, за прошедшее с момента выпуска первых ускорителей микроархитектуры TeraScale время, у инженеров компании накопился огромный практический опыт в оптимизации драйверов в рамках VLIW-подхода. Во-вторых, благодаря в целом успешной конкуренции в наиболее массовых сегментах графическим решениям ATI/AMD удалось занять долю рынка достаточную для того, чтобы и разработчики игр начали оптимизировать свои творения под микроархитектуру TeraScale. И, наконец, в-третьих, имелся вполне очевидный способ увеличения практической производительности ускорителей TeraScale даже в рамках не самого высокого КПД этой архитектуры — нужны было попросту нарастит теоретическую мощность чипов, так чтобы даже при невысоком КПД, подросла бы и реальная производительность. Благо, более тонкий, чем у конкурента, 55-нм техпроцесс был уже успешно освоен, так что нарастить теоретическую мощность за счёт банального увеличения количества исполнительных блоков было вполне себе решением.
Итак, основной акцент при разработке нового чипа, получившего кодовое название RV770, который стал основой ускорителей Radeon HD 4850 и 4870, был сделан на наращивании вычислительной мощности чипа с целью получить на выходе значительно более производительный GPU без кардинальной переработки микроархитектуры. В первую очередь, исходя из соображений изложенных выше, в RV770 было решено увеличить число вычислительных блоков графического процессора, что при использовании всё того же (что и при производстве предыдущего чипа RV670) 55-нм техпроцесса, конечно же, обернулось увеличением площади кристалла. Впрочем, несмотря на значительный рост вычислительной мощности чипа — количество потоковых процессоров выросло в 2.5 раза, в размерах кристалл подрос не столь значительно — со 192 до 256 мм2. Этого удалось добиться благодаря многочисленным оптимизациям в невычислительной части чипа, размеры которой были существенно сокращены без потери функциональности.
реклама
Новый чип RV770 мог похвастаться аж целыми 10 SIMD-массивами против всего 4, имевшихся в распоряжении у RV670, при этом структура SIMD-массивов осталась прежней — каждый из них состоял из 16 блоков SPU, содержавших по 5 потоковых процессоров. Более подробно о различных уровнях организации чипов R600/RV670/RV770 можно почитать в самом первом материале на эту тему, посвящённом R600 (Radeon HD 2900 XT), так как этот микроархитектурный аспект оставался всё это время без изменений. Сами потоковые процессоры в RV770 так же не претерпели существенных изменений и по-прежнему представляли собой 32-битные скалярные АЛУ, способные, конечно же, производить вычисления и с 64-битными числами с плавающей точкой, но в значительно более медленном темпе.
Текстурные блоки (оранжевые прямоугольники на диаграмме выше) теперь, аналогично решениям NVIDIA начиная ещё с G80, были привязаны к SIMD-массивам потоковых процессоров — на каждый SIMD-массив приходилось по одному текстурному блоку, содержащему 4 модуля адресации текстур и столько же модулей фильтрации. Такой подход существенно увеличил число модулей адресации и фильтрации текстур — суммарно RV770 имел в своём составе 40 модулей адресации и 40 модулей фильтрации текстур, что опять же в 2.5 раза больше, чем было у RV670 (всего лишь по 16 указанных модулей). Правда, новые текстурные блоки стали несколько слабее, но благодаря их возросшему количеству и частоте удельная производительность новых TMU поднялась.
А вот блоков растеризации осталось, как и у предшественника, 16, впрочем, теперь они умели (почти во всех случаях) обрабатывать вдвое большее количество пикселей за такт. Кроме того, определение итогового цвета пикселя путём усреднения цветов всех соответствующих ему субпикселей при использовании стандартного алгоритма мультисемплинга (MSAA) теперь полностью осуществлялось за счет аппаратных возможностей блоков растеризации. Напомню, что в R600/RV670 соответствующие расчеты производились при помощи потоковых процессоров, что зачастую выливалось в значительное падение производительности при активации MSAA. Возросшая вдвое мощность блоков растеризации вкупе с аппаратной реализацией алгоритма MSAA существенно снизили стоимость этого популярного на тот момент типа сглаживания.
Значительные изменения в дизайне RV770 заметны и в подсистеме памяти. Во-первых, ATI/AMD отказались от так и не раскрывшей свой потенциал, но крайне непростой в реализации и, как следствие, дорогой кольцевой шины в пользу классической схемы с центральным хабом.
реклама
При этом недорогой 256-битный интерфейс (четыре 64-битных контроллера) обеспечивал вполне приличные цифры пропускной способности памяти — до 115 ГБ/с — благодаря использованию памяти нового стандарта GDDR5 с эффективной частотой до 3.6 ГГц. С одной стороны GDDR5-память стоила дороже, так что изначально даже флагманская HD 4870 оснащалась лишь 512 МБ памяти, с другой — для достижения подобных показателей ПСП со "старой" GDDR3-памятью пришлось бы использовать 512-битную шину, что сильно усложнило бы и чип, и печатную плату. Правда, стоит отметить, что GDDR5 памятью оснащался только старший ускоритель HD 4870, в то время как его "младший брат" HD 4850 вынужден был довольствоваться "старой" GDDR3-памятью с практически вдвое меньшей эффективной частотой.
Как можно видеть, новый чип RV770 стал результатом скрупулёзной работы над самыми серьёзными ошибками, допущенными при разработке R600 и неисправленными ранее в RV670. Причём, уже упомянутыми выше улучшениями список доработок не ограничивался. Были так же существенно переработаны блоки кэш-памяти и увеличена их пропускная способность, увеличилась скорость выполнения геометрических шейдеров и неграфических расчётов, была реализована сравнительно эффективная возможность вычислений двойной точности и многое-многое другое. Была, впрочем, во всей этой бочке мёда и ложка дёгтя — RV770 всё же был успешным исправлением крайне неудачно показавшим себя на практике дизайна R600/RV670, так что об абсолютной победе над решениями конкурента речи по-прежнему не шло — GeForce GTX 280 был впереди Radeon HD 4870. Впрочем, преимущество флагмана NVIDIA было не столь уж значительным, 10–30%, да и стоимость была минимум на те же 30% выше. Ну а с более близким по цене ускорителем NVIDIA, GeForce GTX 260, новый флагман ATI/AMD смотрелся уже в среднем на равных, незначительно уступая в одних играх и опережая в других. При этом ускоритель ATI/AMD стоил дешевле, не только GeForce GTX 280, но и GeForce GTX 260, что вынудит NVIDIA скорректировать цены на свои ускорители вскоре после выхода Radeon HD 4850 и 4870. При этом необходимо понимать, что снижение цен на GeForce GTX 260 и 280 весьма больно ударило по NVIDIA, ведь себестоимость этих карт была очень высока — сложная в реализации 448/512-битная шина памяти, не менее сложный и дорогой в производстве огромный чип GT200, производившийся по нормам 65-нм техпроцесса, и т.д.
Напомню, что основная задача нашего тестирования состоит в том, чтобы проверить пресловутое раскрытие потенциала DX10-ускорителей прошлого на дистанции. Ведь очень часто в обзорах новинок прошлых лет можно было встретить рассуждения о том, например, что полученные результаты отражают расстановку сил здесь и сейчас, а в будущем сложность шейдерных программ в играх будет расти, да и драйвера с играми будут лучше оптимизированы под VLIW-архитектуру TeraScale, так что имеющийся у ускорителей ATI/AMD потенциал, возможно, будет таки раскрыт. Вот только в будущем про "старичков" напрочь забывали, так как на фоне постоянных анонсов всё нового и нового "железа" было уже особо не до них, и тема раскрытия потенциала осталась, прошу прощения за тавтологию, нераскрытой. По поводу же результатов тестов прошлых лет необходимо сделать пару важных замечаний.
- Даже на момент выхода Radeon HD 4850 и 4870 значительная доля игровых и синтетических тестов всё ещё приходилась на проекты, использующие DirectX 9, так как DirectX 10 так и не набрал значительной популярности за прошедшие с момента выхода Windows Vista полтора года. Важно это потому, что сложность шейдерных программ в DirectX 9 проектах зачастую значительно ниже таковой в сравнении с проектами, использующими последующие версию этого API, так что расстановка сил в проектах "под" DirectX 10 и 11 может запросто быть иной. Кроме того, в тестах прошлых лет очень часто так же использовались исключительно очень высокие настройки качества, так что производительность ускорителей (особенно в высоких разрешениях) могла упираться не столько в производительность шейдерного блока, сколько в производительность других узлов. Так, например, в случае Radeon HD 4870, которая оснащалась лишь 512 МБ памяти, нетрудно заметить, что именно недостаточный объём памяти часто оказывался узким местом ускорителя ATI/AMD. Чуть позже на рынок будет выпущена версия Radeon HD 4870 с 1 ГБ видеопамяти на борту, и отставание от GeForce GTX 280 значительно сократится. К примеру, в популярных в те годы в русскоязычном сегменте Интернета тестах i3D-Speed от ресурса iXBT.com за январь 2009 года можно видеть, как 512 МБ версия ускорителя Radeon HD 4870 отстаёт от GeForce GTX 280 в среднем на внушительные 30%, а 1 ГБ вариант того же ускорителя ATI/AMD позади уже лишь на незначительные 10%.
- Важно так же понимать, что на дистанции значительно более сложная в плане максимально эффективного использования VLIW-архитектура ускорителей ATI/AMD эпохи TeraScale, должна была получать всё больше и больше преимуществ от оптимизации драйверов. При этом общеизвестен тот факт, что на большой дистанции относительная расстановка сил между ускорителями ATI/AMD и NVIDIA практически всегда меняется в пользу первых как раз по той причине, что первая компания в целом лучше конкурента "подтягивает" производительность своих решений путём оптимизации драйверов. Здесь, правда, необходимо сделать одно важное уточнение. Серьёзное увеличение относительной производительности ускорителей AMD на фоне решений NVIDIA отчётливо наблюдалось уже в эпоху микроархитектуры Graphics Core Next (GCN) и являлось по большей части следствием использования чипов на этой архитектуре в консолях 8-ого поколения (Xbox One и PlayStation 4). В эпоху TeraScale столь заметного роста относительной производительности ускорителей AMD по понятным причинам не наблюдалось, впрочем, небольшой эффект от менее частой кардинальной смены микроархитектуры всё же заметен. Как ни крути, но NVIDIA чаще меняет архитектуру своих GPU, так что оптимизация драйверов для актуальных ускорителей мало что даёт представителям предыдущих поколений, а AMD, напротив, долгое время эволюционным образом улучшает архитектуру своих графических решений, так что от оптимизаций драйверов даже для актуальных карт польза есть и для многих значительно более ранних моделей. Так, три поколения микроархитектуры TeraScale, использовавшейся в ускорителях ATI/AMD начиная с первых DX10-решений (2007) и вплоть до выхода первых ускорителей микроархитектуры GCN (2012), отличались между собой не столь значительно, как, например, ускорители микроархитектур NVIDIA Tesla (2006) и Fermi (2010).
реклама
Вот и давайте посмотрим, как же ситуация выглядит на дистанции. Компоненты тестового стенда, собранного для указанных целей, остались, естественно, без изменений с предыдущих обзоров:
- Материнская плата GIGABYTE Z390 GAMING SLI.
- Процессор i5-9600K в небольшом разгоне до 4.8 ГГц на все 6 ядер под недорогой СЖО ID-Cooling AURAFLOW X 360.
- Оперативная память 2x16 ГБ Ballistix Sport LT (BLS16G4D32AESE), разогнанная до 3733 МГц с первичными таймингами 16-20-20-40.
- Windows 10 2004, установленная на SSD WD Blue SN550, игры — на HDD Seagate Barracuda 3 TB ST3000DM008.
Помимо ускорителя Radeon HD 4870 от Sapphire, отличающегося от референсной карты лишь небольшим заводским разгоном (который, как обычно, был, впрочем, убран), для проверки влияния объёма видеопамяти на производительность был также протестирован ускоритель Radeon HD 4890 с 1 ГБ памяти на стоковых частотах HD 4870.
Radeon HD 4890 основан на чипе RV790, который является лишь незначительной модификацией RV770, поддерживающей более высокие тактовые частоты. Никаких архитектурных изменений в RV790 сделано не было, так что на равных частотах производительность Radeon HD 4870 и 4890 идентична.
Тесты
Unigine Tropics
3DMark Vantage
3DMark Cloud Gate
В традиционном наборе синтетических тестов флагман NVIDIA третьего поколения DX10-ускорителей незначительно впереди — ни о каких 30% преимущества речи не идёт, а в наиболее современном бенчмарке 3DMark Cloud Gate в одном из тестов в HD-разрешении GeForce GTX 280 оказался даже позади конкурента. Если подобная ситуация будет иметь место и в реальных играх, то можно будет однозначно утверждать о свершившемся раскрытии потенциала. :) Ах да, Unigine Tropics привычно выбивается из общей картины, демонстрирую сильно отличающиеся от других бенчмарков результаты, но, как мы уже неоднократно убеждались, результаты в этом синтетическом тесте далеки и от средних показателей в реальных играх, так что особого внимания им можно и не уделять.
Call of Juarez (Chrome Engine 3, 2007)
В Call of Juarez, известной своими симпатиями к адаптерам AMD, Radeon HD 4870 в целом немного впереди своего конкурента GeForce GTX 280, особенно на высоких настройках качества в HD-разрешении.
Far Cry 2 (Dunia Engine, 2008)
Во второй части Far Cry победа за GeForce GTX 280. Также в этой игре в FHD-разрешении на ультра-настройках со сглаживанием уже отчётливо проявляет себя нехватка 512 МБ видеопамяти у оригинального варианта HD 4870. А теперь представьте, что-бы мы получили, если бы из всех вариантов настроек для целей сравнения производительности был бы выбран лишь вариант ультра-настроек со сглаживанием в разрешении FHD? Полный разгром Radeon HD 4870 при более чем двукратном превосходстве GeForce GTX 280! Вот только это, мягко говоря, не вся картина.
S.T.A.L.K.E.R. Call of Pripyat (X-Ray Engine 1.6, 2009)
Во всё ещё крайней части серии игр S.T.A.L.K.E.R. победа привычно за "зелёной" картой, местами значительно опережающей "красного" конкурента. Так же в этой игре эффект от дополнительных 512 МБ видеопамяти для Radeon HD 4870 проявляется (в той или иной степени) практические на всех использованных настройках.
Metro 2033 (4A Engine, 2010)
Metro 2033, конечно, известна своей любовью к ускорителям ATI/AMD, но, признаюсь честно, столь откровенный разгром за вычетом ультра-настроек был неожиданным. Неожиданным до такой степени, что даже родились сомнения в правильности показателей GeForce GTX 280, так что было решено попытаться устранить все потенциальные источники ошибок.
- Все игровые бенчмарки, включая Metro 2033, были заново запущены на GTX 280. Никаких изменений.
- Была установлена Windows 7, и на ней были запущены все игровые бенчмарки, причём как на GTX 280, так и на HD 4870. Картина производительности ни в одной игре, включая Metro 2033, вновь не поменялась.
- Чтобы исключить неисправность ускорителя GTX 280, была куплена GTX 285, частоты которой были понижены до уровня GTX 280, на которой вновь были получены те же самые результаты.
Так что тут осталось, по большому счёту, два варианта — либо показатели на диаграмме выше таки верны, либо мне попались сразу два неисправных ускорителя GTX 280/285 (с таким везением третий можно и не брать). И вновь обратите внимание, что абсолютное большинство тестов в Интернете, которые мне удалось обнаружить были сделаны на очень высоких настройках качества, где у GTX 280 всё не так плохо. И да, показатели на диаграмме выше вполне соответствуют этим результатам из Интернета. Вот только это вновь, возможно, не вся правда. Ради интереса было решено также посмотреть, как обстоят дела в следующей части серии.
Metro Last Light (4A Engine, 2013)
Metro Last Light более требовательна по сравнению с первой частью, да и встроенный бенчмарк в игре значительно тяжелее, однако, на расстановку сил эти обстоятельства не влияют — GeForce GTX 280 по-прежнему отстаёт от Radeon HD 4870. Движок 4A Engine однозначно отдаёт предпочтение "красным" картам.
Total War Shogun 2 (TW Engine 3, 2011)
В Shogun 2 наблюдаем в целом идентичную Metro 2033 картину — при достаточном объёме памяти Radeon HD 4870 громит GeForce GTX 280 за вычетом варианта ультра-настроек в FHD-разрешении. Опять-таки, всё перепроверил и не раз, на моих картах картина вот такая. И да, следующая игра серии, Total War Rome II, также отдаёт явное предпочтение ускорителю Radeon, хотя, так же как и с играми серии Metro, из-за возросших требований 512 МБ вариант HD 4870 начинает отставать уже на средних настройках.
Total War Rome II (TW Engine 3, 2013)
Sniper Elite V2 (Asura Eingine, 2012)
Во второй части Sniper Elite однозначная победа, напротив, за ускорителем NVIDIA.
Hitman Absolution (Glacier 2, 2012)
Впереди GeForce GTX 280 оказался и в Hitman Absolution.
BioShock Infinite (Unreal Engine 3, 2013)
А вот в BioShock Infinite уже наблюдаем в целом паритет.
Tomb Raider (Crystal Engine, 2013)
В первой части перезапуска игр, посвящённых приключениям Лары Крофт, "зелёная" империя так же наносит ответный удар — GeForce GTX 280 оставляет Radeon HD 4870 сильно позади. Особенно большим разрыв получился на высоких настройках качества, где преимущество GTX 280 двукратное!
F1 2014 (EGO Engine, 2014)
Королева автоспорта так же предпочитает ускоритель NVIDIA, пускай и преимущество GeForce GTX 280 над Radeon HD 4870 в этой игре даже близко не двукратное, но оно есть и легко заметно.
Grand Theft Auto V (RAGE, 2015)
В GTA V "зелёный" ускоритель также быстрее конкурента, местами на вполне ощутимые 10 FPS.
Среднегеометрические результаты
Картина относительной производительности GeForce GTX 280 и Radeon HD 4870 по результатам игровых тестов получилась неоднородной: в S.T.A.L.K.E.R. Call of Pripyat, Sniper Elite V2 и Tomb Raider значительное преимущество на стороне ускорителя NVIDIA, в Metro 2033 и Total War Shogun 2, напротив, заметно вырывается вперёд уже "красная" карта, а в остальных играх наблюдается паритет или незначительное преимущество одного из конкурентов. В среднем же имеем следующие показатели.
Как можно видеть, Radeon HD 4870 если и заметно уступает GeForce GTX 280, то лишь на максимальных настройках качества, но и там преимущество "зелёной" карты составляет порядка 10%, если рассматривать ускорители с одинаковым объёмом памяти. Версия HD 4870 с 512 МБ на максимальных настройках качества отстала от GTX 280 на 30%, то есть никакого раскрытия потенциала в смысле изменения относительной производительности тестируемых ускорителей с годами не случилось. Впрочем, можно утверждать, что Radeon HD 4870 оно и не было особо нужно, ведь лишившись своего "бутылочного горлышка" в виде всего 512 МБ видеобуфера, этот ускоритель почти догнал флагман NVIDIA.
Таким образом, в третьем поколении DX10-ускорителей, ATI/AMD удалось максимально близко приблизиться к конкуренту даже в топовом сегменте. Если ранее GeForce 8800 GTX (G80) и GeForce 8800 GTS (G92) не оставляли Radeon HD 2900 XT (R600) и Radeon HD 3870 (RV670), соответственно, вообще никаких шансов, то Radeon HD 4870 практически догнал GeForce GTX 280, если сравнивать ускорители с одинаковым объёмом памяти. Причём для этого ATI/AMD не понадобилось полностью пересматривать архитектуру своих графических решений, оказалось достаточно лишь тщательно оптимизировать дизайн TeraScale, который на поверку оказался не так уж плох, если из него выкинуть все не очень нужные, но дорогие детали (вроде 512-битной шины памяти) и добавить шейдерных процессоров, держа в голове сравнительно невысокий КПД архитектуры.
Предыдущие обзоры
- GeForce 8800 GTX (G80)
- GeForce 8800 GTS (G80)
- Radeon HD 2900 XT (R600)
- GeForce 8800 GT (G92)
- GeForce 8800 GTS Core 112 (G80)
- Radeon HD 3870 (RV670)
- GeForce 8800 GTS (G92)
- GeForce 9600 GT (G94)
- GeForce GTX 280 (GT200)
Лента материалов
Соблюдение Правил конференции строго обязательно!
Флуд, флейм и оффтоп преследуются по всей строгости закона!
Комментарии, содержащие оскорбления, нецензурные выражения (в т.ч. замаскированный мат), экстремистские высказывания, рекламу и спам, удаляются независимо от содержимого, а к их авторам могут применяться меры вплоть до запрета написания комментариев и, в случае написания комментария через социальные сети, жалобы в администрацию данной сети.
Комментарии Правила