Обзор новой графической архитектуры NVIDIA GeForce 8800

для раздела Лаборатория

Немного истории

На протяжении всего 2006 года между гигантами графического рынка, компаниями ATI Technologies и NVIDIA, шла обычная война. В январе ATI анонсировала чрезвычайно удачный графический процессор R580, представлявший собой усовершенствованный R520. Несмотря на спорную на тот момент архитектурную концепцию, чип оказался очень успешным и вывел компанию в технологические лидеры. Ответ NVIDIA воспоследовал в марте – из "ангаров" выкатили наследник G70, графический процессор G71, позволивший восстановить паритет по производительности с конкурентом. Далее последовал еще один обмен ударами: в начале июня NVIDIA удалось укрепить свои позиции путем выпуска двухпроцессорной графической карты на базе G71, GeForce 7950 GX2, а несколько позже, в августе, ATI ответила на это анонсом Radeon X1950 XTX. Так или иначе, до сегодняшнего дня можно было говорить о примерном равенстве между ATI и NVIDIA – если Radeon X1950 XTX и уступал в производительности GeForce 7950 GX2, то выигрывал в качестве изображения и не имел проблем с совместимостью.

Как известно, в течение длительного периода NVIDIA, наращивая мощь своих графических процессоров, довольствовалась лишь эволюционными изменениями в их архитектуре. По сути, и G70, и G71 являются наследниками NV40, анонсированного более двух лет назад, 14 апреля 2004 года. Несмотря на значительно более высокую производительность, эти чипы наделены всеми основными чертами, свойственными их прародителю. Для своего времени NV40 был, несомненно, революционным решением, но, как показал пример ATI Technologies с ее линейкой Radeon X800/X850, до бесконечности совершенствовать старые технологии нельзя – рано или поздно наступает момент, когда резервы текущей архитектуры исчерпаны до дна, и из нее уже не удается выжать ни капли дополнительной производительности. Наглядным признаком такого исчерпания ресурсов в случае с NVIDIA стало ни что иное, как выпуск GeForce 7950 GX2, ведь для того, чтобы получить карту, превосходящую по производительности флагманское решение ATI Technologies, опирающееся уже на новую архитектуру, компании пришлось использовать два процессора G71.

Таким образом, необходимость в новой графической архитектуре назревала давно, и, разумеется, в стенах NVIDIA ковалось новое "чудо-оружие". Наконец, наступил день, который, по замыслу NVIDIA, должен стать переломным и вернуть компании корону технологического лидера. Пресловутым оружием, с помощью которого компания планирует нанести очередной удар по своему конкуренту, является новая, революционная в сравнении со своими предшественниками графическая архитектура GeForce 8, воплощенная в графическом процессоре GeForce 8800. Им и посвящен наш сегодняшний обзор.

DirectX 10

NVIDIA GeForce 8800 – первый в истории индустрии трехмерной графики чип, отвечающий требованиям стандарта DirectX 10, известного так же как WGF 2.0. В связи с выходом в свет первого DX10-совместимого GPU имеет смысл рассказать о возможностях и преимуществах DirectX 10.

Без преувеличения, DirectX является наиболее используемым и удобным API для создания игр на ПК и довольно быстрыми темпами захватывает мир игровых консолей – Microsoft Xbox имеют в своём составе гибридные Direct3D графические ускорители, Sony PlayStation 3 хоть и не использует Direct3D, несет на борту гибрид NVIDIA GeForce 6/7 и GeForce 8. Разумеется, что успех API от крупнейшего разработчика программного обеспечения не случаен: на протяжении десятка лет Microsoft фактически направляла прогресс аппаратной трёхмерной графики игрового класса, слушая как разработчиков аппаратного, так и программного обеспечения. После добавления поддержки очень длинных шейдеров и ряда других функций в DirectX 9 Shader Model 3.0, Microsoft дала возможность играм развиваться и далее, поставив самой себе новые задачи.

Основными целями, ставившимися перед Microsoft при разработке API следующего поколения – DirectX 10 – были:

  • Снизить зависимость от центрального процессора.
  • Предоставить разработчикам унифицированный набор инструкций для программирования пиксельных и вершинных шейдеров.
  • Увеличить функциональность пиксельных и вершинных шейдеров.
  • Предоставить разработчикам возможность создавать новые геометрические эффекты непосредственно в шейдере.
  • Дать возможность графическим процессорам управлять потоками данных внутри себя (stream-in/stream-out), увеличивая тем самым эффективность исполнения кода.
  • Увеличить эффективность работы с текстурами, максимальное разрешение текстур, поддержать новые форматы HDR и произвести другие эволюционные изменения.

По данным разработчиков графических чипов, с задачей Microsoft вполне справилась и новый API действительно получил огромное количество новых возможностей по сравнению с предшественниками.





Нововведения DirectX 10 заслуживают отдельной статьи с примерами, а потому далее мы сконцентрируемся на GPU GeForce 8800 и его текущих показателях.

Заря унифицированной архитектуры

За всю историю своего существования графические процессоры в том значении термина, которое мы все привыкли использовать, проделали немалый путь. Их эволюция началась с довольно простых устройств, вроде GeForce 256, обладавших довольно скромным набором фиксированных возможностей. Такие чипы еще нельзя было назвать графическими процессорами в полном смысле этого слова, так как они были неспособны к исполнению уникального программного кода. Первым по по-настоящему программируемым графическим чипом стал чип NVIDIA GeForce 3 (NV20), способный исполнять пиксельные и вершинные шейдеры стандарта DirectX 8.0.

В дальнейшем эволюция графических процессоров шла по пути наращивания возможностей их программирования, так что они могли исполнять все более сложные шейдерные программы. Со временем GPU превратились в практически универсальные вычислительные устройства, обладающие огромной вычислительной мощностью и за счет этого способные к визуализации самых замысловатых спецэффектов, какие только могла родить фантазия разработчика игр. С точки зрения производительности и универсальности они, с некоторыми оговорками, все больше напоминали обычные центральные процессоры: максимальная длина и сложность шейдерных программ росла с каждой новой версией DirectX, пока не стала практически неограниченной в Shader Model 3.0. Однако до некоторых пор всем GPU было присуще одно фундаментальное ограничение: деление исполнительных устройств для пиксельных и вершинных шейдеров Соответственно, любой графический процессор содержал в своем составе два отдельных набора блоков для обработки каждого вида шейдеров.

Такое разделение, хотя и имело ряд плюсов, негативно сказывалось на общей эффективности работы GPU, ведь в сценах, насыщенных пиксельными шейдерами, производительности имеющихся в наличии пиксельных процессоров могло не хватать, в то время как вычислительные мощности вершинных процессоров простаивали впустую, и наоборот. Следующий шаг в развитии GPU был очевиден – вышеописанную проблему дисбаланса могла решить только унификация шейдерных процессоров, при которой нагрузка между ними могла бы распределяться динамически, в зависимости от особенностей рассчитываемой в конкретный момент времени сцены. Новая разработка NVIDIA, графический процессор GeForce 8800 (G80), воплотил в себе эту концепцию в полной мере.

Надо сказать, что NVIDIA не является пионером в данной области – впервые графический чип с унифицированной архитектурой, известный под именем Xenos (кодовое название R500), был представлен компанией ATI Technologies в составе игровой консоли Microsoft Xbox 360. Он содержал 48 унифицированных шейдерных процессоров и в полной мере поддерживал возможности Shader Model 3.0 (а подчас и превосходил их). В определенном смысле его можно назвать предшественником героя сегодняшнего обзора.

GeForce 8800 в деталях: вычислительное ядро





Новая разработка NVIDIA, GeForce 8800 соответствует идеологии унификации в еще большей степени, нежели ATI Xenos. Сердцем нового чипа является универсальное вычислительное ядро, состоящее из 128 отдельных процессоров, причем это ядро работает на значительно более высокой частоте, нежели остальные блоки G80.

Потоковые процессоры сгруппированы по 16 штук в 8 блоков, каждый из которых оснащён четырьмя текстурными модулями и общим L1 кешем. Каждый блок представляет собой два шейдерных процессора (состоящего из 8 потоковых процессоров каждый), при этом все 8 блоков имеют доступ к любому из шести L2 кешей и к любому из шести массивов регистров общего назначения. Таким образом, обработанные одним шейдерным процессором данные могут быть использованы другим шейдерным процессором.

Стоит также отметить, что вышеописанная организация шейдерных процессоров, кешей и регистров общего назначения позволяет произвольно отключать шейдерные блоки и блоки из L2 кеша, регистров общего назначения и 64-битного контроллера памяти в случае производственных дефектов для получения "урезанных" решений, продающихся по более низкой цене.

За преобразование данных в формат FP32 отвечает блок, обозначенный на блок-схеме G80 как Input Assembler, а распределением ветвей кода и оптимизацией загрузки потоковых процессоров занимается блок Thread Processor.

Технология GigaThread является продвинутым аналогом технологии Ultra-Threading, использованной ATI в семействе Radeon X1000. GigaThread позволяет распределять шейдерные блоки на расчеты вершинных, геометрических и пиксельных шейдеров в соответствии с нагрузкой; при этом, если требуется и возможно, все типы шейдеров могут выполняться одновременно. Разумеется, процессор GigaThread также нацелен и на то, чтобы минимизировать простои шейдерных блоков процессора G80 во время выполнения чипом операций, связанных с выборкой текстур.

Каждый потоковый процессор способен одновременно выполнять набор попарно запускаемых скалярных операций типа MAD + MUL за такт (dual issue MAD+MUL instructions), а вычислительная мощность всего ядра составляет, по заявлениям NVIDIA, примерно 520 гигафлопс. Это более чем в два раза превышает показатели ATI R580, чья производительность, по словам ATI, составляет порядка 250 гигафлопс. Отсюда можно сделать интересный, хотя и небесспорный вывод. Как известно, каждый пиксельный процессор R580 содержит в своем составе 2 скалярных и 2 векторных ALU, а также блок управления исполнением ветви кода (branch execution unit), и, соответственно, способен исполнять до 4 инструкций за такт + 1 инструкция управления потоком. Следовательно, можно предположить, что эффективность одного поточного процессора (stream processor) G80 уступает эффективности одного пиксельного процессора R580, но в целом производительность G80 выше, за счет значительно большего числа вычислительных блоков (128 против 48) и более высокой частоты их работы. К сожалению, у нас нет подробных данных об устройстве отдельного потокового процессора G80. Мы знаем лишь, что он является полностью скалярным, в отличие от пиксельных процессоров архитектур предыдущего поколения, содержащих как скалярные, так и векторные ALU.

Любой из 128 потоковых процессоров G80 представляет собой обычное вычислительное устройство, способное работать с данными в формате с плавающей запятой. Следовательно, он не только способен обрабатывать шейдеры любого типа – вершинные, пиксельные или геометрические, но и использоваться для просчета физической модели или других расчетов, в рамках концепции Compute Unified Device Architecture (CUDA), причем, независимо от других процессоров. Иными словами, одна часть GeForce 8800 может заниматься какими-либо расчетами, а другая, к примеру, визуализацией их результатов, благо, поточная архитектура позволяет использовать результаты, полученные на выходе одного из процессоров в качестве источника данных для другого.





Эффективность работы с шейдерами, использующими динамическое ветвление, была улучшена в сравнении с ATI Radeon X1900: если последний способен оперировать "ветвями" размером 48 пикселей, то для GeForce 8800 эта величина составляет от 16 до 32 пикселей. В нашем арсенале тестовых средств есть способ проверить, насколько выросла эффективность исполнения ветвящихся пиксельных шейдеров, но об этом позже, в главе, содержащей результаты синтетических тестов.

GeForce 8800 в деталях: Lumenex Engine

Графический процессор G80 можно рассматривать как совокупность двух областей. Об одной из них, вычислительном ядре, было рассказано выше. Другой, не менее важной частью нового процессора является так называемый Lumenex Engine, ответственный за выборку и фильтрацию текстур, а также за полноэкранное сглаживание, поддержку HDR и вывод результата рендеринга на экран монитора. Иными словами, в данную область G80 входят текстурные кэши, интерфейс доступа к памяти, TMU и ROP.

На общей блок-схеме G80 видно, что 128 потоковых процессоров организованы в 8 групп по 16 процессоров в каждой. На каждую такую группу приходится 1 блок выборки и фильтрации текстур, состоящий из 4 TMU. Всего, таким образом, G80 содержит 32 TMU, каждый из которых устроен следующим образом:

Как видите, TMU содержит в своем составе 1 блок выборки и 2 блока фильтрации текстур. Скорость билинейной и анизотропной фильтрации 2х составляет по 32 пикселя за такт для каждого типа фильтрации, с такой же скоростью выполняется билинейная фильтрация текстур в формате FP16, а скорость анизотропной фильтрации FP16 2:1 составляет 16 пикселей за такт. Lumenex Engine в GeForce 8800 GTX работает на частоте 575 МГц, и, таким образом, теоретическая скорость заполнения сцены при одновременном использовании билинейной и анизотропной фильтрации 2х составляет 18.4 гигатексела в секунду.

Блоки растеризации, также являющиеся частью Lumenex Engine, сгруппированы в 6 разделов, каждый из которых может обрабатывать 4 пикселя (с 16 субпиксельными выборками) за такт, что в сумме дает 24 пикселя за такт при обработке значений цвета и Z. Если речь идет только о работе с Z-буфером, то число обрабатываемых значений увеличивается до 192 за такт в обычном режиме и до 48 за такт при использовании мультисэмплинга 4х.

Подсистема ROP поддерживает все виды сглаживания – мультисэмплинг, суперсэмплинг и сглаживание прозрачных поверхностей. В дополнение к стандартному набору режимов FSAA добавлены новые – 8x, 8xQ, 16x и 16xQ, о которых будет рассказано ниже. Сглаживание в форматах FP16 и FP32 поддерживается в полной мере, так что проблема, свойственная архитектурам GeForce 6 и GeForce 7, заключавшаяся в невозможности одновременного использования полноэкранного сглаживания и FP HDR, в GeForce 8 решена.

Подсистема доступа к памяти в GeForce 8800 обзавелась, по словам NVIDIA, новым контроллером, но в целом не претерпела значительных изменений по сравнению с семейством GeForce 7. Количество разделов выросло с 4 до 6, соответственно, общая ширина шины доступа к памяти возросла с 256 бит (4х64 бита) до 384 бит (6х64 бита). Была также добавлена поддержка GDDR4, хотя даже при использовании обычной памяти GDDR3 с частотой 900 (1800) МГц пропускная способность составляет 86.4 ГБ/сек. При таких параметрах нужды в высоких частотах, которые может предложить GDDR4, пока не наблюдается.





Новые режимы FSAA и анизотропной фильтрации

Создавая GeForce 8800, NVIDIA заботилась не только о производительности, но и о качестве изображения – свойстве, в котором предыдущие разработки компании зачастую уступали изделиям ATI Technologies. Изменения и улучшения коснулись как полноэкранного сглаживания, так и анизотропной фильтрации. Начнем с новых алгоритмов FSAA.

До появления GeForce 8800 наиболее качественным режимом полноэкранного сглаживания, поддерживаемым графическими решениями NVIDIA, был гибридный 8xS, сочетающий в себе свойства супер- и мультисэмплинга. Он обеспечивал великолепное сглаживание, но за использование суперсэмплинга приходилось расплачиваться чудовищным падением производительности, и режим практически всегда оказывался невостребованным, так как не позволял играть комфортно. Таким образом, максимальным пригодным к использованию на GeForce 7 режимом FSAA оставался стандартный мультисэмплинг 4x, в то время как ATI Radeon X1000 мог предложить пользователю мультисэмплинг 6х, менее качественный, нежели режим NVIDIA 8xS, но гораздо более пригодный к практическому применению.

Появление GeForce 8800 решило проблему отставания NVIDIA в области полноэкранного сглаживания применительно к одночиповым графическим картам. Во-первых, список доступных пользователю режимов сглаживания пополнился мультисэмплингом 8x, обозначенным в настройках драйверов ForceWare как 8xQ. Во-вторых, новый графический процессор получил поддержку трех новых режимов сглаживания – 8х, 16х и 16хQ, использующих так называемый метод Coverage Sampling Antialiasing (CSAA). О новом методе следует рассказать подробнее.

Использование мультисэмплинга 16x теоретически было возможно и ранее, но лишь появление CSAA позволило применять столь качественное сглаживание на практике, теряя в производительности приблизительно столько же, сколько и при использовании обычного мультисэмплинга 4х.

Главное отличие CSAA от привычного мультисэмплинга заключается в максимально возможном уменьшении количества смешиваемых сэмплов. Так, если в случае с MSAA (multi-sampling antialiasing) 16x количество сэмплов на каждый пиксел на экране будет равно 16, то в случае с CSAA их количество будет значительно меньше, что сокращает накладные расходы.

Так, следует обязательно отметить, что при использовании метода CSAA экономится только количество сэмплов цвета/Z, но не количество выборок на так называемой "сетке покрытия", так что процент попадания сэмплов в принадлежащий исходному пикселю треугольник значительно выше, нежели в случае классического MSAA 4х. Экономия на количестве выборок цвета оправдана, поскольку именно информация о цвете создает основную нагрузку на подсистему памяти, а деградация качества сглаживания в случае использования 4 выборок значений цвета/Z на пиксель при 16 coverage samples будет заметна лишь в отдельных случаях. Чаще всего в тех, когда контраст между очень небольшим сглаживаемым полигоном и фоном высок, так как 4 сэмплов может оказаться недостаточно для аккуратного усреднения цвета финального пиксела и качество сглаживания окажется близким к MSAA 4x.

Всего GeForce 8800 поддерживает 3 режима CSAA – 8x, 16x и 16хQ. Первые два режима оперируют 8 и 16 сэмплами покрытия, соответственно, при 4 сэмплах цвета/Z, а режим 16xQ является высококачественным и при выборке значения цвета/глубины использует 8 сэмплов. Таким образом, по качеству он наиболее приближен к классическому MSAA 16x.

Новый подход NVIDIA уменьшает расход памяти и экономит её пропускную способность, а, следовательно, позволяет получить более высокий уровень производительности, нежели при использовании полномасштабного мультисэмплинга 16х. Качество сглаживания при этом получается близким к последнему и значительно выше, чем обеспечивает пресловутый режим SLI AA 16x, известный своим эффектом "смазывания" текстур. По словам NVIDIA, производительность в режиме CSAA 16x лишь на 10%-20% ниже, чем в режиме MSAA 4x. Насколько это заявление соответствует реальному положению вещей, мы выясним позднее.

Что касается анизотропной фильтрации, то в GeForce 8800 был реализован алгоритм, в котором качество фильтрации не зависит от угла наклона плоскости текстуры. Он аналогичен алгоритму, используемому графическими картами ATI при включении опции High Quality AF, но, по словам NVIDIA, обеспечивает несколько более высокое качество фильтрации. Мы также собираемся проверить это утверждение в дальнейшем.

GeForce 8800: технические характеристики семейства

С учетом всех архитектурных нововведений, нет ничего удивительного в том, что новый графический процессор NVIDIA получился очень сложным – 681 миллион транзисторов, и это с учетом вынесенных в отдельный чип TMDS-трансмиттеров и RAMDAC! Для сравнения, количество транзисторов в современных настольных CPU составляет от 154 миллионов (AMD Athlon 64 X2) до 582 миллионов (Intel Core 2 Quad – Kentsfield), причем, большая их часть, в отличие от G80, приходится на кэш второго уровня. Рисковать при создании столь сложного чипа NVIDIA не стала и, в результате, для его производства был выбран хорошо проверенный временем 0.09-мкм техпроцесс TSMC. Несмотря на это, компании удалось достичь неплохого показателя по тактовым частотам и добиться устойчивой работы ядра G80 на частоте 575 МГц, а шейдерных процессоров – на частоте 1350 МГц.

На момент анонса в состав семейства GeForce 8800 вошли две графические карты – флагманская GeForce 8800 GTX стоимостью $599 и менее производительная, но более дешевая GeForce 8800 GTS, чья рекомендуемая цена установлена на уровне $449. Таким образом, даже старшая модель новой линейки заметно дешевле GeForce 7950 GX2, цена на которую в момент анонса была установлена на уровне $649. В связи с этим следует ожидать снижения цен на старшие модели GeForce 7 до уровня $300-$449.

Что касается доступности новых графических карт NVIDIA, то, по обещаниям разработчика, они должны были бы быть у ведущих поставщиков с момента анонса. Тем не менее, за два дня до формального запуска новой серии графических адаптеров NVIDIA решила отозвать графические платы GeForce 8800 GTX из-за якобы обнаруженной в них ошибки при производстве контрактным производителем. Согласно заявлениям компании, часть карт модели 8800 GTX несет на себе неправильный резистор, что, согласно неофициальной информации, приводит к визуальным артефактам в трехмерных приложениях. Мы можем подтвердить, что наша графическая карта GeForce 8800 GTX ранней ревизии вышла из строя после некоторого времени использования, однако, артефактов в 3D играх мы не видели, а основной проблемой стало, по всей видимости, отсутствие переключения между 2D и 3D режимами работы. Проблемы с одним единственным резистором вполне могут решаться "на местах" путём их перепайки по инструкции от разработчика. Однако компания NVIDIA решила отозвать, по крайней мере, часть карт 8800 GTX из каналов продаж, но не переносить срок запуска решений, доступность которых в момент формального начала продаж будет ниже предполагаемой. К счастью, проблем с GeForce 8800 GTS – удешевленной версии 8800 GTX – не обнаружена и возможность её приобрести в момент анонса, согласно заверениям NVIDIA, будет у всех желающих.

Однако вернемся к техническим характеристикам семейства GeForce 8800. Для удобства читателей мы свели характеристики наиболее производительных однопроцессорных графических карт в единую сравнительную таблицу:

Очевидно, что даже младшая модель, GeForce 8800 GTS, практически по всем параметрам превосходит как GeForce 7900 GTX, так и Radeon X1950 XTX. Стоит, однако, отметить, что флагман линейки ATI Radeon X1950 обладает столь же высокой пропускной способностью подсистемы памяти: в одном случае мы видим использование 320-битной шины памяти и дорогой разводки, в другом – применение недешевой GDDR4 и более простой разводки печатной платы для 256-битной шины памяти.

Относительно GeForce 8800 GTX можно лишь сказать, что этот графический адаптер не имеет себе равных, если рассматривать технические характеристики. Насколько успешно он дебютировал, покажут результаты игровых тестов, а мы пока познакомим наших читателей с конструкцией нового продукта, созданного NVIDIA.

GeForce 8800 GTX: дизайн печатной платы

Само собой разумеется, что воплощение столь сложной конструкции, как GeForce 8800 GTX, потребовало разработки новой, уникальной печатной платы. Такие факторы, как высокий уровень энергопотребления G80, применение отдельного чипа, содержащего TMDS-трансмиттеры и RAMDAC, а также использование 384-битной шины памяти привели к тому, что карта получалась очень габаритной:

Чтобы получить представление о том, насколько огромен новый видеоадаптер NVIDIA, взгляните на следующий снимок:

Как видите, по длине плата GeForce 8800 GTX значительно превосходит Radeon X1900 XTX – 27.9 против 23 сантиметров, и, видимо по этой причине, разъемы питания были перенесены с задней стороны PCB на верхнюю, дабы избежать проблем с подключением в недостаточно длинных корпусах. Так как большую часть платы с расположенными на ней элементами закрывает массивная система охлаждения, для того, чтобы получить доступ к техническим секретам GeForce 8800 GTX, нам пришлось ее демонтировать, для чего потребовалось открутить 11 больших подпружиненных и 8 малых болтов. Лишь после этого новинка предстала перед нами в "обнаженном" виде:

Большую часть – более трети всей платы – занимает мощная система питания, способная прокормить чип, состоящий из 681 миллиона транзисторов и по уровню энергопотребления конкурирующий с современными CPU верхней ценовой категории. Вопрос питания мощных графических карт всегда рассматривался NVIDIA тщательно; не стала исключением и GeForce 8800 GTX. Для ее использования система должна быть оснащена блоком питания мощностью не менее 450 Ватт, способным обеспечивать суммарный ток не менее 30А по напряжению 12В, то есть, каждая из его виртуальных линий 12В должна выдерживать нагрузку, как минимум, 15А без срабатывания защиты. К карте необходимо подключать оба разъема питания PCI Express, в противном случае, она, в зависимости от подключенного разъема, либо не запустится, издав громкий предупредительный сигнал, либо запустится в режиме пониженных частот.

В правом нижнем углу можно видеть стандартный пьезодинамик, отвечающий за подачу вышеупомянутого сигнала, а также четырехконтактный разъем для подключения вентилятора системы охлаждения. Несколько выше видно место для установки шестиконтактного разъема, имеющего, по всей видимости, технологическое назначение.

Сердцем схемы питания является многофазный ШИМ-контроллер Primarion PX3540, расположенный с обратной стороны PCB.

Остальная часть платы, на которой расположены GPU и память, выглядит на удивление просто и не содержит никаких интересных деталей, кроме небольшой микросхемы в упаковке FCBGA с открытым кристаллом, маркированным, как NVIO-1, ревизии A3.

Так как NVIDIA решила не интегрировать в состав и без того сложнейшего графического процессора G80 TMDS-трансмиттеры и RAMDAC, эти традиционно интегрированные компоненты были вынесены в отдельный специализированный чип.

Такой шаг не только избавил RAMDAC от возможных помех, создаваемых шейдерными процессорами, работающими на частоте 1.35 ГГц, но также позволил повысить эффективность производства нового GPU, хотя и несколько усложнил разводку печатной платы. Помимо всего прочего, внешний чип NVIO может служить и для каких-либо других целей, кроме вывода изображения. В некотором роде, использование NVIO это возврат к корням, ведь некогда все графические карты использовали внешний RAMDAC.

История любит повторяться: в последний раз упаковка графического процессора с металлической крышкой-теплораспределителем применялась NVIDIA в NV35; впоследствии, с выпуском NV40, компания от нее отказалась, ограничившись защитной металлической рамкой вокруг ядра. Высокий уровень энергопотребления, неоднородность тепловыделения разными частями нового графического чипа, работающими на существенно различающихся тактовых частотах, вынудил NVIDIA вернуться к идее теплораспределителя, и, в результате, G80 стал внешне напоминать современные процессоры Intel и AMD.

Использование дизайна с крышкой позволило организовать гарантированное рассеивание тепла по всей площади чипа, надежный отвод тепла, а также значительно снизить риск повреждения хрупкого кристалла. Так как система охлаждения GeForce 8800 довольно массивна, во избежание излишней нагрузки на чип, могущей его повредить, а также для обеспечения более равномерной нагрузки на PCB, вокруг GPU установлена металлическая окантовка, крепящаяся непосредственно к печатной плате посредством 8 малых болтов.

Маркировка процессора не содержит ни его кодового имени, ни официального названия. Все, что мы видим, это обновленный логотип NVIDIA. Из маркировки также можно узнать дату изготовления и ревизию чипа – в нашем случае это 37 неделя текущего года, приходящаяся на период между 11 и 17 сентября. На этот момент NVIDIA уже располагала полностью работоспособными экземплярами G80 ревизии A2, то есть, третьей по счету.

Тактовая частота графического ядра GeForce 8800 GTX составляет 575 МГц, что уже является отличным достижением для кристалла, произведенного с использованием 0.09-мкм техпроцесса и состоящего из 681 миллиона транзисторов. Но, как мы уже знаем, и это не предел: шейдерные процессоры в старшем варианте GeForce 8800 функционируют на частоте 1350 МГц. С этой точки зрения архитектура G80 напоминает архитектуру Intel NetBurst, где частота работы ALU в два раза превышает базовую.

Привычное расположение микросхем памяти полукругом, при котором часть чипов установлена под углом 45 градусов, было изменено на более простое: 12 чипов GDDR3 расположены вокруг GPU тремя ровными рядами – двумя вертикальными и одним горизонтальным. Поскольку каждый чип имеет организацию 16Mx32, общая ширина шины доступа к памяти составляет 384 бита. В случае с менее производительной моделью, GeForce 8800 GTS, из 12 микросхем на плату устанавливается только 10, что ограничивает ширину шины до 320 бит.

Чипы K4J52324QE-BJ1A произведены Samsung и представляют собой RoHS-версию широко распространенных чипов серии K4J52324QC. Их описание пока отсутствует на сайте компании-производителя, но, судя по всему, перед нами все те же микросхемы с напряжением питания 2.0В, способные работать на частотах вплоть до 900 (1800) МГц. На этой частоте память GeForce 8800 GTX и работает. Использование 384-битной шины доступа позволило NVIDIA избежать необходимости применения более редкой и дорогой памяти GDDR4, и, вместе с тем, обеспечить внушительную пропускную способность на уровне 86.4 ГБ/сек.

В верхнем левом углу PCB расположены две "гребенки" интерфейса MIO. Вариантов здесь несколько: либо подразумевается двунаправленная передача данных, либо увеличение пропускной способности MIO за счет одновременного использования обеих интерфейсов, встроенных в GPU, либо в дальнейшем планируется работа четырех отдельных карт GeForce 8800 GTX в составе комплекса Quad SLI.

Несмотря на то, что такого монстра в составе домашнего ПК трудно себе представить – 8 разъемов питания, потребляемая мощность свыше 500 Ватт – данный вариант кажется нам наиболее правдоподобным. Этому есть простое и довольно логичное доказательство: младший представитель новой линейки, GeForce 8800 GTS, оснащен лишь одним разъемом MIO, и вряд ли NVIDIA пошла бы на уменьшение эффективности тандема SLI, состоящего из двух таких плат просто так, ради мизерной экономии. Quad SLI – совсем другое дело. Эта платформа изначально является экстремальной и нацелена исключительно на узкую группу пользователей, желающих получить максимально возможную производительность, не считаясь со сколь угодно высокой ценой. Следовательно, в своем стремлении к скорости такие пользователи будут приобретать именно GeForce 8800 GTX, а не более дешевый GeForce 8800 GTS, которому, таким образом, возможность работы в составе Quad SLI становится попросту ненужной.

Что касается конфигурации внешних разъемов, то она стандартна – два порта DVI-I, разумеется, с поддержкой dual-link и HDCP, и универсальный семиконтактный порт S-Video/YPbPr. Функциональности VIVO карта лишена, но в наши дни эта возможность уже неактуальна.

GeForce 8800 GTX: конструкция системы охлаждения

Теперь давайте рассмотрим систему охлаждения GeForce 8800 GTX. Предельно ясно, что она должна быть способной рассеивать такое же количество тепла, что и самые современные процессорные кулеры, но при этом оставаться достаточно компактной: в отличие от процессорного, графическому кулеру расти практически некуда, он ограничен габаритами видеоадаптера. Как же NVIDIA вышла из положения?

Сегодня очевидно, что система охлаждения современного графического адаптера должна обеспечивать отвод горячего воздуха за пределы корпуса системы – ведь лишние 120-150 Ватт тепла, рассеиваемые внутри корпуса, отнюдь не способствуют улучшению и без того напряженной тепловой обстановки, особенно, если система укомплектована мощным CPU. И если системы охлаждения, разработанные ATI Technologies, используют этот принцип еще со времен Radeon X850, то NVIDIA до сегодняшнего дня следовала ему лишь частично (если не считать печально известной системы охлаждения GeForce FX 5800 Ultra). Как известно нашим читателям, кулер GeForce 7900 GTX отводит за пределы корпуса лишь часть нагретого воздуха, а кулер GeForce 7950 GX2 не делает и этого в силу двухплатной конструкции самой карты. Разрабатывая новую систему охлаждения для семейства GeForce 8800, NVIDIA постаралась учесть старые недостатки и избавиться от них. Вот, что получилось в результате:

Больше всего новый кулер напоминает конструкцию, которая устанавливалась некогда на GeForce 6800 Ultra, но увеличенную в размерах и развернутую на 180 градусов таким образом, чтобы горячий воздух выбрасывался наружу через прорези в крепежной планке видеоадаптера, а не внутрь корпуса системы. Разумеется, здесь применена более сложная конструкция, по сравнению с GeForce 6800 Ultra, так как G80 выделяет значительно больше тепла, нежели NV40. К немалому нашему удивлению, NVIDIA решила не использовать медный радиатор, как это сделала ATI Technologies. Сквозь прорези в кожухе видно, что радиатор, как и прежде, набран из тонких алюминиевых пластин. Демонтировав кожух кулера, мы увидели следующую картину:

Как видите, здесь применена та же компоновка, что и в системе охлаждения ATI Radeon X1950 XTX: тепловой поток, генерируемый GPU, отбирается массивным медным основанием и при помощи тепловой трубки равномерно распределяется по радиатору, что значительно улучшает эффективность теплоотвода.

Основание, радиатор и вентилятор установлены на легкой алюминиевой раме, имеющей выступы в местах контакта с чипами памяти, кристаллом чипа, содержащего TMDS-трансмиттеры и RAMDAC, а также корпусами сильно нагревающихся ключевых МОП-транзисторов системы питания. Во всех случаях в качестве теплопроводящих прокладок используются традиционные для графических карт NVIDIA подушечки из неорганического волокна, пропитанные белой термопастой. В месте контакта медной подошвы с крышкой GPU нанесен слой темно-серой густой термопасты, также хорошо знакомой нашим читателям по многочисленным обзорам мощных видеоадаптеров. Рама имеет прямоугольные прорези в районе вентилятора, что позволяет несколько улучшить охлаждение силовых элементов и PCB путем забора воздуха через эти прорези.

За продувку радиатора отвечает радиальный вентилятор, так называемый "бловер", обладающий двумя преимуществами – во-первых, создаваемый им воздушный поток изначально направлен перпендикулярно оси вращения крыльчатки, а во-вторых, статическое давление потока выше, нежели развиваемое классическим осевым вентилятором той же мощности. При данной компоновке системы охлаждения радиальный вентилятор является оптимальным выбором, позволяющим осуществлять эффективный продув длинного радиатора с малым шагом ребра, имеющего высокое аэродинамическое сопротивление.

Потребляемый ток примененного конструкторами NVIDIA вентилятора составляет 0.48А при напряжении питания 12В, что дает мощность порядка 5.8 Ватт. Скорее всего, при работе вентилятора на максимальных оборотах уровень шума, создаваемый крыльчаткой, был бы невыносимым, но будем надеяться, что система управления оборотами вентилятора, установленная на GeForce 8800 GTX, покажет себя с лучшей стороны.

В целом, система охлаждения NVIDIA GeForce 8800 GTX представляет собой логичную, законченную конструкцию, рассчитанную на охлаждение даже столь мощного чипа, как G80. Несколько настораживает лишь использование в конструкции главного радиатора алюминия вместо меди, что может обернуться на практике необходимостью работы вентилятора на повышенных оборотах, а, следовательно, и повышенным уровнем шума. Мы проверим это предположение в следующей главе нашего обзора.

GeForce 8800 GTX: шумность и уровень энергопотребления

Для оценки уровня шума, генерируемого системой охлаждения NVIDIA GeForce 8800 GTX, был использован цифровой шумомер Velleman DVM1326 с разрешающей способностью 0.1 дБ. Измерения производились с использованием взвешенной кривой А. На момент проведения замеров, фоновый уровень шума в лаборатории составил 36 дБА, а уровень шума на расстоянии одного метра от работающего стенда, оснащенного графической картой с пассивным охлаждением, был равен 40 дБА. В результате проведенных измерений были получены следующие данные:

Несмотря на наши опасения, уровень шума, создаваемый новым кулером NVIDIA, оказался весьма невысоким. По этому параметру GeForce 8800 GTX сопоставима с GeForce 7900 GTX, которая является одной из самых тихих графических карт. Новинка работает практически бесшумно во всех режимах, а система управления оборотами вентилятора напоминает о своем существовании лишь первые несколько секунд после включения системы. С учетом того, что система охлаждения GeForce 8800 GTX должна эффективно рассеивать свыше 130 Ватт тепла, это великолепный результат. Остается только поаплодировать инженерам NVIDIA, которым удалось повторить отличные шумовые характеристики кулера GeForce 7900 GTX в рамках гораздо более жесткого теплового пакета GeForce 8800 GTX.

К сожалению, нам не удалось провести замеры уровня энергопотребления GeForce 8800 GTX. Специально оборудованный для этой цели тестовый стенд на базе модифицированной системной платы Intel Desktop Board D925XCV оказался несовместимым с новой графической картой NVIDIA. Система включалась, успешно проходила инициализацию и начинала загружаться, но карта не выдавала видеосигнала на монитор. Таким образом, в вопросе энергопотребления GeForce 8800 GTX нам придется опираться на цифры, приведенные NVIDIA.

Если верить официальным данным, то ничего экстраординарного в области энергопотребления GeForce 8800 GTX не демонстрирует. 145.5 Ватт в режиме максимальной нагрузки – показатель, которого вполне можно было ожидать от чипа, использующего 0.09-мкм техпроцесс и состоящего из 681 миллиона транзисторов, значительная часть из которых работает на частоте 1.35 ГГц. Оснований для беспокойства нет: как мы уже выяснили, система охлаждения, примененная NVIDIA, вполне справляется с такой нагрузкой, демонстрируя при этом более чем приемлемые шумовые характеристики.

GeForce 8800 GTX: разгон

С самого начала известные нам характеристики GeForce 8800 GTX, такие как сложность PCB, техпроцесс, тактовые частоты G80 и количество составляющих его транзисторов, не внушали надежды на сколько-нибудь заметный разгон. По предварительным прикидкам выходило, что разгонный потенциал у столь сложного графического адаптера должен быть близок к нулю.

Однако, как это нередко бывает, реальность опровергла теоретические построения, и нам удалось поднять основную частоту графического ядра с 575 до 625 МГц, при которой карта работала вполне устойчиво длительное время. Увы, мы точно не знаем, выросла ли при этом частота шейдерных процессоров и, если выросла, то насколько. В случае пропорционального увеличения тактовой частоты потоковыми процессорами, их скорость должна была бы составить 1467МГц при разгоне на величину чуть более 8%, и не факт, что такое увеличение частоты не влияет существенно на тепловые характеристики графического чипа. Впрочем, также не исключено, что тактовая частота потоковых процессоров является жестко зафиксированным на отметке 1350 МГц параметром, не поддающимся изменению.

Частоту памяти удалось поднять на ту же величину, 50 МГц, разогнав ее с 900 (1800) до 950 (1900) МГц. С учетом 384-битной шины доступа, усложнившей разводку PCB и того факта, что номинальная для этих чипов частота была превышена, даже такой результат является неплохим. Так или иначе, GeForce 8800 GTX поддается разгону даже без применения экстремальных средств, таких, как модификация схемы питания и без замены штатной системы охлаждения на более мощную водяную или даже криогенную.

Теперь, наконец, пора перейти к результатам тестов новой графической архитектуры.

Конфигурация тестовой платформы и методы тестирования

Сравнительное исследование производительности GeForce 8800 GTX проводилось на платформах, имевших следующую конфигурацию.

  • Процессор: AMD Athlon 64 FX-60 (2 x 2.60ГГц, 2 x 1МБ L2)
  • Системная плата:
    • Abit AN8 32X (nForce4 SLI X16) для карт NVIDIA GeForce
    • Asus A8R32-MVP Deluxe (ATI CrossFire Xpress 3200) для карт ATI Radeon
  • Память: OCZ PC-3200 Platinum EL DDR SDRAM (2x1ГБ, CL2-3-2-5)
  • Жесткий диск: Maxtor MaXLine III 7B250S0 (Serial ATA-150, буфер 16МБ)
  • Блок питания Enermax Liberty 620W (ELT620AWT, номинальная мощность 620W)
  • Монитор: Samsung SyncMaster 244T (24”, максимальное разрешение 1920х1200@75 Гц)
  • Microsoft Windows XP Pro SP2, DirectX 9.0c
  • ATI Catalyst 6.10
  • NVIDIA ForceWare 96.97 Release Candidate.

Драйверы были настроены таким образом, чтобы обеспечивать максимально высокое качество текстурной фильтрации:

ATI Catalyst:

  • Catalyst A.I.: Standard
  • Mipmap Detail Level: High Quality
  • Wait for vertical refresh: Always off
  • Adaptive antialiasing: Off
  • Temporal antialiasing: Off
  • High Quality AF: On
  • Остальные настройки: по умолчанию

NVIDIA ForceWare:

  • Texture Filtering: High quality
  • Anisotropic sample optimization: Off
  • Trilinear optimization: Off
  • Force mipmaps: None
  • Threaded optimization: Auto
  • Gamma correct antialiasing: On
  • Transparency antialiasing: Off
  • Vertical sync: Force off
  • Остальные настройки: по умолчанию

Так как мы имеем дело с абсолютно новой графической архитектурой, то прежде чем перейти к тестированию GeForce 8800 GTX в играх, мы решили провести несложное теоретическое исследование. Это позволило нам узнать о сильных и слабых сторонах архитектуры NVIDIA GeForce 8800. Для этого были использованы следующие тесты:

  • Marko Dolenc’s Fillrate Tester
  • Xbitmark version 0.65
  • Futuremark 3DMark05 build 1.2.0
  • Futuremark 3DMark06 build 1.0.2

Качество FSAA и анизотропной фильтрации

Прежде чем перейти к вопросам производительности GeForce 8800 GTX в теоретических тестах, мы провели небольшое исследование на тему качества сглаживания и анизотропной фильтрации, обеспечиваемого новыми графическими решениями NVIDIA.

Следует сказать, что механизм управления режимами полноэкранного сглаживания был улучшен в новой версии ForceWare. В окне выбора Antialiasing – Mode появилась опция Enhance the application setting. Она служит для тех случаев, когда игра обладает поддержкой FSAA и позволяет включать сглаживание своими средствами, но ее настройки ограничены стандартным набором режимов – 2х, 4х, и, иногда, 8x. Если опция Enhance the application setting не включена, выбор режима 8x в игре приведет к активации MSAA 8x, а не CSAA 8x. В случае же активации вышеупомянутой опции в панели управления ForceWare, драйвер получает возможность определять, включено ли сглаживание в настройках игры и заменить FSAA 2x/4x режимом CSAA, выбранным из списка опции Antialiasing – Setting: 8x, 16x или 16xQ.

Этот механизм предназначен для обеспечения лучшей совместимости и стабильности в тех играх, которые позволяют включать FSAA, но ограничены стандартным набором режимов. Если игра не обладает настройками сглаживания вообще, следует использовать режим Override any application setting, но в некоторых случаях агрессивное форсирование FSAA может привести к появлению визуальных артефактов, нестабильности или даже невозможности запуска игры. Все скриншоты, использованные в этом исследовании, были получены в режиме Enhance the application setting, так как проверка с помощью ATI TheCompressonator показала их полную попиксельную идентичность скриншотам, сделанным в режиме Override any application setting.

Разумеется, в первую очередь нас интересовал новый алгоритм CSAA, но мы также уделили внимание новому режиму 8xQ, использующему, в отличие от режима 8xS, "чистую" методику MSAA. Итак, начнем по порядку:

MSAA 4x/8x против CSAA 8x
Half-Life 2
MSAA 4x MSAA 8x CSAA 8x
Elder Scrolls: Oblivion
MSAA 4x MSAA 8x CSAA 8x

Отличия между классическим MSAA 8x и CSAA 8x, использующим 4 сэмпла цвета/Z на пиксель, малы и заметить их невооруженным глазом практически невозможно. Более тщательное исследование полученных скриншотов при помощи утилиты ATI TheCompressonator показало, что отличия все же имеют место быть. Ярче всего проявляются они именно там, где и предполагалось – в областях высокого контраста, например, в верхнем левом углу скриншота из Half-Life 2, в котором часть проволочного ограждения находится на фоне ярко освещенной стены. Под увеличением хорошо видно, что режим 8xQ обеспечивает лучшую точность вычисления цвета результирующего пикселя, в результате чего, сглаживание выглядит более равномерным на всем отрезке ограды.

В свою очередь, преимущества CSAA 8x над MSAA 4x крайне невелики и выражаются, главным образом, в незначительном улучшении качества сглаживания микрогеометрии – тросов, арматуры и т.д.

CSAA 8x против суперсэмплинга и SLI AA 8x
Half-Life 2
CSAA 8x Supersampling SLI AA 8x
Elder Scrolls: Oblivion
CSAA 8x Supersampling SLI AA 8x

При сравнении режима CSAA 8x с гибридным режимом 8xS в глаза бросается общая сглаженность сцены, демонстрируемая последним – эффект использования суперсэмплинга. За счет того, что суперсэмплинг изначально оперирует с большим количеством текстурных сэмплов, сглаженными оказываются не только края полигонов, но и проволочный забор в Half-Life 2, хотя переплетения проволоки полигонами не являются, а представляют собой полупрозрачную текстуру. Оба режима обеспечивают достаточно высокое качество сглаживания, но следует учитывать, что в режим 8xS, во-первых, несколько размывает текстуры, что может негативно сказаться на качестве передачи мелких деталей в сцене, а во-вторых, чрезвычайно ресурсоемок и приводит к огромному падению производительности.

Относительно режима SLI AA 8x можно сказать, что он сопоставим по качеству с CSAA 8x, хотя и предпринимает попытки сглаживания полупрозрачных текстур. В любом случае, он доступен только при наличии в системе двух графических карт, объединенных в тандем SLI, и не представляет интереса для владельца одиночной карты. К счастью, благодаря нововведениям NVIDIA, такие пользователи не останутся без возможности выбора, как это было в случае с решениями предыдущего поколения на базе архитектуры GeForce 7.

MSAA 4x/8x против CSAA 16x/16xQ
Half-Life 2
MSAA 4x MSAA 8x
CSAA 16x CSAA 16xQ
Elder Scrolls: Oblivion
MSAA 4x MSAA 8x
CSAA 16x CSAA 16xQ

Главным и наиболее настойчиво рекламируемым преимуществом CSAA является его низкая ресурсоемкость по сравнению с классическим мультисэмплингом. По словам NVIDIA, производительность в режиме CSAA 16x будет лишь незначительно ниже, нежели при использовании MSAA 4x. О сравнении производительности мы поговорим позже, а вот вопрос качества выясним сразу.

Если сравнивать MSAA 4x и CSAA 16x, то последний обеспечивает заметно лучшую точность сглаживания, особенно на мелких деталях сцены, поскольку использует в 4 раза больше выборок покрытия (coverage samples). А вот информацию о цвете он сохраняет так же, как и MSAA 4x, и поэтому сглаженные края полигонов могут выглядеть не столь идеально, как это могло бы быть при MSAA 16x.

Столь качественный режим мультисэмплинга был бы чересчур экстремальным даже для GeForce 8800 GTX, но сравнить CSAA 16x и MSAA 8x мы можем. В этом случае разница значительно меньше, и ее довольно трудно выявить даже при помощи TheCompressonator, но, опять-таки, MSAA 8x рассчитывает финальное значение цвета пикселя точнее, чем CSAA 16x, при этом, в отличие от MSAA 4x, практически не страдая от ошибок определения принадлежности пикселя к сглаживаемому полигону. MSAA 8x определенно выглядит предпочтительнее CSAA 16x с точки зрения качества изображения, но при этом не стоит забывать и о производительности.

Еще труднее выявить разницу между CSAA 16x и CSAA 16xQ, более полно сохраняющим информацию о цвете/глубине (8 сэмплов вместо 4), но, определенно, именно CSAA 16xQ является наиболее качественным режимом сглаживания, который сегодня можно получить, располагая одиночной графической картой.

CSAA 16x/16xQ против SLI AA 16x
Half-Life 2
CSAA 16x CSAA 16xQ SLI AA 16x
Elder Scrolls: Oblivion
CSAA 16x CSAA 16xQ SLI AA 16x

Ситуация аналогична описанной выше для режимов CSAA 8x, FSAA 8xS и SLI AA 8x, но основные симптомы выражены более ярко. Режим SLI AA 16x сглаживает полупрозрачные поверхности, такие как листья и проволочные заборы, но также приводит к некоторому "замыливанию" сцены в целом и, иногда, потере мелких деталей, таких как рельеф каменной кладки в Oblivion. Кроме того, SLI AA 16x требует наличия двух карт, в то время как обеспечивающий более высокую четкость CSAA 16xQ без проблем работает и на одном GeForce 8800, за что заслуженно получает титул наиболее качественного режима сглаживания, доступного на одиночных картах.

Помимо анализа качества новых режимов полноэкранного сглаживания, представленных в GeForce 8800, мы также решили сравнить качество анизотропной фильтрации, обеспечиваемое флагманскими решениями ATI и NVIDIA. Представители семейства GeForce 7 были исключены из рассмотрения сразу, как несоответствующие высоким стандартам качества изображения, а у Radeon X1950 XTX была включена опция High Quality AF.

Анизотропная фильтрация
G80 R580
Quality High Quality High Quality

NVIDIA GeForce 8800 использует новый алгоритм анизотропной фильтрации всегда, независимо от того, включены или выключены оптимизации, и какой режим фильтрации активирован – High Quality или Quality. В последнем случае переходы между mip-уровнями вырождены и качество фильтрации не очень высоко, но, тем не менее, от угла наклона плоскости фильтруемой текстуры оно практически не зависит.

В режиме High Quality качество анизотропной фильтрации, демонстрируемое GeForce 8800 GTX, практически идеально и лишено каких-либо заметных изъянов. Оно даже выше, нежели то, которое обеспечивает Radeon X1950 XTX, прежний признанный лидер в этой области. На диаграмме, образуемой подкрашенными mip-уровнями, прекрасно видны характерные выбросы, означающие, что решение ATI использует не до конца честный алгоритм анизотропной фильтрации, имеющий "неудобный" угол, в то время как новый алгоритм NVIDIA лишен таких недостатков. Заметим также, что алгоритм ATI несколько более агрессивен, что хорошо видно на ближних к игроку текстурах – они более четкие, нежели в случае с GeForce 8800, что иногда может приводить к "мерцанию" текстур в играх.

Производительность в различных режимах FSAA

Помимо сравнения качества различных режимов FSAA, поддерживаемых GeForce 8800, мы сравнили и их влияние на производительность на примере популярного шутера Half-Life 2: Episode One, использующего один из самых технологичных игровых движков, Source. Были получены следующие результаты:

Очевидно, что простые режимы FSAA 2х и 4х практически бесплатны для столь мощного решения, как GeForce 8800 GTX, чего нельзя сказать о бывшем флагмане NVIDIA, графическом адаптере GeForce 7950 GX2. В высоких разрешениях он начинает заметно терять в производительности, несмотря на суммарно 48 TMU и 32 ROP.

Более интересные данные удалось получить, используя высококачественные режимы сглаживания. Режим 8xS оказался не у дел уже в разрешении 1600х1200, а единственным режимом, при котором производительность GeForce 8800 GTX начала заметно падать с ростом разрешения, оказался CSAA 16xQ. В режимах CSAA 8x, MSAA 8xQ и CSAA 16x были получены равные результаты. Из этого следует, что, по крайней мере, в Half-Life 2: Episode One с равным успехом можно смело применять любой из них, но если ставится задача добиться максимального качества сглаживания без потерь в скорости, то оптимальным выбором будет режим MSAA 8xQ. Как мы уже выяснили, этот режим является наиболее сбалансированным как по "точности попадания", так и по точности вычисления цвета финального пикселя.

В то же время, режим CSAA 16xQ также может применяться на практике, но в разрешении 1920х1200 он тяжеловат даже для такого мощного решения, как GeForce 8800 GTX. NVIDIA поступила правильно, не введя поддержку MSAA 16x, так как увеличение качества сглаживания по сравнению с CSAA 16xQ было бы мизерным, а потеря производительности слишком большой для практического применения такого режима. Наконец, покончив с вопросами FSAA и анизотропной фильтрации, мы переходим к результатам синтетических тестов GeForce 8800 GTX.

Результаты синтетических тестов

  • Скорость заполнения сцены

В тесте на скорость заполнения сцены GeForce 8800 GTX ведет себя довольно предсказуемо. В обычных терминах чип имеет 32 TMU и 24 ROP, за счет чего и опережает решения предыдущего поколения. Отдельным случаем является работа с Z-буфером. Как мы уже знаем, G80 способен обрабатывать удвоенное количество значений Z за такт при включенном мультисэмплинге 4х и до 192 значений, если FSAA не используется. Поскольку в теоретических тестах FSAA нами не используется, мы имеем дело со вторым вариантом.

В целом, со скоростью заполнения сцены у GeForce 8800 GTX дела обстоят неплохо – даже в самом тяжелом случае он примерно на треть опережает GeForce 7900 GTX, что закономерно, учитывая разницу в количестве TMU и ROP, а также возросшую пропускную способность памяти.

  • Производительность при исполнении пиксельных шейдеров

При обработке пиксельных шейдеров новинка ведет себя несколько иначе, нежели решения на базе графических чипов предыдущего поколения. Хотя первое значительное падение производительности наблюдается при переходе от простого пиксельного шейдера версии 2.0 к более сложному PS 2.0 Longer, то в дальнейшем, при исполнении шейдера PS 2.0 4 Registers, она даже растет, и лишь в случае с шейдером попиксельного освещения вновь наблюдается резкое падение.

Интересно отметить, что в последнем случае GeForce 8800 GTX демонстрирует лишь двукратное преимущество над Radeon X1950 XTX, несмотря на наличие 128 потоковых процессоров, работающих на частоте 1.35 ГГц. Скорее всего, мы имеем дело с лимитацией производительности потоковых процессоров другими факторами, например, производительностью TMU.

В тесте Xbitmark мы видим значительное увеличение производительности практически по всем фронтам, за исключением шейдера Plaid Fabric, особенностью которого является выборка из трехмерной текстуры. В последнем случае все три карты, принимающие участие в тестировании, демонстрируют примерно одинаковый результат, что говорит о наличии какого-то ограничения, возможно, программного характера, каким-то образом связанного с поддержкой GeForce 8800 в новой версии ForceWare.

Поскольку G80 содержит в своем составе специализированные блоки по выполнению ветвлений, аналогичные тем, которые имеются в ATI X1000, чип отлично справляется с шейдерами, использующими динамическое ветвление, и делает это даже эффективнее своего соперника.

Налицо отличный потенциал нового решения NVIDIA в области обработки пиксельных шейдеров, но какие-либо выводы делать еще рано. Давайте посмотрим на результаты других тестов.

В тесте на скорость исполнения пиксельных шейдеров, входящем в состав пакета 3DMark05, GeForce 8800 GTX демонстрирует примерно 30% преимущество над Radeon X1950 XTX. Впрочем, глядя на похожесть поведения абсолютно разных графических процессоров, мы считаем, что основным ограничительным фактором в данном тесте является пропускная способность видеопамяти.

Аналогичный тест из состава 3DMark06 использует аналогичный шейдер, но результаты в нем выглядят несколько иначе. Преимущество GeForce 8800 GTX над Radeon X1950 XTX в этом тесте заметно выше, особенно в разрешении 1280х1024. Впрочем, и здесь едва ли измеряется вычислительная мощность, а не производительность выборки текстур/эффективная работа контроллеров памяти и/или кешей.

Итак, в тестах на скорость исполнения пиксельных шейдеров GeForce 8800 GTX показал себя с наилучшей стороны. В тех случаях, когда требуется высокая математическая производительность, 128 потоковых процессоров с частотой 1.35 ГГц показывают себя отлично, и, в то же время, если речь заходит о пиксельных шейдерах с большим количеством текстурных выборок, прирост производительности происходит за счет 32 texture address units и внушительной пропускной способности подсистемы памяти. Оба преимущества новинки непременно найдут отражение в современных играх.

Теперь попробуем выяснить, насколько хорошо покажет себя унифицированная архитектура при работе с вершинными шейдерами.

  • Производительность при исполнении вершинных шейдеров

При работе с "чистой" геометрией GeForce 8800 GTX по непонятной причине уступает решениям предыдущего поколения, располагающим выделенными вершинными процессорами, но как только дело доходит до появления в сцене источников света, так унифицированная архитектура показывает себя во всей красе. Даже при наличии 8 источников света GeForce 8800 GTX практически не теряет в производительности.

Перед нами наглядный пример, демонстрирующий превосходство унифицированной архитектуры над архитектурой с отдельными наборами пиксельных и вершинных процессоров: 128 потоковых процессоров против 8 специализированных (пусть и содержащих в своём наборе несколько ALU) показывают исключительную скорость.

Когда речь идет только о демонстрации нескольких высокополигональных моделей в сцене с одним источником света, GeForce 8800 GTX ведет себя так же, как и в Xbitmark при отсутствии источников света, несколько уступая Radeon X1950 XTX.

Иное дело тест, демонстрирующий травяной покров, в котором каждая травинка обрабатывается отдельно, при помощи вершинного шейдера. Эта ситуация более приближена к реальной игровой, нежели предыдущая, и именно в ней GeForce 8800 GTX чувствует себя великолепно, резко увеличивая свою производительность. Превосходство над GeForce 7900 GTX достигает 65%.

Аналогичный тест из состава 3DMark06 ведет себя иначе – в нем в аутсайдерах оказывается именно Radeon X1950 XTX, что неудивительно, так как его вершинные процессоры работают на меньшей частоте, нежели в GeForce 7900 GTX: 650 против 700 МГц. GeForce 8800 GTX показывает практически такой же результат, что и бывший флагман среди однопроцессорных графических карт NVIDIA.

А вот результаты теста Complex Vertex Shader совпадают с результатами такого же теста 3DMark05 с точностью до 1-2 десятых.

  • Другие синтетические тесты

Этот тест служит для проверки эффективности расчета физической модели поведения сложной системы частиц с помощью пиксельных шейдеров и ее визуализации при помощи вершинного текстурирования. ATI Radeon X1950, не обладающий поддержкой выборки текстур в вершинных шейдерах, выбывает из числа участников, и новая архитектура NVIDIA оказывается один на один со старой.

GeForce 8800 GTX с унифицированной архитектурой практически идеально приспособлен к выборке текстур в вершинных шейдерах, а потому неудивительно, что он буквально повергает в прах своего предшественника, опережая его в 7.5-8 раз.

В тесте Perlin Noise реалистичные, изменяющиеся в реальном времени облака генерируются при помощи пиксельного шейдера, содержащего 447 математических инструкций и 48 текстурных выборок, что позволяет оценить производительность графического процессора при работе с длинными шейдерами (минимальные требования Shader Model 3.0 составляют 512 инструкций на шейдер).

Как и в большинстве предыдущих теоретических тестов GeForce 8800 GTX проявляет свою сущность графической карты нового поколения, демонстрируя значительное превосходство над бывшим лидером, Radeon X1950 XTX. В данном случае ему помогает как высокая частота шейдерных процессоров, так и возможность осуществлять 32 текстурные выборки за такт, тогда как изделие ATI ограничено 16 выборками.

Заключение

Пока не закончен полный цикл игрового тестирования, какие-либо выводы относительно GeForce 8800 GTX, как игровой карты, делать рано. Тем не менее, новая архитектура NVIDIA, вне всякого сомнения, обладает внушительным потенциалом – это видно уже по результатам синтетических тестов, где GeForce 8800 GTX вышел абсолютным победителем. Впрочем, мы склонны полагать, что пока в нашем распоряжении не имеется приложений, которые бы в полной мере показывали преимущества нового продукта NVIDIA над конкурентами из предыдущего поколения ускорителей.

С одной стороны, мы зачастую видим, что производительность GeForce 8800 GTX лимитируется пропускной способностью его текстурников и/или памяти на борту, что скрадывает разницу между математической мощностью GeForce 8800 GTX и Radeon X1950 XTX. С другой стороны, унифицированная шейдерная архитектура априори покажет лучшую производительность в синтетических тестовых приложениях, ведь, по сути, вся вычислительная мощность графического процессора отдаётся одной задаче.

Проектируя нового флагмана, NVIDIA также позаботилась и о качестве изображения: новые алгоритмы полноэкранного сглаживания и анизотропной фильтрации обладают серьезно увеличенными характеристиками в сравнении с предшественниками. Данные действия крайне положительны именно для ускорителей GeForce, которые на протяжении последнего года уступали в качестве изображения своим конкурентам – серии Radeon X1000.

Разумеется, держа в уме всё вышесказанное, нельзя не отметить, что потенциал GeForce 8 раскроется в полной мере только с выходом в свет Windows Vista и DirectX 10, которые обещают не только скоростные, но и качественные улучшения будущих игр.

Конечно, триумф не дался NVIDIA даром – из-за использования 0.09-мкм техпроцесса G80 при своей чудовищной сложности закономерно получился очень большим и неэкономичным чипом с высоким уровнем тепловыделения. Это, а также расширенная с привычных 256 до 384 бит шина памяти привело к тому, что печатная плата для нового графического флагмана NVIDIA также стала огромной и сложной в производстве. В результате не обошлось без накладок – как вы уже знаете, незадолго до анонса старшая модель GeForce 8800 была отозвана из каналов продаж по причине проблем технического характера, могущих приводить к неработоспособности GeForce 8800 GTX первой серии выпуска. Наличие проблемы подтвердилось выходом из строя нашего тестового экземпляра GeForce 8800 GTX, так что отзыв, вероятно, был своевременной мерой, предотвратившей сильный удар по репутации NVIDIA. К счастью, менее производительный вариант GeForce 8800 с суффиксом GTS эта проблема не затронула, но, тем не менее, задержки с началом поставок самого быстрого игрового графического адаптера в мире явно играют не на руку NVIDIA. Мы надеемся, что проблема будет решена в ближайшее время, и GeForce 8800 GTX появится в продаже в массовых количествах вскоре после анонса. К чести NVIDIA стоит отметить, что пусть в небольшом количестве, но GeForce 8800 GTX всё же должен появится в продаже непосредственно сразу после анонса, тогда как иные продукты порой приходится ждать неделями.

Как уже было упомянуто, окончательные выводы, касающиеся GeForce 8800 GTX и его рыночных перспектив, будут нами сделаны в грядущей статье, полностью посвященной игровому тестированию новинки.

Telegram-канал @overclockers_news - это удобный способ следить за новыми материалами на сайте. С картинками, расширенными описаниями и без рекламы.
Страницы материала
Страница 1 из 0
Оценитe материал
рейтинг: 4.7 из 5
голосов: 309

Комментарии 72 Правила



Возможно вас заинтересует

Популярные новости

Сейчас обсуждают