Обзор видеокарты MSI GTX 480 Lightning (часть 1) (страница 2)

Архитектура GF100/110

Для того чтобы понять, как nVidia смогла разумно распределить и настроить свою основную архитектуру Fermi, нужно всего лишь один раз показать вам это наглядно. Базой для всех GPU послужила собирательная структура слова «Fermi». Основной подход моделирования ядер сильно отличается от «кухни» AMD. Если nVidia «шлифует» и оптимизирует блоки, старается максимально адаптироваться под современные требования, то AMD копирует, клонирует и размножает удачные составляющие. К тому же не грех будет сказать, что существенных улучшений у AMD давно не видно. И сравнивая обоих конкурентов, становится видно, как диаметрально противоположны философии строительства успешного GPU.

Я не брал в расчет графические ядра медленнее GTX 460 (GF104). У AMD рассмотрим всех, кто быстрее Cypress LE, в том числе обе новинки Barts.

Начнем с самой примитивной части графического процессора. В случае AMD это суперскалярный процессор, у nVidia – Cuda Core.

реклама

Видеокарта
Название GPU
Схематичный вид
HD 5870
Cypress
235x143  9 KB
HD 6870
Barts
235x143  8 KB
HD 6970*
Cayman*
235x143  8 KB
GTX 460
GF104
477x143  15 KB
GTX 570*
GF114*
477x143  15 KB
GTX 480
GF100
235x143  10 KB
GTX 580
GF110
235x143  10 KB

Cypress – 1 SFU, 4 FMAD, в том числе умеющие выполнять операции с двойной точностью.

За один такт может обработать:

  • 4x 32-битных FP MAD,
  • 2x 64-битных FP MUL или ADD,
  • 1x 64-битный FP MAD,
  • 4x 24-битных Int MUL или ADD SFU,
  • 1x 32-битный FP MAD.

реклама

Barts – 1 SFU, 4 FMAD, без поддержки двойной точности.

За один такт может обработать:

  • 4x 32-битных FP MAD,
  • 4x 24-битных Int MUL или ADD SFU,
  • 1x 32-битный FP MAD.

GF104 – 1 FMAD, 2 типа CUDA-ядер, с двойной и с одинарной точностью, в соотношении 1 к 2. Блоки SFU вынесены за пределы Cuda-ядра.

За один такт может обработать:

  • 1x 32-битных FP MAD,
  • 1x 64-битных FP MUL или ADD,
  • 1x 64-битный FP MAD,
  • 1x 24-битных Int MUL,
  • 1x 32-битный FP MAD.

GF100 – 1 FMAD, в том числе умеющий выполнять операции с двойной точностью. Блоки SFU вынесены за пределы Cuda-ядра.

За один такт может обработать:

  • 1x 32-битных FP MAD,
  • 1x 64-битных FP MUL или ADD,
  • 1x 64-битный FP MAD,
  • 1x 24-битных Int MUL,
  • 1x 32-битный FP MAD.

GF110 – 1 FMAD, в том числе умеющий выполнять операции с двойной точностью. Блоки SFU вынесены за пределы Cuda ядра.

За один такт может обработать:

  • 1x 32-битных FP MAD,
  • 1x 64-битных FP MUL или ADD,
  • 1x 64-битный FP MAD,
  • 1x 24-битных Int MUL,
  • 1x 32-битный FP MAD.

SM и SIMD блоки:

Видеокарта
Название GPU
Схематичный вид
HD 5870
Cypress
237x367  24 KB
HD 6870
Barts
237x367  24 KB
GTX 460
GF104
326x335  47 KB
GTX 570*
GF114*
326x335  47 KB
GTX 480
GF100
326x335  46 KB
GTX 580
GF110
326x335  46 KB

Сразу видно, что SIMD ядро гораздо проще SM блока. AMD, в первую очередь, берет реванш у соперника за счет количества и простоты, а не качества исполнения. Суммарный объем кэшей и логических буферов у nVidia существенно больше чем у AMD. Предполагаемая схема Cayman’а позволит сократить удельную площадь на 1 суперскалярный юнит. Тип и количество текстурных блоков у SM GF104/114 отличается от таковых в GF100/110. Судя по всему, один SM в GF104/114 занимает большую площадь, чем в GF100/110, и если бы не ограничения в минимальных производственных нормах, мы бы вполне могли увидеть следующее поколение Fermi, основанное на SM от GF104/110.

Следующий шаг - сравнить GPU без вспомогательных модулей, так сказать, чистую математическую мощь.

Видеокарта
Название GPU
Схематичный вид:
HD 5870
Cypress
237x412  18 KB
HD 6870
Barts
237x412  17 KB
GTX 460
GF104
400x176  59 KB
GTX 570*
GF114*
400x176  64 KB
GTX 480
GF100
400x301  116 KB
GTX 580
GF110
400x301  122 KB

Эволюция от Cypress до предполагаемого Cayman’а логична. Огромное число SP юнитов постоянно требует работы, а равномерно и эффективно их «загружать» должен Ultra Threaded Dispatch Processor. Допустим, AMD решила, что в достаточной мере обеспечила беспрерывность вычислений с помощью двух процессоров по очереди, но по моделям тесселяции соперник все еще впереди. И судя по некоторым данным, можно считать, что в будущем Cayman’е поместят целых два блока тесселяции. Впрочем, думаю, что даже такая оптимизация не способна полностью раскрыть потенциал всего GPU.

500x128  54 KB

реклама



В nVidia проблему эффективности решают ювелирными модификациями, оснастив каждый SM по блоку тесселяции и геометрии. В итоге чистая производительность выше, чем у AMD, на несколько порядков.

Подход конфигурации контроллеров памяти и ROP практически идентичен у обоих вендоров. Только nVidia в который раз балует нас широкой шиной данных, но относительно низкой частотой. У AMD в этом плане застой, то ли дело в экономической нецелесообразности, то ли в сложности реализации, но прогресс замер на 256 bit. Правда, по эффективному уровню пропускной способности конкуренты находятся на приблизительно одинаковом уровне.

Видеокарта
Название GPU
Схематичный вид:
HD 5870Cypress
237x247  10 KB
HD 6870Barts
237x247  10 KB
HD 6970*Cayman*
237x247  10 KB
GTX 460GF104
450x245  56 KB
GTX 570GF114
450x245  56 KB
GTX 480GF100
500x181  71 KB
GTX 580GF110
500x181  71 KB

Из приведенных схем напрашиваются несколько выводов:

Для AMD математическая мощность GPU ограничивается искусственными факторами (неспособность блока распределения задач полностью загрузить работой суперскалярные процессоры). Ограниченное пространство GPU не может в себя вписать большее количество блоков тесселяции.

реклама

Для nVidia существующая модель архитектуры Fermi уникальна, но ей немного не повезло с размерами. Чтобы уместить все исполнительные элементы, потребовалось слишком большое пространство. А сильное тепловыделение (все CUDA-ядра работают на удвоенной частоте) не позволяет наращивать SM блоки. В итоге потребовалось внедрить дополнительный тип транзисторов на производстве, чтобы удержать тепловой пакет в расчетном значении.

Кстати, впервые промежуточные транзисторы были опробованы в GF104, а уже потом в GF110. Условно-упрощённо, сейчас используется несколько типов: высокой производительности (Hiprf подразделяются еще на 2 вида, высоковольтные и низковольтные), с низкими токами «утечки» (LoLeak подразделяются еще на 2 вида, высоковольтные и низковольтные), транзисторы для цепей ввода/вывода (IO низковольтные), и разработанные специально для решения проблем с Fermi «средневольтные» (MdVlt низковольтные).

Страницы материала
Оценитe материал
рейтинг: 4.0 из 5
голосов: 85

Комментарии Правила



Возможно вас заинтересует

Популярные новости

Сейчас обсуждают