Обзор видеокарты MSI GTX 480 Lightning (часть 1) (страница 2)
реклама
Архитектура GF100/110
Для того чтобы понять, как nVidia смогла разумно распределить и настроить свою основную архитектуру Fermi, нужно всего лишь один раз показать вам это наглядно. Базой для всех GPU послужила собирательная структура слова «Fermi». Основной подход моделирования ядер сильно отличается от «кухни» AMD. Если nVidia «шлифует» и оптимизирует блоки, старается максимально адаптироваться под современные требования, то AMD копирует, клонирует и размножает удачные составляющие. К тому же не грех будет сказать, что существенных улучшений у AMD давно не видно. И сравнивая обоих конкурентов, становится видно, как диаметрально противоположны философии строительства успешного GPU.
Я не брал в расчет графические ядра медленнее GTX 460 (GF104). У AMD рассмотрим всех, кто быстрее Cypress LE, в том числе обе новинки Barts.
Начнем с самой примитивной части графического процессора. В случае AMD это суперскалярный процессор, у nVidia – Cuda Core.
|
|
|
HD 5870 |
|
|
HD 6870 |
|
|
HD 6970* |
|
|
GTX 460 |
|
|
GTX 570* |
|
|
GTX 480 |
|
|
GTX 580 |
|
|
реклама
Cypress – 1 SFU, 4 FMAD, в том числе умеющие выполнять операции с двойной точностью.
За один такт может обработать:
- 4x 32-битных FP MAD,
- 2x 64-битных FP MUL или ADD,
- 1x 64-битный FP MAD,
- 4x 24-битных Int MUL или ADD SFU,
- 1x 32-битный FP MAD.
Barts – 1 SFU, 4 FMAD, без поддержки двойной точности.
За один такт может обработать:
- 4x 32-битных FP MAD,
- 4x 24-битных Int MUL или ADD SFU,
- 1x 32-битный FP MAD.
GF104 – 1 FMAD, 2 типа CUDA-ядер, с двойной и с одинарной точностью, в соотношении 1 к 2. Блоки SFU вынесены за пределы Cuda-ядра.
За один такт может обработать:
- 1x 32-битных FP MAD,
- 1x 64-битных FP MUL или ADD,
- 1x 64-битный FP MAD,
- 1x 24-битных Int MUL,
- 1x 32-битный FP MAD.
GF100 – 1 FMAD, в том числе умеющий выполнять операции с двойной точностью. Блоки SFU вынесены за пределы Cuda-ядра.
реклама
За один такт может обработать:
- 1x 32-битных FP MAD,
- 1x 64-битных FP MUL или ADD,
- 1x 64-битный FP MAD,
- 1x 24-битных Int MUL,
- 1x 32-битный FP MAD.
GF110 – 1 FMAD, в том числе умеющий выполнять операции с двойной точностью. Блоки SFU вынесены за пределы Cuda ядра.
За один такт может обработать:
- 1x 32-битных FP MAD,
- 1x 64-битных FP MUL или ADD,
- 1x 64-битный FP MAD,
- 1x 24-битных Int MUL,
- 1x 32-битный FP MAD.
SM и SIMD блоки:
|
|
|
HD 5870 |
|
|
HD 6870 |
|
|
GTX 460 |
|
|
GTX 570* |
|
|
GTX 480 |
|
|
GTX 580 |
|
|
Сразу видно, что SIMD ядро гораздо проще SM блока. AMD, в первую очередь, берет реванш у соперника за счет количества и простоты, а не качества исполнения. Суммарный объем кэшей и логических буферов у nVidia существенно больше чем у AMD. Предполагаемая схема Cayman’а позволит сократить удельную площадь на 1 суперскалярный юнит. Тип и количество текстурных блоков у SM GF104/114 отличается от таковых в GF100/110. Судя по всему, один SM в GF104/114 занимает большую площадь, чем в GF100/110, и если бы не ограничения в минимальных производственных нормах, мы бы вполне могли увидеть следующее поколение Fermi, основанное на SM от GF104/110.
Следующий шаг - сравнить GPU без вспомогательных модулей, так сказать, чистую математическую мощь.
|
|
|
HD 5870 |
|
|
HD 6870 |
|
|
GTX 460 |
|
|
GTX 570* |
|
|
GTX 480 |
|
|
GTX 580 |
|
|
Эволюция от Cypress до предполагаемого Cayman’а логична. Огромное число SP юнитов постоянно требует работы, а равномерно и эффективно их «загружать» должен Ultra Threaded Dispatch Processor. Допустим, AMD решила, что в достаточной мере обеспечила беспрерывность вычислений с помощью двух процессоров по очереди, но по моделям тесселяции соперник все еще впереди. И судя по некоторым данным, можно считать, что в будущем Cayman’е поместят целых два блока тесселяции. Впрочем, думаю, что даже такая оптимизация не способна полностью раскрыть потенциал всего GPU.
В nVidia проблему эффективности решают ювелирными модификациями, оснастив каждый SM по блоку тесселяции и геометрии. В итоге чистая производительность выше, чем у AMD, на несколько порядков.
Подход конфигурации контроллеров памяти и ROP практически идентичен у обоих вендоров. Только nVidia в который раз балует нас широкой шиной данных, но относительно низкой частотой. У AMD в этом плане застой, то ли дело в экономической нецелесообразности, то ли в сложности реализации, но прогресс замер на 256 bit. Правда, по эффективному уровню пропускной способности конкуренты находятся на приблизительно одинаковом уровне.
|
|
|
HD 5870 | Cypress |
|
HD 6870 | Barts |
|
HD 6970* | Cayman* |
|
GTX 460 | GF104 |
|
GTX 570 | GF114 |
|
GTX 480 | GF100 |
|
GTX 580 | GF110 |
|
Из приведенных схем напрашиваются несколько выводов:
Для AMD математическая мощность GPU ограничивается искусственными факторами (неспособность блока распределения задач полностью загрузить работой суперскалярные процессоры). Ограниченное пространство GPU не может в себя вписать большее количество блоков тесселяции.
реклама
Для nVidia существующая модель архитектуры Fermi уникальна, но ей немного не повезло с размерами. Чтобы уместить все исполнительные элементы, потребовалось слишком большое пространство. А сильное тепловыделение (все CUDA-ядра работают на удвоенной частоте) не позволяет наращивать SM блоки. В итоге потребовалось внедрить дополнительный тип транзисторов на производстве, чтобы удержать тепловой пакет в расчетном значении.
Кстати, впервые промежуточные транзисторы были опробованы в GF104, а уже потом в GF110. Условно-упрощённо, сейчас используется несколько типов: высокой производительности (Hiprf подразделяются еще на 2 вида, высоковольтные и низковольтные), с низкими токами «утечки» (LoLeak подразделяются еще на 2 вида, высоковольтные и низковольтные), транзисторы для цепей ввода/вывода (IO низковольтные), и разработанные специально для решения проблем с Fermi «средневольтные» (MdVlt низковольтные).
реклама
Теги
Лента материалов раздела
Соблюдение Правил конференции строго обязательно!
Флуд, флейм и оффтоп преследуются по всей строгости закона!
Комментарии, содержащие оскорбления, нецензурные выражения (в т.ч. замаскированный мат), экстремистские высказывания, рекламу и спам, удаляются независимо от содержимого, а к их авторам могут применяться меры вплоть до запрета написания комментариев и, в случае написания комментария через социальные сети, жалобы в администрацию данной сети.
Комментарии Правила