Развитие интегрированной графики AMD в настоящее время. Сравнение качества рендеров Intel и AMD

Продолжение.
Начало: история развития интегрированной графики Intel и ATi/AMD.

Оглавление

Вступление

Продолжение цикла материалов, посвященного встроенной графике Intel и ATi/AMD. В данном обзоре будет рассмотрена история развития интегрированной графики AMD в настоящее время и проведено сравнение качества рендера процессоров Sandy Bridge, Ivy Bridge, Llano, Trinity в игровых приложениях, ставшее возможным при помощи нашего партнера – компании Регард.

Развитие интегрированной графики AMD

Шестая генерация

Вот и подошел черед современной истории встроенной графики AMD. С этого момента можно говорить, что видеоядро полностью интегрировали в процессор, дав новое понятие – APU (Accelerated Processing Unit).

Лишь в 2011 году, выпустив линейку APU Llano (Socket FM1), AMD достигла уровня интеграции Intel. Причем отдельно стоит отметить тот факт, что по графической части она не просто достигла, а превзошла все ожидания. Правда, первый шаг нельзя назвать ни успешным, ни провальным. Сменив разъем для процессора, компания вынудила пользователей выбирать либо производительные платформы AM3, AM3+, либо APU на FM1. И все бы ничего, но спустя несколько месяцев началась массово распространяться информация о скором обновлении APU с новым разъемом, что выглядело, по меньшей мере, самоубийством.

Тем не менее, Llano стал успешным продуктом, несмотря на то, что был первым в своем роде для AMD. Теоретически, выпустив их, компания нацелилась на рынок ноутбуков, где интегрированные в одну микросхему процессор и GPU были, есть и будут оптимальным вариантом. А для настольных систем Llano стал удачным дополнением, расширив модельный ассортимент. Дополнительную привлекательность APU обеспечила ценовая политика AMD. Пользователям за сумму чуть более 100 долларов была предложена приемлемая производительность ЦП и высокая скорость GPU.

Теперь посмотрим, какими новшествами и отличиями характеризуется Llano. Но для начала – небольшое отступление. На момент своего появления им пришлось конкурировать с ЦП Intel Sandy Bridge. У последних была меньшая производительность графической части, но при этом они получили удачную, соединяющую различные блоки внутри процессора, шину. Выражаясь простым языком, у Intel есть несколько ядер ЦП, области кэша, GPU и системный агент. Связь между ними кольцевая, а работает шина параллельно.





Наглядный пример: кольцо с несколькими точками, нам надо передать данные от одной области в другую. Мы передаем от одной точки к соседней, а в это время другие данные переносятся на противоположном участке. В итоге передача осуществляется последовательно между двумя точками, но одновременно в несколько потоков на любых участках. Таким образом, широкая кольцевая шина в Sandy Bridge почти всегда дает весь теоретический максимум, поскольку подключена к кэшу L3 и работает на частоте процессорных ядер.

Почему Intel легче наращивать производительность видеоядра в своих ЦП? Первое – кольцевая шина получила высокую производительность и универсальное применение, низкие задержки и правильную организацию передачи данных. Теоретическая производительность GPU не может полностью загрузить шину обмена данными и компании осталось место для последующего роста скорости графической составляющей. Другими словами, кувшин лишь на треть полон относительно общего объема.

Почему пропускная способность памяти процессоров Intel выше и лучше масштабируется? Каждый канал памяти получил отдельные ресурсы и независимое обслуживание запросов. А контроллер памяти отличается внеочередным планировщиком заданий, говоря проще, снабжен умной логикой, которая максимизирует пропускную способность и минимизирует задержки. Ничего подобного у AMD в APU нет.

Связь между основными блоками AMD APU иная и реализована по более сложной и развитой схеме.

400x225  71 KB. Big one: 881x495  252 KB

В процессор из южного моста поступают две опорные частоты — 100 и 133 МГц. Первая используется для формирования итоговой частоты вычислительных ядер, умножая ее на коэффициенты. Вторая применяется для контроллера памяти (КП) и контроллеров шин.

Fusion compute link соединяет GPU с процессорными ядрами (ПЯ), обеспечивая минимальную задержку чтения в обход кэшей, в том числе при случайном доступе.

  • Fusion compute link — это полнодуплексная шина шириной 2x128 бит с максимальной частотой, равной частоте процессорных ядер. GPU использует ее, когда требуется доступ к общему адресному пространству. В это время все запросы проверяются на когерентность. Она же используется, если процессорным ядрам надо получить доступ к кадровому буферу (уже без проверки).

Radeon memory bus связывает КП с GPU и оптимизирована под максимальную скорость для потоковых данных.

  • Radeon memory bus, разрядностью 2x256 бит, работает на частоте NB (северного моста) и с некогерентным адресным пространством. Приоритет этой шины получил высокий статус, чем обеспечивается снижение задержек без выигрыша пропускной способности, но в ущерб задержкам для процессорных ядер.

Еще одна шина CCI нужна для связи контроллера памяти с ПЯ.

А поскольку эти шины занимаются каждая своим типом работы, то, чтобы нивелировать маленькую универсальность, AMD снабдила графический процессор (GPU) собственным КП. Он соединяется с парой шин до модулей памяти конкурентно с основным КП. Контроллеры получили разные буферы, таблицы и алгоритмы.





Сложно, запутанно и нелогично на первый взгляд, но инженеры и разработчики AMD остановились именно на таком решении. Трудно сказать, много ли плюсов принес «зоопарк» из шин, но организовывать работу и отслеживать потоки данных, а тем более равномерно загружать шины будет очень-очень непросто.

Из объяснений AMD остается неясно, возможно ли одновременно выполнять чтение и запись, если утверждение верно, то в идеальных условиях ПСП:

  • Максимальная пропускная способность памяти (ПСП) между памятью и ПЯ составляет 87% от теоретического пика.
  • Максимальная пропускная способность памяти (ПСП) между памятью и GPU составляет 97% от теоретического пика.

При одновременных запросах общая эффективность ПСП вырастет, но персонально для GPU и процессорных ядер, наоборот, сильно снизится. Так что кольцевая шина Intel и реализована проще, и работает быстрее, да еще и оборудована коррекцией ошибок.

Чуть не забыл сказать про сравнительный кувшин, который у Intel на треть полон, а у AMD с первым APU был на треть свободен. И чем мощнее GPU, тем сложнее наращивать скорость. Поэтому при разгоне (когда речь идет об игровой производительности) надо уделять внимание частоте NB, а изменение опорной частоты всего на несколько мегагерц чрезвычайно остро влияет на стабильность всей системы (не справляются контроллер памяти и контроллер шин).

Но вернемся к графическим ядрам Llano.

378x381  45 KB

Radeon HD 6xx0D был выпущен в 2011 году, а значит, AMD потребовалось всего два года, чтобы окончательно избавиться от GPU в NB.

Сначала появились Radeon HD 6250 (Wrestler) и Radeon HD 6310 (Wrestler), давшие жизнь C-30/C-50 APU и E-240, E-300/E-350 APU. Позже к ним присоединились версии Radeon HD 6290 (Ontario) и Radeon HD 6320 (Zacate). Они выпускались по 40 нм технологии с частотами от 276 до 600 МГц и с одинаковой конфигурацией: 80 унифицированных шейдеров (DirectX 11), 8 геометрических блоков и 4 ROP. Совокупная скорость доступа к памяти составляла от 8.5 до 10.6 Гбайт/с (сказывался один-единственный 64-битный канал). Radeon HD 6xx0D поддерживал аппаратное ускорение видео силами AVIVO, UVD3 и Eyefinity.

Позже для расширения ассортимента в серию добавили Radeon HD 6370D (WinterPark), созданный по 32 нм нормам. Он получил не только модифицированный GPU (160 унифицированных шейдеров (DirectX 11), 8 геометрических блоков и 4 ROP, частота 443 МГц и поддержка 3D Blu-ray видео), но и двухканальную память (1600 МГц).

Для настольных систем были созданы три версии GPU в APU:

  • Radeon HD 6410D (WinterPark) – 160 унифицированных шейдерных процессоров, 8 геометрических блоков и 4 ROP, частота 600 МГц и двухканальная память (1866 МГц).
  • Radeon HD 6530D (BeaverCreek) – 320 унифицированных шейдерных процессоров, 16 геометрических блоков и 8 ROP, частота 443 МГц и двухканальная память (1866 МГц).
  • Radeon HD 6550D (BeaverCreek) – 400 унифицированных шейдерных процессоров, 20 геометрических блоков и 8 ROP, частота 600 МГц и двухканальная память (1866 МГц).





GPU основывались на видеокартах архитектуры VLIW5 (ближайший похожий дискретный ускоритель – Radeon HD 55х0 на ядре Redwood).

Седьмая генерация

Через год после анонса Llano AMD повторно разыграла пьесу с заменой разъема и FM1 сменился FM2. Свои плоды принесла технология, перенятая у Intel. Пользователям пришлось покупать не только новые процессоры, но и новые материнские платы. А так как целевая аудитория APU все еще остается в сфере ноутбуков, то интересные малогабаритные материнские платы так и находятся в статусе ожидания у покупателей.

Если объективно, то раз AMD решила, что новые APU идеально подходят для ноутбуков, разумнее было бы предложить ITX платы и подтолкнуть производителей на их выпуск. Но, увы, всего несколько моделей появилось на сайтах компаний и еще меньше поступило в продажу. Новые (или лучше сказать слегка улучшенные) чипсеты выглядят привлекательно, особенно старшая версия. На нем можно получить системные платы, способные в полной мере реализовать HTPC.

Ахиллесова пята APU – высокое энергопотребление (минимальное 65 Вт) и вытекающее отсюда тепловыделение. Если первая версия Llano легко позволяла снизить стандартное напряжение с 1.3-1.375 В до 1.2-1.25 В, то Trinity до последнего требует что-то не меньше, чем 1.25-1.3 В.

А теперь пару слов о грядущем обновлении Trinity. Я не буду утверждать категорично, но ждать GCN в будущих APU FM2 бессмысленно. Приведу один аргумент. Все видеокарты с архитектурой GCN выпускались с учетом 28 нм, а грядущие Richland пока остаются на 32 нм. Все, что получат Richland, уместится в одном предложении: это модернизированная система Turbo, развитая цепь температурных датчиков, повышенные частоты GPU и процессорных ядер. Даже разъем останется неизменным – FM2.

И снова вернемся к рассмотрению эволюции APU AMD. Как всегда, графическая часть в них отстает на одно поколение от настольных систем и после VLIW5 наступило время VLIW4.

400x163  32 KB. Big one: 1535x626  299 KB

Слева направо: Sandy Bridge, Ivy Bridge, Llano, Trinity.

  • Sandy Bridge – до четырех ядер, GPU до 48 АЛУ, до 4х2 Мбайт кэша, 20 линий PCI-e, 32 нм, до 1.16 млн транзисторов, площадь до 216 мм2.
  • Ivy Bridge – до четырех ядер, GPU до 64 АЛУ, до 4х2 Мбайт кэша, 20 линий PCI-e, 22 нм, до 1.48 млн транзисторов, площадь до 160 мм2.
  • Llano – до четырех ядер, GPU до 5 SIMD и 400 потоковых процессоров, до 4х1 Мбайт кэша второго уровня, 24 линии PCI-e, 32 нм, 1.178 млн транзисторов, площадь 228 мм2.
  • Trinity – до двух CPU модулей, до четырех ядер, GPU до 6 SIMD и до 384 потоковых процессоров, до 2х2 Мбайт кэша второго уровня, 24 линии PCI-e, 32 нм, 1.303 млн транзисторов, площадь 246 мм2.

400x225  66 KB. Big one: 881x495  236 KB





Видеоядро сильно увеличилось в размерах, а замена давно устаревшего К10.х ядра ЦП на Bulldozer (Piledriver) позволила сократить использование места на подложке. Все технические решения, такие как шины, NB, контроллер памяти остались без серьезных изменений. Формально появилась поддержка памяти 2133 МГц, а в разгоне до значений выше 2400 МГц, но старый КП (по некоторым данным все же модифицированный) не всегда справляется с частотой выше 2133 МГц. Поэтому разумнее будет подобрать модули памяти с частотой до 2133 МГц.

Узким местом APU осталось разнообразие неодинаковых шин (плюс разные частоты их работы), странное распределение кэша (для GPU и ПЯ), не совсем оптимальное строение ядер ЦП. Но раз у AMD не получилось взять следующий рубеж техническим прогрессом, то на помощь всегда придет высокая частота работы APU. В итоге пользователи получили не совсем двух- и четырехъядерные модели, а фактически полутора- и трехъядерные. Но и они были быстрее в большинстве многопоточных задач, хотя в старых приложениях Trinity периодически уступает места Llano!

Вернемся к графическим ядрам Trinity.

372x400  48 KB

Radeon HD 7хх0D был выпущен в 2012 году, менее чем через год после Llano. Единовременно нам представили сразу четыре типа GPU:

  • Radeon HD 7480D (Devastator) – 128 унифицированных шейдерных процессоров, 8 геометрических блоков и 4 ROP, частота 723 МГц и двухканальная память (1600 МГц).
  • Radeon HD 7540D (Devastator) – 192 унифицированных шейдерных процессора, 12 геометрических блоков и 4 ROP, частота 760 МГц и двухканальная память (1866 МГц).
  • Radeon HD 7560D (Devastator) – 256 унифицированных шейдерных процессоров, 16 геометрических блоков и 8 ROP, частота 760 МГц и двухканальная память (1866 МГц).
  • Radeon HD 7660D (Devastator) – 384 унифицированных шейдерных процессора, 24 геометрических блока и 8 ROP, частота 760-800 МГц и двухканальная память (1866 МГц).

GPU основывались на видеокартах архитектуры VLIW4 (ближайшая похожая модель – Radeon HD 69хх на ядре Cayman). Radeon HD 7хх0D поддерживает аппаратное ускорение видео силами AVIVO, UVD3.2 и Eyefinity (до четырех мониторов).

Страница 1 из 4
Оценитe материал

Комментарии 122 Правила

Возможно вас заинтересует

Популярные новости

Сейчас обсуждают