О влиянии процессора на производительность встроенной графики AMD 780G
Недавно я обзавелся платой на чипсете AMD 780G, про который рассказывают много хорошего за его передовой техпроцесс, низкое энергопотребление и высокую по чипсетным меркам графическую производительность. Все эти похвалы в полной мере относятся и к родственным чипсетам - бюджетным 760G и 780V, разогнанному 790GX и рестайлинговому 785G образца лето-2009. Впрочем, похвалы похвалами, а при поиске более конкретных сведений не удалось сделать однозначный вывод о производительности этих чипсетов - по одним тестам, они уверенно отправляют в отставку low-end видеокарты, а по другим - значительно уступают им, отставая даже от конкурентных чипсетов NVidia GeForce 9300 и 9400. Единственно, в чем сходятся тестеры - так это в том, что у чипсетов AMD действительно низкое энергопотребление, на уровне 8-12W под нагрузкой и около 1W в простое. Чтобы узнать истину и установить причины заблуждений, я провел серию тестов в паре с процессором Phenom II X3 710.
1. Тестовая система
реклама
Ну вот, скажете Вы - где это видано - тестировать хилую интегрированную графику в паре с мощным 3-ядерным процессором? На нем ведь еще и 4-е ядро включат и разгонят до топовых частот? Определенно, да . А для полноты картины тесты при разгоне мы дополним тестами при торможении, так что по их результатам Вы сами подберете себе оптимальный процессор. Наша же тестовая система изначально создавалась для других - расчетных целей.
Вот тестовая система:
CASE Asus Ascot 6AR/2
PSU Ascot 360W ATX 2.0
MB ASUS M4A78-AM rev 2.01G, BIOS 1001
CPU Phenom II X3 710 AM2+ BOX (13x, 2600 MHz, L3 6M) HDX710WFK3DGI, 0909 - 9 неделя 2009 года
RAM 2*2G Kingston KVR800D2E5/2G CL5 с чипами Elpida 5.0-5-5-5-18-23 ECC
HDD Seagate 250G
OS Windows 7 32-bit с нативными драйверами 8.56.1.15
Подробно тестовая система описана в моей предыдущей статье Эксперименты с отказоустойчивостью и разгоном Phenom II на материнской плате ASUS M4A78-AM micro-ATX.
реклама
2. Обзор графической подсистемы
Чипсет AMD 780G был представлен на CeBIT весной 2008 года. Это первый чипсет, изготовленный по по передовому 55-нм техпроцессу. Микросхема содержит более 205 миллионов транзисторов, большая часть которых приходится на интегрированное видеоядро Radeon HD 3200, поддерживающее DirectX 10.0, видео высокой четкости и все современные видеоинтерфейсы (D-sub, DVI, HDMI, Display Port). Графическое ядро RV610 содержит 40 универсальных шейдерных процессоров, 4 блока текстурирования и 4 ROPs, как в low-end видеокартах Radeon HD серий 2400 и 3400. Интересно, что именно c этими однотипными видеокартами 780G "дружит" в режиме Hybrid CrossFire, что позволяет немного поднять производительность (но конечно же, не до уровня Mainstream - см. /blog/KrAzY). При установке более мощной внешней видеокарты интегрированное графическое ядро отключается, либо с помощью опции BIOS переводится в режим Surround View для работы с дополнительным монитором.
(кликните по картинке для увеличения)
AMD 780G Architecture
Аналогично устроены чипсеты 760G, 780V, 790GX, а также чипсеты 785G, 880G и 890GX на обновленном ядре RV620, которое поддерживает Direct X 10.1 и аппаратное транскодирование видео с применением ATI Stream. Чипсеты 890GX и 880G могут работать в режиме Hybrid Cross Fire с паре с более мощной видеокартой Radeon HD 5450, которая имеет вдвое большее число исполнительных блоков. Бюджетные чипсеты 760G и 780V не поддерживают декодирование HD video. Вот сводная таблица характеристик, составленная по весьма противоречивым материалам из сети:
реклама
GPU Core Core UMA SidePort UVD DirectX PCI Hybrid Surround Power HDMI Display ATI
Clock max memory Express Cross View XPress HDCP Port Stream
MHz MB 2.0 Fire
----------------------------------------------------------------------------------------------------
760G Radeon 3000 350 512? option -? 10.0 x16 1 2-4+ - MB design -
780V Radeon 3100 350 512? - - 10.0 x16 - - - 1.2a - -
780G Radeon HD 3200 500 1024 option UVD 1 10.0 x16 1 2-4+ - 1.2a + -
790GX Radeon HD 3300 700 1024 option UVD 1 10.0 x16/2x8 1-2 2-6+ - 1.2a + -
785G Radeon HD 4200 500 1024 option UVD 2 10.1 x16 1 2-4+ + 1.3a + +
880G Radeon HD 4250 560 1024 option UVD 2 10.1 x16 1 2-4+ ? 1.3a + +
890GX Radeon HD 4290 700 1024 option UVD 2 10.1 x16/2x8 1-2 2-6+ ? 1.3a + +
Штатная рабочая частота видеоядер составляет от 350 до 700 MHz. Надо сказать, что различия в частоте непринципиальны, т.к. чипсеты хорошо разгоняются. Поэтому в BIOS материнской платы можно выставить желаемую частоту вместо штатной. Наиболее близкими аналогами по частоте ядра и, как мы увидим дальше, пропускной способности (ПС) памяти, являются Radeon HD 2400 Pro (525 MHz) и Radeon HD 3450 (600 MHz). Т.е. можно ожидать, что производительность и параметры разгона интегрированного видеоядра 780G будут примерно такими же, как у этих видеокарт. Фактически, она может быть даже выше, т.к. low-end видеокарты часто комплектуются недостаточным для современных игр объемом памяти в 256 Мбайт. Отметим, что чипсеты 890GX и 790GX позволяют объединять в Hybrid CrossFire аж две low-end видеокарты.
Интегрированное видеоядро работает с оперативной памятью через интерфейс Hyper Transport, связывающий северный мост чипсета с процессором. Из оперативной памяти берется до 1024 Мбайт (в зависимости от настроек BIOS на плате). Вместо оперативной памяти или в дополнение к ней допускается использование буфера SidePort в виде 1-2 микросхем DDR2 или GDDR3 объемом от 32 до 256 Mбайт, распаиваемых на материнской плате и подключаемых к графическому ядру по шине шириной 32 или 64 бита (но на платах с 780G данная память встречается редко). Сложность состоит в том, что производители плат не указывают ширину шины. Штатно поддерживается память до GDDR3/1333, соответственно максимальная ПС памяти SidePort составляет до 64/8 * 1333 = 10667 MB/s. Как утверждается в статье "AMD 790GX и память Side-Port: тесты производительности", наиболее производительным решением является совместное использование памяти SidePort и максимального 512 Mбайт буфера в оперативной памяти. Впрочем, столь большой буфер дает эффект только в особо требовательных к памяти играх, а иначе вполне хватит 256 Mбайт. Память SidePort полезна и для уменьшения энергопотребления, т.к. позволяет переводить процессор вместо с контроллером памяти в режим простоя C1E.
Интерфейс HyperTransport состоит из двух однонаправленных каналов, по 16 бит каждый. Рабочая частота каналов HT зависит от применяемой модели процессора - 800-1000 MHz для процессоров поколения AM2 и 1600-2200 MHz для процессоров поколений AM2+ и AM3 (см. System Bus на amdcompare.com, где указана удвоенная эффективная частота в MT). Отметим, что спецификация HyperTransport 3.0, которой соответствует северный мост чипсета, предполагает работу на частоте до 2600 MHz, которая может быть достигнута при разгоне процессора AM2+/AM3 по шине. Некоторые процессоры поколения AM2 могут разгонять HT до 2000 MHz, т.е. до номинала AM2+/AM3 (/blog/KrAzY). Но это при условии, что материнская плата держит удвоенную частоту FSB, а иначе результаты будут скромнее. За каждый такт по интерфейсу передаются два 16-битных числа в прямом направлении и столько же - в обратном направлении. Т.е. пиковая пропускная способность (ПС) составляет 2 * 2 * 16/8 = 8 байт за такт, при максимальной частоте 2600 MHz это будет 8 * 2600 = 20800 MB/s, по 10400 MB/s в каждом направлении.
реклама
Процессор, в свою очередь, работает с двумя каналами памяти DDR2 или DDR3. Эти каналы шире - каждый по 64 бита - но медленнее каналов HT. Двухканальная память DDR2 обеспечивает передачу 2 * 2 * 64/8 = 32 байта за такт, в режиме DDR2/1200 c рабочей частотой 600 MHz это будет 32 * 1200/2 = 19200 MB/s.
На первый взгляд, каналы HT и памяти сбалансированы по пропускной способности - но надо учитывать, что оба канала памяти двунаправленные, т.е. могут распределить свою ПС для чтения или записи в любой пропорции. А каналы HT однонаправленные, один работает только при чтении, другой - только при записи. Поскольку чтение из памяти проводится чаще, чем запись в память, то канал процессор->чипсет оказывается теоретически узким местом. Кроме того, ПС каналов HT зависит от частоты, на которой с ними может работать процессор (см. выше). Штатная ПС в одну сторону составляет 3200 - 4000 MB/s для процессоров AM2 и 6400 - 8800 MB/s для процессоров AM2+ и AM3. Для сравнения, ПС памяти DDR2 в Radeon HD 2400 Pro составляет 6400 MB/s, в Radeon HD 3450 - 8000 MB/s (см. Сравнительная таблица графических карт серии Radeon). В следующем разделе мы увидим, как ПС каналов HT влияют на производительность встроенной графики.
3. Результаты тестирования
В моих тестах разгон графического ядра сопровождался разгоном процессора, памяти и каналов HT в различных соотношениях. Контроллер памяти работал в режиме Unganged, который в данном случае дает несколько лучшие результаты, впрочем, всего на доли процента. В этом режиме модули памяти работают независимо друг от друга, что (в теории) вдвое снижает скорость последовательного чтения/записи - но зато появляется возможность чтения/записи в два потока. Контроль ошибок в памяти (ECC) был отключен, т.к. он снижает производительность графической подсистемы на несколько процентов. Cool'n'Quiet также был отключен (его влияние на результат - порядка десятых долей процента). Размер видеобуфера в оперативной памяти - 256 Mбайт. Показания 3DMark 2001 SE, 2003 3.6, 2005 1.2 снимались с настройками по умолчанию при разрешении 1024x768. Тест 3DMark 2006 я проводить не стал, поскольку мне не были нужны результаты процессорных тестов (эти результаты включены в общую оценку 3DMark 2006, в отличие от предыдущих тестов). Не проводились и тесты для DirectX 10, которые в low-end классе не актуальны.
3DMark scores Установки
GPU Core CPU Core/NB HT DDR2 2001 2003 2005 FSB/HT/DDR2/CPU
---------------------------------------------------------------------------------------------
780G 500 Phenom II X3 710 2600/2000 1000 2x800 10323 3324 3056 200/ 5x/800/13x (1
780G 500 Phenom II X3 710 2600/2000 2000 2x800 13146 4247 3743 200/10x/800/13x (2
780G 670 Phenom II X3 710 2600/2000 2000 2x800 14542 4755 4205 200/10x/800/13x (3
780G 670 Phenom II X3 710 2594/2470 1976 2x823 15062 4969 4342 247/ 8x/667/10.5x (4
780G 670 Phenom II X3 710 3211/2470 1976 2x823 15417 4989 4430 247/ 8x/667/13x (5
780G 670 Phenom II X3 710 3211/2470 2470 2x823 16263 5214 4619 247/10x/667/13x (6
780G 670 Phenom II X3 710 3211/2470 2470 2x988 16842 5459 4812 247/10x/800/13x (7
---------------------------------------------------------------------------------------------
780G 790 Phenom II X3 710 3315/2550 2550 2x1020 18206 5994 5238 255/10x/800/13x (8
780G 790 Phenom II X4 710 3315/2550 2550 2x1020 18176 5991 5234 255/10x/800/13x (9
---------------------------------------------------------------------------------------------
1. Эмулируется процессор поколения AM2 в той части, которая касается работы HyperTransport. Для этого искусственно занижаем частоту HT в 2 раза до 1000 MHz. Пропускная способность каждого канала падает в 2 раза - с 8000 MB/s до 4000 MB/s и становится на 25% ниже пропускной способности одного модуля DDR2 (6400 MB/s). В результате оценка уменьшается на 27% в 3DMark 2001-2003 и на 22% в 3D Mark 2005.
2. Тест на номинале с штатной частотой HT.
3. Разгон графического ядра на 34% дает прирост 10-12%. Это предел, до которого мой чипсет разгоняется без повышения напряжения.
4. Разгон контроллера памяти и кэша L3 на 23.5% дает прирост 3-5%. В этом тесте снижены множители ядер процессора, HT и памяти, чтобы их скоростной режим оставался примерно прежним.
5. Разгон ядер процессора на 23.5% дает прирост 2% в тестах 3DMark 2001 и 2005.
6. Разгон HyperTransport на 23.5% дает прирост 4-5%.
7. Разгон памяти на 23.5% дает прирост 4-5%.
8. А это предельный разгон, при котором система проходит тесты 3DMark. Ради этого результата пришлось завысить все доступные на моей плате напряжения - так что имейте в виду возможные последствия, если сами захотите получить нечто подобное.
9. Такой же предельный разгон, но, как было обещано, с включенным 4-м ядром. Эффект отсутствует. Оно и понятно - однопоточным тестам на самом деле хватает двух ядер, одно из которых обслуживает операционную систему, а другое - сам тест. Здесь и третье ядро - лишнее, а четвертое - тем более.
Как мы видим, число и частота ядер процессора не являются определяющими факторами, а наилучшие результаты получаются при синхронном разгоне подсистемы памяти - контроллера, модулей DDR2 и каналов HT. Синхронный разгон памяти дает суммарный прирост 12-14% при повышении частоты на 23.5%. Аналогичный эффект наблюдается при разгоне графического ядра на треть. Ну а совместный разгон графического ядра и памяти дает почти пропорциональный рост производительности. Это говорит о хорошей сбалансированности нашей тестовой системы AM2+ в той части, которая касается взаимодействия графического ядра и памяти. Но если на плате будет стоять процессор поколения AM2, то появится "узкое место" в канале HT и графическая производительность упадет.
4. Другие тесты
Посмотрим теперь, как на самом деле обстоит дело с процессорами поколения AM2. Для этого приведем результаты тестов, доступный в сети Интернет. Разумеется, некорректно сравнивать результаты, полученные на разных материнских платах, с разными операционными системами и драйверами. Но мы не будем этим заниматься - просто посмотрим на разброс результатов.
3DMark scores Установки
GPU Core CPU Core/NB HT DDR2 2001 2003 2005 FSB/HT/DDR2/CPU
------------------------------------------------------------------------------------------
780G 500 Athlon X2 5000+ 2600 1000 2x742 8197 2368 200/ 5x/800/13x
790GX 700 Athlon X2 5000+ 2600 1000 2x742 10177 2739 200/ 5x/800/13x
------------------------------------------------------------------------------------------
780G 500 Athlon X2 4400+ 2300 1000 2x657 2719 2292 200/ 5x/667/11.5x
790GX 700 Phenom X4 9600 2300/2000 1800 2x667 3820 3089 200/ 9x/667/11.5x
------------------------------------------------------------------------------------------
780G 500 Phenom X4 9500 2200/2000 1800 2x800 3255 200/ 9x/800/11x
------------------------------------------------------------------------------------------
Первые два теста с процессором поколения AM2 взяты из статьи "Графические возможности современных чипсетов".
Следующие два теста проведены в nix на одной материнской плате с процессорами поколений AM2 и AM2+ "Особенности работы чипсетов geForce 8200 и AMD 780G с процессорами Athlon и Phenom". Разница в результатах, при одинаковых частотах процессора, графического ядра и памяти составляет 35-40%, что выше нашего "теоретического" результата в 22-27%. Это не может объясняться эффектом 2-3-4-x ядер, т.к. все тесты - однопоточные. Скорее всего, дополнительные 15% следует отнести за счет наличия кэша L3 и архитектурных улучшений, которые сделаны в контроллере памяти Phenom - о них можно прочитать в статье "Детальное исследование платформ с помощью тестового пакета RightMark Memory Analyzer. Часть 15: процессоры AMD Phenom X4".
Затем идут данные из официальной презентации AMD.
(кликните по картинке для увеличения)
AMD 780G 3DMark
5. Результаты в ORB и hwbot
Результаты из базы ORB получены для чипсета 780G и процессоров AM2+/AM3. Тест Sempron 140 позволяет судить о работе 780G с процессором AM2+, который имеет одно ядро c кэшем L2 объемом 1024M. Следующий тест - с процессором, который имеет два ядра с кэшем L2 512K и кэш L3 размером 2048M. Оба процессора слабее нашего, но на результатах это особо сильно не отражается. По тесту Phenom II X3 можно судить о разгонных способностях чипсета 780G. Еще лучше результаты у чипсетов 790GX и 785G с памятью SidePort.
3DMark scores Установки
GPU Core CPU Core/NB HT DDR2 2001 2003 2005 FSB/HT/DDR2/CPU
------------------------------------------------------------------------------------------
780G 701 Sempron 140 2700/2000 2000 2*800 13636 4255 3469 200/10x/800/13.5x
780G 500 Athlon X2 7750 2700/2000 1800 2*800 13074 4102 3472 200/ 9x/800/13.5x
780G 959 Phenom II X3 720 3626/2340 2340 2x936 6064 5114 234/10x/800/15.5x
------------------------------------------------------------------------------------------
Статистику разгона удобно изучать по базам hwbot для 780G, 790GX и 785G.
6. О производительности в играх
Тесты 3DMark помогли нам отследить влияние различных характеристик процессора и подсистемы памяти на графическую производительность. Конечно, результаты этих тестов нельзя напрямую распространять на производительность в играх. Разные игры по-разному задействуют аппаратуру - одни нагружают в основном графическое ядро, другие "по полной" задействуют все имеющиеся ядра процессора вкупе с подсистемой памяти. Поэтому вопрос о производительности изучается индивидуально для каждой конкретной игры - на эту тему в сети есть много различных материалов, в том числе и по интересующему нас графическому ядру.
Понятно, что результаты упомянутых игровых тестов зависят не только от самого чипсета, но и от его окружения - процессора, памяти, операционной системы, драйверов и т.п. Как говорится, "короля играет свита". И проведенные нами тесты 3DMark показывают, что ее влияние на итоговый результат может быть значительным. Можно ожидать, хотя это не обязательно всегда так, что при использовании процессора "старого" поколения AM2 производительность в играх будет занижена - не более чем наполовину, скорее всего, на треть или четверть. А чтобы получить хорошие результаты, надо проводить тесты с процессорами поколения AM2+ или AM3.
Вот пример "правильного" теста из официальной презентации AMD:
(кликните по картинке для увеличения
AMD 780G Gaming
Заключение
По основным техническим характеристикам встроенная графика AMD 780G аналогична low-end графике Radeon HD 2400/3400. Особенностью является более сложная, чем у дискретных чипов, подсистема памяти, в которую вовлечен центральный процессор. Производительность этой связки в графике зависит от пропускной способности шины HyperTransport, поэтому для полного раскрытия потенциала чипсета 780G необходим процессор поколения не ниже AM2+. Графическое ядро потребляет мало энергии и отлично разгоняется - отдельные экземпляры чипсета позволяют поднимать частоту ядра до 1000 MHz и выше. А разгон процессора следует проводить по шине без занижения частоты HT. Если процессор загружен в 1-2 потока, то для получения сбалансированной системы достаточна разогнанная оперативная память стандарта DDR2/800 в двух каналах или более производительная. Как показано в статье "Тестирование Radeon HD IGP и Intel HD Graphics", наибольший эффект в играх дает память SidePort, распаянная на материнской плате в сочетании с 256 Мбайт буфером в основной памяти.
А вот вывод для неспециалистов - 40 графических процессоров 780G + 2 ядра Athlon II или Phenom - этого может хватить для игры, по крайней мере до тех пор, пока число графических процессоров в High-End картах не перевалит за тысячу.
Сведения об изменениях
8 октября 2009 года - публикация
10 октября 2009 года - поправлена таблица для 785G и 790GX
17 октября 2009 года - небольшая правка выводов и ссылки на hwbot в разделе 5
28 октября 2009 года - ссылки на запись KrAzY про CrossFire и разгон HT на AM2
3 марта 2010 года - сведения про чипсет 890GX
29 августа 2010 года - сведения про чипсет 880G и ссылка на статью "Тестирование Radeon HD IGP..."
Благодарности
Спасибо IdeaFix, omnitrio и KrAzY за важные замечания.
Обсудить статью, оставить свои комментарии и высказать пожелания можно в этой ветке конференции.
Лента материалов
Соблюдение Правил конференции строго обязательно!
Флуд, флейм и оффтоп преследуются по всей строгости закона!
Комментарии, содержащие оскорбления, нецензурные выражения (в т.ч. замаскированный мат), экстремистские высказывания, рекламу и спам, удаляются независимо от содержимого, а к их авторам могут применяться меры вплоть до запрета написания комментариев и, в случае написания комментария через социальные сети, жалобы в администрацию данной сети.
Сейчас обсуждают