"Экспертная" оценка K10

Итак, анонс состоялся, обзоры появляются. Скажу, что все мои заявления сбылись <img src="http://cp.people.overclockers.ru/smiles/icon_smile.gif" border="0"> Итак, если кому интересно, могу дать свою оценку (наподобие "экспертной", но не от эксперта) архитектуре K10 и её обзорах. Заранее предупрежу, что привык называть процессоры по тех. названиям, потому не удивляйтесь названию Conroe для Core2Quad - архитектура имела кодовое название именно Conroe. Все соотношения скоростей будут даваться как K8\K10 ~ Conroe. По пунктам, сначала об улучшениях в ядре: Из тестов Сандры 1. Arithmetic ALU. Улучшена работа на 3-4%. Тут AMD шла близко к обычному положению с Conroe, а именно 3.0 ~ 2.4. То есть старшие 6000-6400 на уровне 6600-6700. Прирост неве...

26 ноября 2007, понедельник 15:07

antinomy [ ] для раздела Блоги

Итак, анонс состоялся, обзоры появляются. Скажу, что все мои заявления сбылись

Итак, если кому интересно, могу дать свою оценку (наподобие "экспертной", но не от эксперта) архитектуре K10 и её обзорах.
Заранее предупрежу, что привык называть процессоры по тех. названиям, потому не удивляйтесь названию Conroe для Core2Quad - архитектура имела кодовое название именно Conroe. Все соотношения скоростей будут даваться как K8\K10 ~ Conroe.

По пунктам, сначала об улучшениях в ядре:

Из тестов Сандры
1. Arithmetic ALU. Улучшена работа на 3-4%. Тут AMD шла близко к обычному положению с Conroe, а именно 3.0 ~ 2.4. То есть старшие 6000-6400 на уровне 6600-6700. Прирост невелик, но он есть. Стало быть, по этому параметру Phenom догонит C2Q6600 на частоте 2,95ГГц.
2. Arithmetic FPU. Улучшена скорость на 8%. Скорость сопоставлялась раньше как 2,5 ~ 2,4, 2,8 ~ 2,66. Теперь 2.3 ~ 2.4.
3. Multimedia FPU. Улучшена работа с на 20,4%. Положение в этой категории было хуже, чем обычно в рейтинге. Примерное соотношение 2,4 ~ 1,8. Скорость выросла очень неплохо, но всё же недостаточно для одинаковой производительности на одной частоте. Теперь соотношение выглядит 2,87 ~ 2,4 (Q6600). Если соотнести с прежней цифрой, то уже 2,15 ~ 1,8.
4. Multimedia ALU. Скорость практически не изменилась, разница ~0,7%. Учитывая отрыв Conroe в разы, ситуация не радует. Всё что смогла AMD с четырьмя ядрами это догнать и обогнать младший E2140 с частотой 1,6ГГц и двумя ядрами.

Небольшой нюанс – мало того, что трудно понять разницу между используемыми в тестах Arithmetic и Multimedia наборами SIMD инструкций, так и сами тесты ещё оптимизируются под конкретную архитектуру. В частности, оба multimedia теста оптимизированы под применение SSE, SSE2, sSSE3 на процессорах Intel. А это уже говорит о необходимости проведения очень тщательных тестов для корректного сравнения. Тест multimedia – это постройка множества Мандельброта, но какие инструкции используются неизвестно.

Вторым пунктом будет работа с памятью:

1. Один 128 битный контроллер заменён двумя 64-битными. Теперь их физически два, несмотря на то, что многие обзоры ошибочно называли их одним с двумя каналами. Согласно терминологии AMD, канал – это проводники, соединяющие контроллер памяти (КП) с банком памяти. А контроллера два.

Примечание:
Это даёт возможность независимой работы с разными участками памяти параллельно, причём меньшими блоками (32 байта, а не 64), что должно хорошо сказаться в многопоточных приложениях, использующих работу с памятью несколькими ядрами одновременно или использующих почти случайный доступ к памяти. Но пока таких немного. Также у контроллера есть возможность работать в старом режиме, когда два этих контроллера будут работать как один 128-битный. Об этом чуть подробнее – несмотря на то, что архитектура уже более чем два месяца назад была анонсирована, не все интересующиеся и даже обозреватели и авторы прочли его! Потому очень часто возникают разного рода споры на пустом месте. Остаётся ответить словами apple_rom и послать читать даташиты, благо они есть в свободном доступе. Чтобы определить режим контроллера, достаточно считать PCI регистры устройства 0,0,0 (NB) и определить, что это K10. А далее считать регистр F2x110[4]. Если 0, значит unganged (несвязанный) режим. То есть, как 2*64. А если 1, то 1*128. Самое интересное, что можно регулировать состояние контроллера 128 бит – включено/выключено и получать как аналог сокет 754 (но с DDR2), так и 939\AM2 процессоров K8. Рекомендация AMD гласит, что несвязанный режим лучше использовать при работе в многопоточных приложениях, а связанный (старый) - в однопоточных приложениях или при использовании ECC.

2. Повышена скорость bandwith per clock.

Стоит немного пояснить важность сего пункта. В отличии от Интел, имеющей КП в чипсете, у AMD он внедрён в процессор. Также появилась интересная деталь – ПСП зависит от частоты процессора. Отчасти из-за скорости кэша L2, отчасти из-за особенности контроллера. Потому скорость работы с памятью у процессора на частоте 2,4ГГц будет ниже, чем при частоте 3,0ГГц, даже несмотря на одинаковую частоту памяти. Порой даже при меньшей у второго! Это важный аспект, из-за него при обзоре AM2 Том Пабст заявил о том, что слабые процессоры не могут использовать всю мощность памяти. Это так, но это именно ограничения КП и L2 кэша. И даже при 3,0 процессор е мог выжать максимум из 2*DDR2-800. Подробнее об этом явлении мождно прочесть на IXBT.

Барселона же намного меньше подвержен сему явлению – у него и контроллеры могу использоваться разными ядрами и эффективность выше. Но очень низкая частота даёт повод задуматься о необходимости изучить данный вопрос.

3. Очень важным нюансом является то, что во всех обзорах частота северного моста (КП и L3) составляла 2000МГц. Хотя, во-первых, множитель процессорных ядер мог изменяться в AMD Overdrive. Множитель же NB составлял 10x и не мог быть изменён. Во-вторых, было обещано, что одним из достоинств платформы AM2+ будет возможность работы NB на частоте на 200МГц большей, нежели процессорные ядра. Предположу, что выйдет новая версия утилиты, в которой иожно будет это изменить. Пока остаётся рекомендовать разгонять по шине, в результате можно будет оценить вклад частоты NB в ПСП и общую производительность. Конечно, следует нивелировать влияние возросшей частоты HT, например, снизив множитель HT. Хотелось бы увидеть подобные обзоры.

4. Из-за внедрения 2-х независимых контроллеров, в синтетическом тесте получались ошибочные результаты, ввиду попытки определения пропускной способности простыми алгоритмами, наподобие встроенных в программы Sandra, Everest. Если же использовать более продвинутую Rightmark multithreaded test, который может делать многопоточный тест чтения\записи памяти, то можно будет, уверен, заметить соответствующий прирост, возможно по абсолютным значениям скорости уступая Athlon64 X2 6000-6400+, ввиду п.2 Как вариант, можно перевести процессор в режим 1*128 бит и сравнить обычными тестами. Заметить достоверность данной догадки можно в тесте PCMark05, который использует многопоточность.

Третьим пунктом является масштабируемость:

1. Как и раньше, AMD не использует захватываемую шину. Применение Intel подобной шины, оставшейся с самых ранних SMP систем, очень сильно сказывается на масштабируемости (процента прироста скорости работы SMP приложения по отношения к однопоточной системе). У AMD отсутствует оная, будучи заменённой на арбитр доступа к памяти и шину HT, по которой передаётся значительно меньше информации.

2. Замена одного 128-битного КП двумя 64-битными привела к возможности более эффективной организации работы с памятью для нескольких потоков.

3. Кэш L3 объёмом в 2МБ даёт дополнительный прирост в виде возможности обмена данными между ядрами через него. Вклад данного элемента ещё только предстоит выявить.

4. Повышенная скорость шины HT, приобревшей версию 3.0 даёт возможность обеспечения большего потока данных для мощностей 4-х ядер.

Все четыре пункта выливаются в эффективность 93,25% (373% прироста от четырёх ядер), против 88,25% у C2Q (353% прироста).

Что в итоге? Чуда не произошло, AMD улучшила архитектуру, но не в разы, а на проценты. Лично я вижу необходимость исследовать ситуацию при минимальных таймингах и оптимальном соотношении частота памяти\тайминги. Это для энтузиастов. А для AMD – продолжить работу над ускорением обработки SIMD инструкций, повышая скорость их работы. Но какими именно наборами – нужно ещё выяснить, ибо Сандра при штатных настройках в этом плане не очень компетентна. Необходимо использовать одни наборы команд (то есть хотя бы отключить sSSE3) и\или провести опыты на пакете тестов Everest и других, с учётом зависимости теста процессора от ПСП (такое на некоторых тестах наблюдается). Сдаётся, что подобного мы не увидим, но как хочется иногда помечтать о расстановке точек над “i”.

P.S.: По мере появления новых обзоров и, как следствие, новых данных, оценка будет дополняться и исправляться.

Обсудить статью можно на конференции.

Появился каталог моих записей.