AMD FX 4100 Zambezi - Bulldozer in Action

AMD FX 4100 Zambezi - Bulldozer in Action Тестирование устройства MAD FX 4100 - безумие в действии. цитата: RE: AMD Bulldozer - ... Я понял, почему это чудо бульдозером названо: мощный (потребляет ~200 Вт), но медленный. Как и полагается бульдозеру. - Одним словом трахтор... ( разговор неизвестных в интернете о FX ) цитата: ... FX 4100 cpu fan has copper core to improve cache boost reliability у поклонника центрального процессора FX 4100 есть медное пушечное ядро, чтобы улучшить надежность увеличения тайника ( автоматический переводчик PROMPT о FX 4100 )

31 декабря 2011, суббота 07:47

grizlyk [ ] для раздела Блоги

AMD FX 4100 Zambezi - Bulldozer in Action
Тестирование устройства MAD FX 4100 - безумие в действии.

цитата:
RE: AMD Bulldozer
- ... Я понял, почему это чудо бульдозером названо: мощный (потребляет ~200 Вт), но медленный. Как и полагается бульдозеру.
- Одним словом трахтор...
( разговор неизвестных в интернете о FX )

цитата:
... FX 4100 cpu fan has copper core to improve cache boost reliability
у поклонника центрального процессора FX 4100 есть медное пушечное ядро, чтобы улучшить надежность увеличения тайника
( автоматический переводчик PROMPT о FX 4100 )

цитата:
... слишком смело, надо было начинать с трехтактных двигателей
( изречения grizlyk-а для заучивания наизусть, том 2, стр 43 )

Содержание.
1. Предыстория.
2. Завершающая стадия выбора.
3. Дневник наблюдений за MAD FX 4100.
- Неделя первая.
- Неделя вторая.

Предыстория - теория.
Это просто опечатка в названии процессора, но очень любопытная. Итак. Перед новым годом кто-то всегда идет в баню, ну а кто-то за новым процессором. Но на самом деле мне только был нужен процессор для матплаты с сокетом AM3+, которая процессора не имела, пылилась. Все прикидочные рассчеты показывали, что для моих задач оптимальный процессор это по прежнему AMD athlon X3 3.2ГГц по цене 80уе с планом разгона на 20% и лотерейным разблокированием кэша/ядра. В результате я получил бы вполне приличный десктопный компьютер с понятными возможностями по цене плата+проц+офисное_видео менее 200уе.
Рассмотрение имеющихся для меня в продаже атлонов Х4 показало, что четвертое ядро оценено слишком высоко - 50% стоимости всего атлона Х3 (переплата 20уе), хотя по опыту текущего использования в многозадачности малопоточных приложений три ядра оказываются вполне оптимальным решением; а рассмотрение феномов Х2 и Х4 показало, что покупка фенома х2 вообще бессмысленна, так как доплатив к 25% к стоимости х2 можно получить Х4 и удвоение производительности, т.е. одно ядро Х4 относительно х2 получашь бесплатно, а феномский кэш L3 оценен как +10уе за 1.5Мбайта на ядро атлона Х3 (по сравнению с атлоном Х4 кэш L3 вообще стоит +2уе на ядро - почти даром).
(здесь могла бы быть картинка, чтобы современный читатель отдохнул от усилий чтения)
Платить или не платить +50% к стоимости каждого атлоновского ядра за 1.5Мбайта L3 феномского кэша? У меня такой насущной необходимости нет, но проблема в другом.
Исследование подсистемы памяти фенома с помощью утилитки cctc (уже версия 0.05 с поддержкой проверки влияния многопоточности и синхронизацией потоков для улучшения измерения пиковой пропускной способности памяти) показало, что контроллер памяти атлоно-фенома работает фактически в одноканальном режиме, т.е. на практике даже в многозадачных приложениях не удается задействовать 128 бит пропускной способности двухканальной памяти. Меня это раздражает. Меня всегда раздражает стерео, которое лампочкой горит, но играет как моно и двухканальная память, которая работает как одноканальная.
По теории производительность одноканального режима атлоно-фенома очень близка к максимально возможной, что вселяет надежду, но надо отметить, что процесоры интел даже на сокете 1156 превышают этот теоретический максимум на 20%, т.е. или я неправильно считаю теориию, или неправильно интерпретирую результаты cctc или атлоно-феном хуже 1156 по доступу даже к одноканальной памяти почти в два раза.
Тоже самое соотношение амд-интел сохраняется и при доступе к двуканальной памяти, т.е. некоторые процессоры интел на сокете 1156 тоже не могут нормально задействовать двухканальный режим, что меня, рассматривающего сокет AM3, совсем не успокаивает.
В частичное оправдание контроллера памяти атлоно-фенома скажем, что первый анализ результатов теста cctc версии v0.04 показал, что необходимо разогнать NB-CPU не менее чем до 2.6ГГц, иметь включенными не менее 3-х ядер и запущенными не менее 3-х процессов, одновременно и активно обращающихся к памяти от этих ядер, чтобы приблизиться к результату доступа к точно такой же памяти неразогнанного 1156 на одном запущенном процессе и задействовать 128 бит пропускной способности двухканальной памяти, доведя скорость обмена с ddr3-1333 памяти 9-9-9-24 до 9Гбайт/с. Однако, одновременно с достижением предельных скоростей доступа к памяти, такой огромный объем переносимых данных в общем негативно сказывается на кэш попаданиях и уменьшает эффетивный размер L3 кэша, доступного каждому ядру. Также отметим, что 1156 потенциально выдает на точно такой же памяти в одноканальном режиме 6Гбайт/с, что превышает теоретический предел одноканального режима в 4.5Гбайт/с, рассчитанный из мануала JEDEC.
(здесь могла бы быть картинка, чтобы современный читатель отдохнул от усилий чтения)
Как же быть с сокетом 1155 и AM3+? Дело в том, что я не магазин, поэтому не могу запускать свой тест на всем существующем в мире оборудовании, а использовать результаты обычных современных тестов (отметим, что раньше тесты были иными), которые имеют красивое оформление, но результаты которых либо прямо противоречат опытам, либо не поддаются интерпретации, нет смысла, можно с таким же успехом запустить генератор случайных чисел.
Предположим, что процессоры AM3+ fx никто не покупает, но теоретически много людей покупают системы на базе 1155, но в результате из тех и других опубликовали результаты единицы - малое количество опытов не дает возможности вынести решение о результате для сокета.
Скажу честно, я был удивлен вялым интересом людей, увлеченных изучением производительности компьютеров и методам ее увеличения, к бесплатному инструменту с открытым исходным кодом для изучения производительности подсистемы памяти.
Я не собираюсь превозносить cctc, но пока это единственный инструмент, который лично мне позволил увидеть визуально работу кэшей, памяти и находить их скорость в разных режимах работы процессора и принимать решения не только о методе ускорения работы процессора, но и _решения при покупке нового оборудования_. Именно последний момент, я полагаю, привел к тому, что современные тесты превратились в то, во что они превратились со времен 90-х.
Среднестатистическая реакция на попытки изучать производительность процессора не соответствует среднестатистическому присутствию "лиц, заинтересованных изучением производительности компьютеров и методам ее увеличения", а демонстрирует присутствие заинтересованных PR представителей разнообразных производителей или представителей продавцов, которым без разницы что продавать.
Ну, не будем вычислять среднюю температуру в больнице и чесать всех под одну гребенку, наверняка где-то тут есть и живые люди, только кто так строит

?
(здесь могла бы быть картинка, чтобы современный читатель отдохнул от усилий чтения)
Короче, в результате всех этих факторов, процессор FX 4100 оказался для меня терра инкогнита. По имеющимся из имеющихся многочисленых обзоров опытам запуска на этом FX процессоре разнообразных Приложений ясно, что процессор в общем не блещет даже по сравнению с атлоно-феномом, но как конкретно не блещет?
Из имеющейся теории он содержит меньше вычислительных модулей (2 вместо 3) в полуядре, маленький по размеру L1 кэш данных с пугающим названием write-through, крупного размера но непонятной производительности кэши других уровней, большей частоты и непонятной производительности подсистему ddr3 памяти, выброшен свой амд-шный 3dnow! (вот и доверяй системе команд амд после этого). Кошмар. Но имеет расширенный набор из других команд и более высокую частоту при том же самом энергопотреблении - радостно отметим кукурузные мегегерцы и язвительные замечания о длине конвейера как у P4.
Перво-наперво, почтим своим вниманием write-through L1D cache, который своим названием сойдет прекрасной первоапрельской шуткой. Он имеет "4-cycle load-to-use latency" доступ против "18-20 cycle load to use latency" для L2, т.е. скорость записи в 5 раз хуже, чем скорость чтения, пожалуйста, пользуйтесь регистрами процессора.
С другой стороны, перепугано отметим, что кэш L2 в документах AMD также назван "в-основном-инклюзивным относительно L1, write-through кэшом с эксклюзивной архитектурой" (L2 cache is mostly inclusive relative to the L1 cache. The L2 is a write-through cache. L2 is Exclusive cache architecture storage in addition to L1 caches), хотя все прочие описания работы L2 кэша показывают, что он несинхронен с L3, а фраза "mostly inclusive" применительно к кэшу простому смертному напомнит лишь доклад Маузеру после посещения бара "голубая устрица" - dancing, sir, chiefly dancing.
Из иных источников, некоторые из которых прямо так и датированы April 1, 2010, известно, что Intel Pentium 4 use a mixed cache policy pattern where the data must not be in both of them but _usually it is_. This is called mainly inclusive policy. This cache hierarchy management policy is also called non-inclusive cache hierarchy. Так что продолжим язвить, что у FX не только длина конвейера как у P4

.
Есть еще неофициальные сведения, что запись в L1 порождает синхронную запись не в L2 непосредственно, как следовало бы ожидать от write-through кэша, а в специальный буфер комбинации записи (write coalescing cache), который объединяет возможные записи двух полуядер в общий кэш L2 модуля, т.е. где то в глубине души, где-то очень глубоко, теплится слабая надежда, что операция записи попав в L1 и этот буфер сможет для полуядра завершиться за 4 цикла, а не за 20, что позволит полуядру за оставшиеся до синхронизации с L2 кэшем 16 циклов выполнить чего-нибудь еще, кроме повторной записи, конечно.
Предполагаемое отсутствие L1D write-back кэша у FX здорово ударит по всем алгоритмам прошлого десятилетия вида "множественное чтение - множественная запись", которые пользуются (т.е. пользовались) L1 кэш-линиями как расширением набора регистров для эффективной множественной локальной модификации данных. Лично мне неизвестны гарантии замены таких алгоритмов на эффективный вариант вида "множественное чтение - единственная запись".
(здесь могла бы быть картинка, чтобы современный читатель отдохнул от усилий чтения)
Во-вторых, как называть ядра: у FX мы имеем особые явления: модули и полуядра (нити), значит FX 4100 это двухмодульный и четырех-нитевой процессор.
Полуядро FX конечно мощнее чем HT от интел, но ему далеко до атлоно-феномного ядра, более того, в отличие от ядра с HT от интел, который не страдает на однопоточных приложениях, модуль FX не может аккумулировать оба полуядра на один поток и меньше по однопотоковой мощности, чем атлоно-феномное ядро и при этом 50% его ресурсов простаивает, т.е. чтобы не обвинять модуль в растрате ресурсов, полуядро надо бы считать как полноценное, но слабое ядро (потому как условно считается, что ядра могут как угодно тратить ресурсы, если они отключены), но на деле полуядра в модуле отключаюся!, так словно они отдельные ядра, поэтому, чтобы не наводить тень на плетень, мы модули будем считать аналогом энерго-эффективного ядра, а полуядра аналогом вычислительно-эффективного HT.
Так вот, полуядер к тому же еще и мало: на четырех потоках полностью загруженный FX 4100 предлагает 8 унифицированных вычислителей, а трехядерный athlon - 9! Плюс L1 кэш данных FX с потенциально низкой производительностью на запись. Этот пример еще раз показывает, что модуль FX это аналог ядра, трехядерный атлон имеет в среднем вычислительные преимущества перед FX 4100.
Где-то лучше (мало), где-то хуже (много) модуль FX в самом _оптимистичном_ предварительном рассчете в среднем уступает ядру атлона в однопотоке на 30%. Единственный способ компенсации - увеличение частоты FX. Штатная частота FX 4100 3.6-3.8ГГц, что соответствует ядру атлона с частотой 2.8-2.9ГГц.

цитата:
- Представьте, что ваши стены загажены донельзя.
- Ну, я их ототру!
- Неа, смотрите...
Машина начинает чистить стену, продвигаясь вдоль нее и размахивая шеткой, срывая картины и повреждая обои.
- Сейчас, тут надо немного подправить, это новая модель...
Он крутит ручку и машина взревывая продолжает движение, разрушая стену...
(из разговора с рекламным дятлом, предлагающим новый чудо-аппарат для помощи по дому)

Любой добросовестный читатель уже догадывается к чему я клоню из такого далека - разогнанный на 20% донельзя МАД FX 4100 будет пытаться конкурировать с эталонным стоковым АМД атлоном х3 - 3.2ГГц. При этом он пожрет ту же мощность, обеспечит ту же производительность, но удовлетворит нашу любознательность.
Значит процессоры серии FX просто спроектированны с нехваткой мощности: вычислительных ресурсов и кэша. На месте АМД, вместо маленьких квадратных модулей надо было делать большие продолговатые и ограничиться на том же кристале конфигурацией 3/6 (трехтактный двигатель), а на кристаллах для топовых решений 4/8 с еще большим количеством ресурсов на модуль и количеством модулей, чтобы уверенно обгонять предыдущие модели.
MAD FX 4100 против AMD athlon X3 3.2ГГц, завершающая стадия выбора.
Осталось решить последний вопрос - с деньгами:

цитата:
- Вон как тебя угораздило, а! Нюхни-ка вот это, дружок, скажи, у тебя денежки есть?
- Ох..., фуу... Как, еще и платить придется?
- Что, нету? А ну-ка вынюхни, вынюхни обратно!

Процессор который в однопотоке с максимальным разгоном и скрежетом, жалобно пыхтя не уступит семпрону, а в многопотоке попытается не отстать от athlon X3 -3.2ГГц должен стоить соответствующие деньги - 80уе для конечного потребителя, просто исходя из конкурентных соображений, независимо от архитектурных новаций или соображений максимизации прибыли и кривой спроса/предложения, потому что мне непонятно какими идеями надо руководствоваться покупателю, чтобы предпочесть из двух равных моделей более дорогую.
По сравнению с атлоно-феномами у FX есть новая мощная система команд SSE4, из-за 32 нм техпроцесса есть возможность экономить энергию и не шуметь вентилятором в офисных задачах, работая на малых частотах и напряжениях (с потерей пиковой производительности), но для многих покупателей это все не стоит лишних 30уе, а остальные новшества имеются как названия, но не дают ожидаемой отдачи в плане производительности.
Вспомним и о том, что _сверху реально подпирает Интел_, увеличение цены включает в конкуренцию и Интел, который в абсолютном выражении требует больше денег и периодически страдает дизайном чипсетов (процессор некуда втыкать), но в процентном уже может дать более интересный результат как в плане производительности, так и в плане гибкости изменения конфигурации компьютера на базе данного сокета Интел.
Теоретически, пойдя на встречу амд и стимулируя развитие новаторских идей можно добавить 25% к стоимости новой модели и пожурив и махнув на них рукой, согласится на 100уе за FX 4100.
Мне же FX 4100 доступен в продаже по рыночной цене 126уе, т.е. к рыночной стоимости конкурентного процессора атлон х3 добавлено более 50%. Более того, добавив еще 100р за 130уе можно приобрести феном х4, который является полноценным четырехядерным процессором, который без всякого разгона в многопотоке обгонит вполне разогнанный двухмодульный FX 4100 примерно на 50%. Надо быть отчаянным MAD или очень любопытным, чтобы в таких условиях приобрести FX 4100.
Я решил сделать широкий жест - гулять так гулять, и высказав все то, что я думаю по этому поводу, выбросить на ветер 30уе заведя у себя подобие 80уе athlon X3 3.2ГГц, но уже по цене 126уе, т.е. теперь в течении 10 месяцев мне придется откладывать по 100 рублей (плюс 20 рублей процентов) в копилку, отказывая себе в мороженом

.
Дневник наблюдений за MAD FX 4100 - проверим теорию практикой.
Краткость - сестра таланта. Я установил в настроенную со времен атлона windows-7 новый, без всяких разгонов AMD FX 4100 и никаких тестов больше просто не понадобилось. Такая же картина будет при знакомстве с процессором интел i3 или i5.
Все написанное выше правда и AMD FX 4100 это очень близкий аналог athlon X3 (все тесты для athlon X3 описывают AMD FX 4100 работающий с частотой на 1ГГц выше, но athlon не поддерживает SSE4.2) и FX 4100 стоит дороже, но если есть десяток "лишних" уе, то лучше взять FX 4100, чем athlon X3, не разочаруетесь, я так думаю

030112
Неделя первая.
Сейчас FX-4100 работает на частоте 209*20=4180 + буст режим 209*20.5=4284, макс напряжение 1.51. Я пока не заметил, чтобы буст режим когда-либо задействовался, кроме режима холостого хода без энергосбережения, но вреда он тоже не наносит, а вот его выключение пока не проверено, при первой попытке отключить буст какие-то там трудности с энергосбережением возникли, но я не стал изучать этот вопрос, а включил обратно.
В обычном режиме напряжение 0.9 частота 209*7=1463, температура 42. Тестами доводилась температура в пике до 65, потом она снижалась до 60, это из-за задержки в разгоне вентилятора из малошумного режима, для него температура нарастает слишком быстро.
Разгон NB-CPU как и у атлона - мучительный, с двадцатой попытки подобрались параметры, разгон ядер простой, только множитель меняй.
Наверное можно разогнать и выше, но у меня нет приложений, где это бы понадобилось, работает как атлон х3 3.2ГГц с разогнанным NB-CPU, но FX чуть интересней.
Я думаю, одна из причин более комфортной работы FX4100 в офисных приложениях, это как ни странно, его высокая частота. Дело в том, что максимальную мощность из атлона х3 еще надо выделить, т.е. создать условия, при которых процессор будет заведомо перегружен вычислениями и все burst режимы заработают, а для FX этих условий не нужно, из-за высокой частоты он способен очень быстро исполнять мелкие части процессов, которые не успевают задействовать burst режимы, не используют кэш L1 для записи и не могут нагрузить более двух исполнительных блоков за раз, т.е. в тех случаях, когда вычислительные заторы образуются в других местах, а не в самом процессоре.
Другая причина - улучшенная работа контроллера памяти FX, на однопотоке ускорение почти 50%, в среднем на 25%, в пике на 10%, сравнение работы атлона x3 283*12 (3.396 GHz)+nb*10(2.83GHz) и FX4100 209*20 (4.180 GHz)+nb*13(2.717GHz):

ядер 1:

15: 32768K: 4.432708e+008: 1.305273e-001s:       2510432.27Kb/s (    2451.59Mb/s,   2.39Gb/s )

15: 32768K: 4.098353e+008: 9.804672e-002s:       3342080.10Kb/s (    3263.75Mb/s,   3.19Gb/s )

ядер 2:

S2: 16: 65536K: 6.922235e+008: 2.038349e-001s:       3215150.36Kb/s (    3139.80Mb/s,   3.07Gb/s )

S2: 16: 65536K: 6.638138e+008: 1.588071e-001s:       4126766.72Kb/s (    4030.05Mb/s,   3.94Gb/s )

ядер 3:

S2: 16: 65536K: 9.048646e+008: 2.664501e-001s:       3689395.89Kb/s (    3602.93Mb/s,   3.52Gb/s )

S2: 16: 65536K: 1.058636e+009: 2.532622e-001s:       3881511.48Kb/s (    3790.54Mb/s,   3.70Gb/s )

ядер 4:

-

S2: 16: 65536K: 1.351083e+009: 3.232256e-001s:       4055124.39Kb/s (    3960.08Mb/s,   3.87Gb/s )

Для сравнения сокет 1156 стоковый i3 133*22(2.926ГГц):

ядер 1:

16: 65536K: 4.417037e+007: 7.547911e-002s:       4341333.88Kb/s (    4239.58Mb/s,   4.14Gb/s )

Скоро, очень скоро, АМД догонит Интел по доступу к памяти

.
Но цена на FX4100 все равно завышена, надо скинуть хотя бы 10уе, иначе рука не поднимается платить.

100112
Неделя вторая.

цитата:
- Ну а про FX?
- А что про FX? Атлон как атлон, только немного дорогой.

Содержание.
1. Не уступим ни герца.
2. Работа ТurboСore и изменения в настройку профиля питания.
3. Планировщик windows 7 и процессор FX
4. Изучение L1D кэша FX с помощью cctc версии 0.06
1. Не уступим ни герца.
На самом деле зафиксируем потерю целых 4-х _Герц_ в разгоне шины - снижение с 209Гц до 205Гц. Спустя время утруски, FX перестал проходить длительные тесты на частоте 209 Герц, причина, я полагаю в NB-CPU, который у моего экземпляра FX4100 не жаждет разгонятся более 30%.
Вообще, разгон ядер до 4.2ГГц и NB-CPU до 2.2ГГц не потребуют возможно даже повышения напряжения, но вот дальнейший ничтожные приращения частоты потребуют достижения практически предела допустимых напряжений, установленных АМД для FX.
Причем у меня тесты на частоте ядра выше 205*22=4.510ГГц и NB-CPU выше 205Гц*13=2.665ГГц не проходятся ни в холодном ни в горячем виде процессора, если сохранять напряжения ниже 1.5В.
Значит барьер разгона в 30% для штатной частоты 3.6ГГц остался недостижим и мой FX4100 в случае полной загрузки процессора аналог атлона x3 3.5ГГц, в случае неполной загрузки он превосходит самый разогнанный атлон x3 по скорости и поддерживаемым командам (кроме 3dnow!).
Также перестал работать AOD - перестал выдавать правильный разрешенный максимум напряжений для FX, рассогласовался с BIOS по параметрам частот и напряжений и изначально выдавал неправильный список поддерживаемых инструкций SSE.

2. Работа ТurboСore и изменения в настройку профиля питания.
Зафиксируем неправильную работу ТurboСore при разгоне - это приводит при заданной системе охлаждения или к недостаточной производительности на одном/двух потоках или к перегреву на трех/четырех потоках.
Мой экземпляр: на одном-двух потоках работа TC повышает частоту до максимума - 4.5ГГц, но TC работает не очень правильно, перестраховывается, сбрасывая частоту до нормальной - 4.3ГГц не при тепловой перегрузке, а при самом факте занятия дополнительного полуядра или еще каких-то причинах, известных только ТС.
Это несоответствие ожиданий TC и практики видно по температурам - при малой нагрузке на все четыре полуядра температура уходит в 50 градусов, но частота не повышается до 4.5ГГц, при той-же самой нагрузке с выключенным ТС и фиксированной в 4.5ГГц частотой температура стабилизируется на 62 градусах. При максимальной нагрузке с частотой 4.3ГГц температура также стабилизируется на 62 градусах.
В результате, вместо ТС я сам руками должен крутить движок множителя в зависимоти от нагрузки, если хочу чтобы процессор не перегревался или не простаивал. Правильная работа TC давала бы эту стабильную температуру в 62 градуса автоматически, независимо от нагрузки, как термостат.
На следующей картинке запущен тест 7zip в однопотоке и с интернета играет флэш-фильм Буратино, мы контролируем температуру и частоту процессора

Как видим, частота 4300 при температуре 52, хотя разрешенный максимум 4500, а максимум температуры явно задать нельзя, но он равен 62 при работе на четырех потоках. Буратино мешает работе TC и сбрасывает частоту процессора, что ухудшает производительность 7zip.
Установив FX я не смог активировать ТurboСore в режиме энергосбережения, виновником оказалась настройка профиля питания для режима энергосбережения. Это потому, что атлон не имел ТС, исправить очень просто, параметр "политика усиления ..." надо установить в 100%

3. Планировщик windows 7 и процессор FX
Эта картинка

показывает правильное расположение в ручную двух тяжелых задач по разным модулям, однопотоковый результат 7zip дает значение 3502 для FX на частоте 4.554ГГц.
На картинке с Буратино выше по тексту, однопотоковый результат 7zip дает значение 3356 для FX на частоте 4.3ГГц. Отметим, что разгон FX не кукурузный и дает реальный прирост производительности.
Следующая картинка

показывает неправильное расположение в ручную двух тяжелых задач в одном модуле, однопотоковый результат 7zip дает значение 2792 для FX на частоте 4.554ГГц. Падение производительности 20%! - еще одно доказательство, что полуядра это не ядра.
Помимо этого, непонятен мне планировщик виндовс 7 и тем, что он непрерывно перебрасывает поток приложения с одного ядра на другое, хотя стоит опция "выключить неиспользуемые ядра" (опция работает и ядра выключаются, но попеременно) и огорчает невозможность изменить такое поведение настройками планировщика (кроме явного задания разрешенных ядер для процесса, что сработает только при фиксированном числе нитей у процесса). Каждое ядро имеет выделенные кэши, зачем их все заполнять данными одного процесса? На включение и выключение ядра тратится время, зачем их попеременно переключать?
Возможность настройки планировщика может быть и есть, но спросить некого и негде.
Кстати, результат 7zip иллюстрирует сравнение процессора FX с атлоном (я еще не приводил картинок с такими сравнениями), его значение 3356 для FX на частоте 4.3ГГц соответствует ядру атлона на частоте 3.5ГГц или ядру intel i3/i5 clarkdale на частоте 3.2ГГц, а при работе 7zip на всех (четырех) потоках производительность FX еще немного падает и получается наше известое соответствие: частота_атлона +30% этой частоты_атлона = частота FX для равной с атлоном производительности, для 3.2ГГц 30% это 1ГГц.
В некоторых задачах, когда вычислительные заторы сосредоточены не в процессоре (например, это обычные офисные задачи и переключение между ними) и вероятно невозможно задействовать кэш L1 и все вычислительные блоки атлона, органолептически (и по секундомеру) FX показывает лучший результат, чем атлон, т.к. атлон не может разогнаться до 4.3ГГц и однопоточный доступ атлона к ddr3 памяти в среднем на 25% медленней.
4. Изучение L1D кэша FX с помощью cctc версии 0.06
В cctc версии 0.06 добавлены специфические паттерны -p5x, для рассмотрения работы L1D кэша FX отдельно на чтение и запись.
Паттерны -p5x не производят копирование, поэтому для них не требуется удвоение полученных значений скорости работы паттерна для вычисления скорости передачи данных.
Эффективный размер FX кэша L1D на запись, полученный из cctc равен 4Кбайтам, в следующем тесте граница скорости проходит между 4K/8K

#FSB:205.0 MHz

#CPU_mult:22.0

#Estimated CPU speed:4.510 GHz

#test pattern:'0x52'

01:     2K: 2.616600e+004: 5.801774e-006s:      27577772.68Kb/s (   26931.42Mb/s,  26.30Gb/s )

02:     4K: 5.099600e+004: 1.130732e-005s:      26531492.67Kb/s (   25909.66Mb/s,  25.30Gb/s )

03:     8K: 1.289520e+005: 2.859246e-005s:      19585582.23Kb/s (   19126.55Mb/s,  18.68Gb/s )

Эффективный размер это размер гипотетического write-back L1D кэша, который дал бы точно такой-же результат на тесте.
При копировании данных (паттерн -p1) эти гипотетические 4K не занимаются данными чтения, в следующем тесте в строке "4K" копируется 4K в 4K (всего в строке используется 8K памяти), но граница скорости также проходит между строками 4K/8K (в строке 8K используется 8K/16К памяти)

#FSB:205.0 MHz

#CPU_mult:22.0

#Estimated CPU speed:4.510 GHz

#test pattern:'0x01'

01:     2K: 2.824900e+004: 6.263636e-006s:      25544267.05Kb/s (   24945.57Mb/s,  24.36Gb/s )

02:     4K: 5.248700e+004: 1.163792e-005s:      25777811.65Kb/s (   25173.64Mb/s,  24.58Gb/s )

03:     8K: 1.332080e+005: 2.953614e-005s:      18959822.23Kb/s (   18515.45Mb/s,  18.08Gb/s )

Интересные результаты (достоверность которых пока под вопросом) были достигнуты в побеждальном для FX паттерне чтения -p53. Внутрикэшевые скорости вообще космические, а вот при выходе размера блока за границы кэшей скорость стала 9Гбайт/с - теоретически предельное значение для использованного типа памяти.

#FSB:205.0 MHz

#CPU_mult:22.0

#Estimated CPU speed:4.510 GHz

#test pattern:'0x53'

06:    64K: 3.085560e+005: 6.841596e-005s:      51449979.91Kb/s (   50244.12Mb/s,  49.07Gb/s )

15: 32768K: 1.547521e+008: 3.431310e-002s:       9549704.89Kb/s (    9325.88Mb/s,   9.11Gb/s )

Это впечатляет, есть только одна проблема - никто не пишет программы с явным упреждающим кэшированием ОЗУ страницами по 2-4К, это задача процессора содать такое кэширование для обычного потока данных, гранулярность которого кэш-линия.
Итого, можно сказать, что тестом cctc намерялось 16К L1D кэша на чтение и 4К L1D кэша на запись. Новые технологии

.
- - - -
Обсуждение этой статьи в форуме.