Начало войны ARM vs x86. Детальный анализ энергопотребления Atom, Krait, Cortex A15.Часть 1

11 января 2013, пятница 19:09
для раздела Блоги

Доброго времени суток всем читателям overclockers.ru. Представленная статья является переводом данного материала http://www.anandtech.com/show/6536/arm-vs-x86-the-real-showdown . Перевод решил сделать из-за того, что более чем уверен в том, что есть достаточное количество людей, не владеющих английским языком, но которые заинтересованы в теме соперничества между архитектурами x86 и ARM в мобильном сегменте.

В будущем, если вам понравится данная идея с переводами, буду делать переводы наиболее интересных статей, которые вы и сами сможете мне предлагать. Пожалуй, начну.
В прошлом месяце компания Intel устроила достаточно редкую демонстрацию для того, чтобы показать, что они имеют достаточно конкурентоспособную позицию относительно нвидиевского процессора Tegra 3 в плане энергопотребления. Как и многие компании в мобильном секторе, Intel полагается не только на заводское тестирование процессора для определения времени автономной работы. Для того  чтобы убедиться, что все компоненты работают максимально эффективно (CPU, GPU, контроллер памяти и NAND память) , производители (и Intel в том числе) измеряют энергопотребление непосредственно на материнской плате планшета или смартфона. 
                                                                    
Процесс был бы максимально облегчен, если бы были заранее заготовлены точки для измерений, но в большинстве случаев Intel (как и конкуренты) берет розничный вариант устройства и модифицирует его для получения возможности измерить энергопотребление CPU или GPU. Как это делается описано вот в этом материале:  http://www.anandtech.com/show/6529/busting-the-x86-power-myth-indepth-clover-trail-power-analysis
Предыдущая статья была написана на основе недостаточно интересного сравнения: Intel Atom Z2760 (Clover Trail) против Tegra 3. После долгих упрашиваний, Intel согласились провести сравнение с ещё двумя планшетами: Dell XPS 10, который использует процесор Qualcomm APQ8060A (dual-core 28nm Krait) и Nexus 10, сердцем которого является Samsung Exynos 5 Dual (dual-core A15). Новое тестирование должно стать более сложным для Atom`a. Обе эти SoC произведены на современном, «тонком» техпроцессе и у Intel больше нет преимущества в производительности по сравнению с Exynos 5.
Измерение потребления на батарее дает вам представление о полном потреблении системы, включающее дисплей, SoC, память, сетевые адаптеры и прочие компоненты платы. Эти данные полезны только в случае, когда вам нужно знать длительность работы устройства от одного заряда батареи, но когда вы являетесь производителем компонентов, то вы более заинтересованы в потреблении конкретно ваших или же компонентов конкурентов.
Инженеры Intel разбирают конкурирующее устройство и путем измерения всего, что может быть похожим на систему питания, под различными нагрузками определяют цепи питания, которые отвечают за обеспечение энергией отдельных блоков SoC. Несмотря на нынешний уровень интеграции мобильных SoC, основные компоненты чипа (например, CPU и GPU) работают со своими собственными цепями питания.

                                                Классическая схема LC фильтра
Обычно данные поиски заканчиваются обнаружением основного LC фильтра (катушки индуктивности и конденсатора), который питает интересующий компонент SoC. Как только нужный LC фильтр найден, все, что нужно сделать это последовательно впаять в схему резистор с очень низким сопротивлением (2 - 20 mΩ) и измерить падение напряжения на резисторе. Зная значения напряжения и сопротивления, можно определить текущее потребление. С использованием хороших измерительных приборов (в данном эксперименте NI USB-6289) вы можете получить график потребления за определенный период и составить представление о потреблении интересующего вас блока SoC.

                                           Модифицированная схема с резистором
Как и в прошлый раз, я убедился, что все дисплеи были откалиброваны до яркости в 200 нит и убедился, что прогаммы и конфигурации устройств максимально близки к равным. Оба планшета были приобретены в рознице компанией Intel, но я сверил их производительность с нашими собственными данными и увидел, что нет никакой разницы. Так у меня больше нет Dell XPS 10, я сравнивал производительность с Samsung ATIV Tab и убедился, что работало, как и должно было.
Начнем с Dell XPS 10 с процессором от Qualcomm.
Модифицируем Krait-платформу
Модификация Dell XPS 10 немного более сложная, чем Acer W510 и Microsoft Surface RT. В тех обоих планшетах есть только одна индуктивность на пути от батареи до блока CPU в SoC. XPS 10 использует  двухъядерный процессор от Qualcomm. Компания Qualcomm, ещё с первых своих разработок многоядерных процессоров, предпочла использовать независимые частоты и напряжения для каждого ядра. В то время, как ядра процессоров Tegra 3 и Atom Z2760 работают на одной частоте и напряжении, каждое ядро Krait процессора APQ8060A может работать на своей собственной частоте и напряжении. В результате, для питания процессорных ядер необходимо две цепи питания. На изображении оранжевым цветом выделены две катушки, каждая из которых отвечает за питание своего ядра:

Каждая из индуктивностей были отпаяны и к ним последовательно были припаяны резисторы сопротивлением 20 mΩ. Падение напряжения на резисторе было измерено и использовано для расчета потребления CPU в реальном времени. Графики, представленные ниже, отображают потребление обоих ядер процессора.
К сожалению, это было не все, что нужно сделать для точного измерения потребления CPU от Qualcomm. Если вы вспомните все детали архитектуры Krait http://www.anandtech.com/show/4940/qualcomm-new-snapdragon-s4-msm8960-krait-architecture , то поймете, что Qualcomm заставляет кэш второго уровня L2 работать на своем напряжении и частоте. В то время, как ядра процессора могут работать на частоте вплоть до 1.5 Ghz, кэш способен работать максимум на 1.3 Ghz. О данном факте вспомнили в процессе тестирования процессора, но мы так и не смогли найти элементы, ответственные за работу L2 кэша. Так что, конкретные цифры для процессора Qualcomm исключают потребление кэша L2. Данные для потребления всей платформы включают в себя это потребление, так как измерения проводились на батарее.
Более крупная катушка индуктивности, выделенная желтым цветом, отвечает за питание GPU и также была модифицирована припаиванием резистора  20 mΩ.
Визуальные данные о потреблении/частоте Krait процессора
Представленный ниже график отображает потребление энергии каждого ядра во время прохождения теста SunSpider:

SunSpider является хорошим бенчмарком для того, чтобы показать для чего Qualcomm использует асинхронную частоту/напряжение для каждого ядра. Для смешанной нагрузки, как в данном тесте, второе ядро не полностью загружено и частично простаивает. Если бы оба ядра работали на одной частоте/напряжении, то на втором ядре терялось бы больше энергии, чем в данном случае. Контраргументом для такой политики мог бы стать факт, что второе ядро могло бы также работать на максимальной частоте и тест был бы закончен быстрее, и ядро спокойно могло бы уйти в сон, не потребляя больше энергии.  Данный подход потребовал бы очень быстрого микроконтроллера для того, чтобы переключаться между режимами частоты/напряжения и не совсем ясно какой из подходов обеспечил бы большую экономию. (Моё личное мнение – второй подход не принес бы ощутимой экономии, так как не все программное обеспечение хорошо оптимизировано для равномерного распределения нагрузки между несколькими ядрами)
На втором графике показаны данные во время работы бенчмарка Kraken, где, как вы видите, оба ядра честно работают на полной частоте и рабочая нагрузка равномерно распределена.

Данный график показывает, что нет реального выигрыша от двух отдельных планов частоты/напряжения, так как оба ядра прекрасно работали бы при одинаковых параметрах. Qualcomm же в свою защиту может сказать, что ситуация, как в Kraken`e довольно редка (однопоточные приложения по прежнему наиболее распространены), и экономия энергии в ситуациях, вроде SunSpider делают данный подход стоящим. Конечно же, данный вопрос требует более глубокого изучения, а не выводов на основе двух графиков, но это не является темой данной статьи. Я подозреваю, что данная архитектура по управлению потреблением от Qualcomm является лучшим решением для обеспечения оптимального потребления. Как уже было сказано, что наилучшим образом работает в Qualcomm SoC, необязательно должно так же хорошо работать и на другой архитектуре.
Krait: режим простоя
Начнем наше исследование с изучения поведения системы в простое.  И хотя время работы от батареи устройства, когда вы реально им пользуетесь более важно,  наличие высокопроизводительной SoC, которая может быстро справляться с поставленной задачей, требует также и возможность быстро снизить уровень потребления до самого минимума по окончанию выполнения, чтобы получить реальную пользу от такой производительности. В данном тесте, мы рассматриваем энергопотребление на стартовом экране в Windows RT/8. Вы можете заметить, что четко различимы два периода во время измерения и на второй половине графика показано меньшее потребление. Это связано с тем, что «плитки» интерфейса перешли в неактивный режим. В этом тесте, WiFi включен, но он не задействован ни для синхронизаций, ни для передачи данных. Именно из-за WiFi мы видим пики даже после того, как «плитки» стали неактивными.

W510 действительно очень мало потребляет в режиме простоя. На пиках потребления WiFi результаты асера приближаются к таковым у Dell XPS 10, но все же продемонстрировал наименьшее потребление из тестируемых платформ. Surface RT является наиболее «прожорливым» из трех . Ну а XPS 10 расположился между MS и Acer.

Если же мы будем рассматривать только данные о потреблении CPU, то увидим различия. Помните, что у нас нет данных о потреблении L2 кэша, поэтому результаты XPS 10 выглядят более привлекательными, чем должны быть. И все же минимальное потребление CPU у платформы Krait достаточно низкое. И хотя Atom Z2760 создан на базе особой разновидности интеловского 32nm техпроцесса для  SoC, я подозреваю, что он не настолько экономичен, как 28nm LP техпроцесс TSMC. Ситуация может измениться с выходом 22nm процессоров. Все значимые вычислительные транзисторы в данной ситуации должны быть приостановлены, и то, что мы видим здесь является наилучшим результатом для всех SoC. Комбинация Krait и 28nm LP творит чудеса. Я не очень уверен, что Tegra 3 остается настолько более активной, как мы видим в конце графика сравнения.

Adreno 225, или что-либо другое, что у SoC Qualcomm управляет питанием GPU показывает очень высокую энергоэффективность в простое. Кривая, отображающая PowerVR SGX 545 выглядит более плоско в конце, но все равно не дотягивает до минимального уровня Adreno. Я не знаю точно, насколько большее влияние здесь оказывает противостояние архитектура/техпроцесс.  Со стороны GPU активность остается всегда, так как экран остается включенным и обновляется даже в простое, так что это нельзя считать режимом полно простоя GPU.
Для того, чтобы уменьшить влияние WiFi на результаты, все планшеты были переведены в режим полета и прошли те же самые тесты. Вы заметите гораздо более низкую просадку в момент перехода «плиток» в неактивный режим.

Отключение WiFI приводит к тому, что Acer W510 показывает действительно хорошие результаты. Intel очень плотно сотрудничала с Acer для достижения наименьших значений потребления.  XPS10 показывает лучший результат, по сравнению с Surface RT, но не столь значительно. Acer/Intel продемонстрировали уверенное лидерство.

Рассматривая же потребление только CPU (исключая L2 кэш у Krait) мы продолжаем видеть более низкое потребление энергии у APQ8060A по сравнению с Atom Z2760.  Я по-прежнему склонен к мысли, что это преимущество обеспечено в большей степени 28nm LP техпроцессом, а не архитектурным совершенством.

SunSpider 0.9.1
Результаты начинают выглядеть более интересно когда мы рассматриваем потребление во время активной нагрузки. Начнем с SunSpider, JavaScript бенчмарка, который часто используется в разнообразных обзорах.

На уровне потребления платформы в целом, Dell XPS10 расположился между Surface RT и Acer W510. В нагрузке график выглядит похожим на Acer W510 с Atom`om на борту, но производительность ниже, так что считаем общий уровень потребления выше.

В ситуации с CPU, все немного меняется. Пиковое потребление Atom`a такое же, как и у  Tegra 3, в то время, как Krait удается удержаться на несколько более низком уровне. Есть подозрения, что это отсутствие данных L2 кэша и дает преимущество в 100-200 mW, но все равно общий уровень потребления, скорее всего, будет ниже. И снова же, в режиме простоя Krait имеет определенное преимущество.

 Ситуация снова меняется, если мы рассмотрим потребление GPU. Связка Intel/Imagination имеет достаточно большой отрыв.

Kraken
Бенчмарк Kraken от Mozilla является новым пополнением в нашем тесте производительности для JavaScript. Тест длится дольше, чем SunSpider, но показывает схожую картину.

На уровне платформы, потребление Acer W510 в пиках немного выше, чем у XPS10, но также и проходит тест быстрее, что обеспечивает более эффективное использование энергии.

Взглянув на результаты потребления ядер CPU мы видим, что Qualcomm снова занимает лидирующие позиции, хотя, опять же, скорее всего причина кроется в отсутствии и потребления кэша. Intel демонстрирует  более высокую производительность, что позволяет процессору выполнить задание и перейти в спящий режим быстрее, чем APQ8060A.
Сравнивая эти данные с Tegra 3, не видим кардинальной разницы с тем, что мы видели в замерах потребления всей платформы.


RIABench
Тесты RIABench производят тестирование с иной рабочей нагрузкой и занимают мало времени. Взглянем более детально на уровни энергопотребления:

Видим, что W510 потребляет больше энергии на уровне платформы, но в состоянии простоя – меньше, чем XPS 10. Surface RT демонстрирует наиболее высокий уровень потребления.

Потребление CPU Krait (исключая кэш L2) снова оказывается ниже, чем у Atom`a, но Atom проходит тест быстрее. Но даже в данном случае APQ8060A в целом использует меньше энергии. Различие в результатах на уровне платформы и уровне процессоров, опять же, объясняется отсутствием данных о потреблении КЭШа и лишь частично особенностями каждого из планшетов.


WebXPRT 2013
Мы также включили в исследование новый HTML5/JS тестовый пакет WebXPRT. Intel и Qualcomm продемонстрировали довольно близкие результаты. Стоит отметить, что тесты на планшете с процессором Qualcomm были запушены не одновременно с тестами на Atom`e. Именно поэтому на графиках создается впечатление, что Аtom дольше проходил тест. И снова видим, что W510 побеждает XPS 10 на уровне потребления платформы. Но на уровне процессора Krait удается вырвать лидерство. В плане потребления GPU видим, что связка Intel/Imagination оказывается наиболее энергоэффективной. Так как производительность в 3D здесь не играет особой роли, связка Qualcomm/Adreno 225 не имеет преимуществ за счет большей производительности – она всего лишь потребляет больше энергии.
И снова Tegra 3 остается не у дел. Более интересным участником для таких моперников была бы SoC Tegra 4.




TouchXPRT 2013
Также мы провели тестирование в пакете TouchXPRT 2013. Из-за того, что в данной программе нет функции «Запустить все тесты», мы предоставляем вам графики с каждого отдельного теста. В отличие от предыдущих тестов Qualcomm оказывается несколько медленнее , чем Intel, а большинство тестов пакета показали примерно схожую производительность обоих участников.  В большинстве случаев, связка Acer/Intel  выигрывает на уровне платформы и GPU потребления, в то время как Krait отыгрывается в потреблении CPU. Но не забывайте про L2 кэш.












Потребление GPU – нагрузка 3D приложениями
Так как у нас до сих пор нет GPU бенчмарков для Windows RT/8 с которых мы могли бы предоставить данные, графики ниже были построены на основе выполнения одной и той же игры, на одном и том же игровом промежутке. Tegra 3 остается бесспорным лидеров в этом тесте, за ней следует Adreno 225 и замыкает  тройку PowerVR SGX 545. По потреблению, системы расположились в таком же порядке, хотя похоже на то, что Tegra «сжигает» намного больше энергии предоставляю не намного большую производительность. Было бы очень интересно увидеть в этом тесте данные решений Imagination постарше.



 
Вот и подошла к концу первая часть статьи. Следующая часть появится в ближайшее время. В продолжении к сравнению добавится Cortex A15 - новая прогрессивная архитектура, которая вывела ARM процессоры на новый уровень. В комментариях или на ветке форума http://forums.overclockers.ru/viewtopic.php?f=25&t=288087 пишите свое мнение относительно того, стоит ли продолжать подобную деятельносмть с переводами наиболее интересных статей. 
Продолжение здесь
И снова ссылка на оригинал: http://www.anandtech.com/show/6536/arm-vs-x86-the-real-showdown
Оценитe материал

Возможно вас заинтересует

Популярные новости

Сейчас обсуждают