Процессоры – завтрашний день. Обзор до 2012 года. Часть 2.
реклама
Предисловие.
Обсудить изложенное можно будет здесь:
https://forums.overclockers.ru/viewtopic.php?t=231765
Ещё раз хочу напомнить, всё описанное ниже взято из опубликованных в Интернете статей и новостных лент почти слово в слово. Всё что Вы видите всего лишь подборка материалов, исходящих по разным каналам от Intel и AMD, проанализированная и оформленная в виде статьи с выделением некоторых значимых моментов. Сотрудники Intel заведомо знают своё будущее, потому что работают на него с солидным опережением уже сейчас.
У Intel архитектура следующего поколения называется Nehalem. Однако если обратиться к архивным документам, то можно обнаружить, что процессор с таким кодовым именем был запланирован еще в 2000 году. Но по планам того времени это должен был стать чип, в основу которого легла бы архитектура NetBurst, используемая в Pentium 4 и Pentium D.
Порядок выхода чипов был следующим:
Willamette -> Northwood -> Prescott -> Tejas -> Nehalem
Как известно, NetBurst остановила свое развитие на ядре Prescott. В 2004 году Intel официально заявила, что Tejas представлен не будет, а все силы компания бросает на разработку принципиально нового процессора, которым стал Core 2 Duo, представленный в 2006 году.
Покопавшись, в архиве новостей за последние несколько лет, удалось обнаружить некоторые интересные сведения о первой версии Nehalem. В 2003 году предполагалось, что магистральным путём развития производительности процессоров станет рост частоты. Prescott достигнет 5.2 ГГц (шина 800 МГц), хотя реально частота не превысила 3.8 ГГц (4.0 ГГц версия планировалась, но была отменена). В конце 2004 года ожидался выход чипов на ядре Tejas. Выполненные по 90 нм техпроцессу его первые версии должны были работать на частотах до 5.6 ГГц, а системная шина составила бы 1066 МГц. Судя по слухам, Tejas смог бы "дорасти" до внушительных 9.2 ГГц. Nehalem в свою очередь стал бы очередным эволюционным витком NetBurst. Его начальная частота должна была составить 9.6 ГГц, а в 2005 году вроде как должен был появиться 10.2 ГГц (!) процессор. Системная шина при этом работала на 1200 МГц.
Что ж, внушает, надо сказать. Из данных прогнозов сбылись предсказания только насчет системной шины: сегодня она составляет 1333 МГц, а в будущих Penryn поднимется до 1600 МГц. Да и Nehalem вновь всплыл у Intel. Вообще компания говорит о новой микроархитектуре еще с 2005 года, а во второй половине следующего года она должна увидеть свет. Nehalem – это не обновлённая архитектура Core 2, а совершенно новая разработка. В какой-то степени можно говорить о том, что Nehalem – это сын Core и внук NetBurst.
Похожие, проверенные временем, принципы построения микроархитектуры есть, но поколение совершенно другое – полностью обновлены схемы и узлы процессора, построенные, в том числе и с учётом опыта создания многопотокового процессора Keifer - новая динамика системы с другим уровнем возможностей масштабирования.
А вот и Нахалем
Компания Intel продемонстрировала систему на базе двух четырёхъядерных процессоров Nehalem, которая работала под управлением Windows. Диспетчер задач демонстрировал наличие шестнадцати виртуальных ядер.
Прошедший в Пекине IDF Spring 2007 дал возможность разузнать у представителей Intel дополнительные подробности о процессорах поколения Nehalem. Перечислим основные тезисы, снабдив их собственными комментариями:
•многосокетность;
•структурированный многоядерный подход;
•модульный дизайн;
•несколько вычислительных потоков данных в одном ядре;
•переменное число ядер. Их количество достигнет восьми;
•встроенный контроллер памяти;
•поддержка новой высокоскоростной шины CSI (новое название QuickPath);
•встроенное графическое ядро (в специальных версиях);
•45 нм техпроцесс производства;
•поддержка новых SIMD-инструкций;
•поддержка многоуровневой кэш-памяти.
•Intel подтверждает, что процессоры Nehalem получат новые конструктивные исполнения: для Bloomfield - Socket B ( LGA 1366 - 1366 контактов) – для серверов и продвинутых настольных ПК; настольные бюджетные процессоры Lynnfield и Havendale получают отличное от Bloomfield конструктивное исполнение: LGA 1160 вместо LGA 1366; для восьмиядерных процессоры поколения Nehalem, которые будут представлены в серверном сегменте во второй половине 2009 года, конструктивное исполнение будет называться Socket LS или LGA 1567.
•Процессоры Nehalem потребительского класса (читай настольные) будут поддерживать обычную память типа DDR-3. Встроенный контроллер памяти будет эволюционным преемником современных северных мостов Intel, задержки удастся существенно снизить. Серверные процессоры поколения Nehalem смогут поддерживать и полностью буферизованную память FB-DIMM.
•Соединяться между собой процессоры в многопроцессорных системах будут при помощи последовательной шины, являющейся родственницей интерфейса PCI Express. Эта же шина будет соединять процессоры с чипсетом по шине CSI.
•Встроенное в процессоры поколения Nehalem графическое ядро будет поддерживать DirectX10. При использовании специального программного обеспечения оно сможет служить ускорителем научных расчётов и прочих задач, приписываемых проекту Larrabee.
Читая некоторые пункты в данном списке, в голове мелькает мысль "кое-что мы уже видели". И действительно, встроенный контроллер и поддержка высокоскоростной шины уже реализованы в процессорах AMD, а многосокетность и встроенное графическое ядро уже задекларированы и будут присутствовать в Bulldozer. Конечно, реализация Intel будет довольно сильно отличаться от AMD- общие только идеи. Посмотрим, что предложат новые процессоры Nehalem своим потенциальным потребителям.
Планируется, что в Nehalem на пике развития будет 8 ядер – 16 потоков. Официально подтверждено, что вернется идея поддержки технологии логической многопроцессорности (несколько вычислительных потоков в одном ядре) ранее применявшейся в Pentium 4 и известной как HyperThreading. Кроме того, Nehalem будет содержать и некие оптимизации, позволяющие ему эффективно работать в однопоточных приложениях.
Полупроводниковый кристалл Nehalem состоит примерно из 731 млн. транзисторов. Помимо четырёх вычислительных ядер он содержит контроллер шины QuickPath (старое название CSI - Common System Interconnect).
Информация о шине QuickPath ходит по Интернету уже несколько лет( одна шина предназначена для соединения процессоров между собой, а другая с чипсетом, и включающей в себя высокопроизводительный контроллер памяти с низкой латентностью) . По сути это альтернативная реализация HyperTransport. Последняя, к слову, присутствует на рынке уже более семи лет, хоть используется в процессорах AMD не более четырех. Теперь Intel решила реализовать идею последовательной шины, работающей по принципу точка-точка, и избавить свои многоядерные системы от традиционных "узких мест". Маркетинговое имя – QuickPath в дословном переводе с английского оно переводится как "быстрый путь". Очевидно, тем самым Intel хочет подчеркнуть, что передача данных по шине нового поколения будет происходить очень быстро. Имя HyperTransport в этом смысле почти синоним.
Представители Intel подчёркивают, что архитектура Nehalem имеет блочную структуру. Она позволяет отключение:
- отдельных ядер;
- отдельных потоков;
- частей кэш-памяти;
- контроллеров одной из шин QuickPath;
- одного или нескольких каналов контроллера памяти.
Благодаря такой модульности компания собирается предложить широкий спектр продуктов семейства Nehalem различной стоимости и ориентированных на разные рынки. Для повышения эффективности производства смогут реализовываться кристаллы, имеющие отдельные дефекты.
Архитектура Nehalem позволит Intel удерживать на рынке процессоров для настольных ПК свое технологическое лидерство. Также эта архитектура должна обеспечить решениям компании лидерство в плане производительности и производительности на Ватт энергии. QuickPath обеспечит быстрое взаимодействие между компонентами системы.
Тепловыделение 3 ГГц 4 ядерных процессоров Nehalem ожидается в районе 65 Вт. Что касается тепловыделения процессоров Nehalem с частотой 3.6 ГГц и выше, коллеги спешат напомнить, что TDP для подобных процессоров остаётся неизменным - 130 Вт. Это означает, что ради высокой частоты эти четырёхъядерные процессоры могут отказаться от энергетической экономичности.
Техпроцессы Интел
Как стало известно, первый настольный процессор с архитектурой Nehalem появится в четвёртом квартале 2008 года - сейчас он носит кодовое обозначение Bloomfield. Встроенный контроллер памяти получат все процессоры этого поколения, а интегрированным графическим ядром обзаведутся только мобильные и настольные бюджетные разновидности - эти процессоры появятся только в 2009 году. Четырёхъядерные процессоры для ноутбуков будут представлены уже во второй половине 2008 года.
Появилась информация о первом восьмиядерном процессоре Intel. Он имеет кодовое обозначение Gainstown (встречается также Gainestown) и состоит из двух кристаллов в одной упаковке, на каждом из которых расположены четыре ядра. Он будет выпускаться по 45 нм техпроцессу второго поколения. Соответственно, процессор Gainstown будет иметь архитектуру Nehalem и конструктивное исполнение LGA 1366. Площадь каждого кристалла составит 191 кв.мм. (16.3х11.8 мм). Для сравнения: современные двухъядерные процессоры Conroe имеют площадь кристалла 143 кв. мм, а 45 нм процессоры Wolfdale будут иметь площадь кристалла 107 кв.мм. Существенный прирост площади кристалла в случае с Gainstown будет обусловлен увеличением объёма кэша, числа ядер, числа потоков на ядро и появлением интегрированного контроллера памяти.
Традиционно у Intel имеются следующие условные рубежи площади ядер, разделяющие процессоры по ценовым сегментам:
•Более 200 кв. мм - сегмент для энтузиастов;
•От 140 до 200 кв. мм - производительный сегмент;
•От 110 до 140 кв. мм - массовый сегмент;
•Менее 110 кв. мм - бюджетный сегмент.
Интел - сравнение площади ядер
Как можно убедиться по фотографии, площадь кристалла у четырёхъядерной версии Nehalem почти в 2 раза больше, чем у двухъядерного 45 нм процессора Penryn с 6 Мб кэша второго уровня. Процессоры Nehalem будут иметь разделяемый кэш второго уровня объёмом 8 Мб.
В серверном сегменте в 2009 году будет представлена платформа с восемью процессорными разъёмами. Каждый такой разъём сможет разместить один восьмиядерный процессор, способный обрабатывать по два потока на ядро. В итоге система сможет обрабатывать до 128 потоков данных одновременно. Производительность пропорциональна 64 двухъядерным процессорам Core 2 – Conroe, работающим на аналогичной частоте.
Компания Intel не зря так много внимания уделяет рассказам об особенностях процессоров поколения Nehalem - они должны выйти во второй половине 2008 года, и времени на подготовку "информационной почвы" осталось не так много, учитывая наличие серьёзных архитектурных изменений.
Процессоры поколения Nehalem начнут активно продвигаться только в верхних ценовых сегментах, а более дешёвые решения будут использовать обладающие большей преемственностью процессоры Penryn.
Японские коллеги уверены, что процессоры Bloomfield смогут прописаться и в более доступных ценовых нишах - младшая модель может стоить не более $400, причём появится она ещё на рубеже 2008-2009 годов. К слову, вот так, по мнению наших японских коллег, должна выглядеть схема преемника платформы Skulltrail (двухъпроцессорный настольный компьютер с двумя процессорами Penryn), который будет использовать два процессора поколения Nehalem и чипсеты семейства Tylersburg:
Нахалем - схема преемника платформы Skulltrail
Работать процессоры Bloomfield будут в материнских платах на базе чипсета Tylersburg-DT, который тоже выйдет в четвёртом квартале 2008 года. Что характерно, он продолжит использовать южные мосты серии ICH10, которые впервые появятся в составе чипсетов Eaglelake двумя кварталами раньше.
Интегрированный трёхканальный (возможно 1 канал по началу будут отключать) контроллер памяти с поддержкой DDR3-1333 и конструктивное исполнение LGA 1366 потребуют использования новых материнских плат, а большой кристалл площадью порядка 190 кв. мм надолго задержит процессоры Bloomfield в верхней части ценового диапазона.
Одна из 15 лабораторий отладки Интел
В Hillsboro идёт тестирование систем на базе процессоров Нахалем.
32-нм рабочий прототип Nehalem
Данное решение использует транзисторы очень малых размеров. Первым чипом на основе 32 нм техпроцесса станет Westmere - эволюционное развитие Nehalem.
300-мм рабочая подложка с прототипами 32-нм, 4ядерного процессора Nehalem
Одним из важных показов стала демонстрация первых в отрасли рабочих прототипов процессоров, выполненных по 32-нм процессу. Ими стали ожидаемые CPU с архитектурой Nehalem.
Первые процессоры, выпущенные по 32 нм технологическому процессу, известные сегодня под кодовым именем Westmere, также получат очередное расширение набора команд. Однако в данном случае речь будет идти не об усовершенствовании набора SSE, а о введении нового класса инструкций, названного ATA (Application Targeted Accelerators). В рамках ATA Intel планирует внедрять специализированные инструкции, предназначенные для ускорения конкретных типичных приложений. Так, Westmere получит ATA-инструкции, предназначенные для убыстрения операций шифрования по алгоритму AES.
Компания Intel рассматривает возможность появления в серверном сегменте однокристальных восьмиядерных процессоров Beckton, они смогут обрабатывать по 16 потоков. Таким образом, восьми процессорный сервер на его основе позволит обрабатывать до 128 потоков. Что касается перспектив появления близких по характеристикам процессоров в настольном сегменте, то высокая цена будет сдерживающим фактором.
Восемь процессорных ядер на одном кристалле будут попарно использовать кэш низших уровней, а кэш последнего уровня объёмом 24 Мб будет разделяемым. Пока нет уверенности, что кэш будет трёхуровневым, но такая вероятность существует. Четырёхъканальный контроллер шины QPI будет связывать процессоры с элементами чипсета и между собой. Такие процессоры появятся во второй половине 2009 года, уровень TDP не превысит 130 Вт. В прототипе с 8 ядрами количество транзисторов более 1.9 млрд. штук.
Nehalem с 8 ядрами
Чуть позже (предположительно в 2010 году) Nehalem сменят новые процессоры на архитектуре Gesher. Выпускаемые по 32 нм техпроцессу Gesher будут иметь 8 ядер (32 потока) на одном кристалле площадью 260 кв.мм. Представьте только себе сервер с 8 процессорами по 32 вычислительных потока в каждом – 256 потоков. Каждый поток получит производительность приблизительно равную производительности одного ядра процессора Conroe (65 нм) или одного ядра Penryn (45 нм) на аналогичной частоте. Производительность будет увеличиваться пропорционально числу вычислительных потоков. Стоимость таких систем будет высока, но не смертельна. Себестоимость процессоров всегда пропорциональна площади кристалла и неуклонно, постепенно, снижается.
Но Nehalem и Gesher - это далеко не последний уровень развития принципиально новой архитектуры Intel. Эта компания имеет достаточно ресурсов, чтобы финансировать множество независимых друг от друга проектов. Еще более высокий уровень развития новой архитектуры отрабатывался в рамках проекта Tera-scale. Это процессор, способный обеспечивать вычислительную мощность до 1 TFLOPS.
Компания Intel и AMD наконец-то решили отойти от своих ранних разработок, начав внедрение элементов принципиально новых архитектур, с полным обновлением схем узлов процессора. Конечно, множество из тех идей, что будут реализованы в Bulldozer и Nehalem были уже изложены ранее, но до реализации дело дошло только сейчас. Например, интегрировать графическое ядро на кристалл процессора, еще 7 лет назад собиралась компания Intel. Проект назывался Timna и позиционировался как решение для бюджетных компьютеров. Однако он был закрыт, а силы израильской команды, занимавшейся им, бросили на создание "настоящего" мобильного ЦП, коим стал Pentium M.
Все новое - это хорошо забытое старое. И это отчетливо видно по будущим процессорным архитектурам. Будем надеяться, что они не разочаруют нас, а конкуренция между Intel и AMD продолжится в том же духе. Ведь ее плоды - снижение цен - радует нас с вами каждый день.
Мы уже подробно описала возможности процессорных архитектур ближайшего будущего. Они должны будут придти на смену современным Intel Core и AMD K10 через год - полтора. Однако сейчас уже ведутся более перспективные разработки, способные со временем вытеснить x86-архитектуру в принципе.
Несколько лет назад Intel хотела проделать подобное, представив процессор Itanium, но данную идею постигла неудача. Сейчас известно, что одной из перспективных разработок процессорного гиганта является проект Tera-scale. Недавно в его рамках был создан прототип 80-потокового процессора, после чего его продемонстрировали широкой публике. В этой статье описывается устройство нового сверхпроизводительного чипа.
Недавно компания Intel обнародовала восемь новых технических документов о своем 80-поточном ( 10 узлов - ядер, по 8 потоков в каждом) процессорном прототипе Tera-scale, который является на сегодняшний момент одним из наиболее производительных решений в операциях с плавающей точкой.
Впервые об этой новой разработке компании Intel официально заговорили в марте 2006 года, а уже менее чем через год был продемонстрирован действующий прототип, преодолевший рубеж производительности в 1 TFLOPS.
В настоящее время над проектом Tera-scale работают более 10 независимых команд специалистов Intel. Они занимаются проектированием и разработкой элементов новой платформы, начиная с электрических схем и заканчивая программным обеспечением.
80-поточный процессор в системной плате.
Еще в феврале этого года, процессорный гигант представил прототип чипа, построенного в соответствии с 65 нм техпроцессом. Он объединял вместе 80 независимых ядер, и его частота составляла 3.16 - 5.80 ГГц. В шести различных тестах, отражающих производительность систем в традиционных вычислительных операциях, прототип процессора Tera-scale смог показать 1.01 TFLOPS параллельных вычислений при потребляемой мощности всего лишь 62 Вт (!!!), 1.63 TFLOPS при частоте 5.10 ГГц и мощности 175 Вт, 1.81 TFLOPS при частоте 5.70 ГГц и мощности 265 Вт. Хотя эти результаты не могут не впечатлить, то, как этого добились в Intel, впечатляет еще больше.
Инженеры Intel активно использовали уже готовые логические компоненты для создания своего прототипа. Это означает, что арифметические модули, контроллеры памяти, внутренние технологии маршрутизации, кэш-память и многие другие элементы прототипа были использованы либо в том же виде, в каком они уже имеются сейчас, либо же в них были внесены минимальные изменения. Этот подход позволил компании создать действующий прототип новой платформы менее чем за год.
Одним из наиболее существенных преимуществ платформы является ее "сборная конструкция". По сути Intel удалось создать процессор, для которого не важно какой вычислительный движок заключен в каждом из ядер. Это позволит в будущем, используя единую логическую систему, создавать сложнейшие вычислительные системы, которые будут собираться как "конструктор", для решения самых различных задач на базе одной платформы.
80 гомогенных ядер прототипа Tera-scale.
Это стало возможным благодаря использованию новой шинной архитектуры, позволяющей любому ядру связываться напрямую с любым другим ядром по методу "один к любому". Сам по себе прототип использует 80 однородных ядер – 80 вычислительных потоков, но, по заявлению специалистов компании, число используемых ядер не ограничено, и они отнюдь не должны быть однородными.
Intel использует многоуровневую коммуникационную систему в своей платформе Tera-scale. Представленный прототип чипа состоит из десяти узлов, каждый из которых включает по восемь вычислительных потоков. В свою очередь каждый узел может обращаться к любому другому узлу и затем уже к любому ядру, входящему в его состав, в пределах процессора. Каждое ядро напрямую может обращаться к любому ядру из своего узла, но требует использования связи "узел к узлу" при обращении к ядрам за пределами своего узла. По словам представителей процессорного гиганта, подобная система маршрутизации, применяемая в Tera-scale, позволяет любому элементу в пределах узла связываться с любым элементом на чипе.
При этом отмечается, что этими элементами не обязательно должны быть вычислительные ядра. По сути, в рамках одного узла могут быть объединены разнородные ядра. При этом сам узел не обязан содержать что-либо кроме системы коммуникационного маршрутизатора. Это означает, что платформа Tera-scale позволяет совершенно без ограничений объединять в рамках чипа цифровые процессоры сигналов, вычислительные ядра или другие элементы.
Таким образом, компании удалось создать на одном чипе в полном смысле "многокомпьютерную" систему, способную решать разноплановые задачи в зависимости от используемых элементов этого "конструктора". Если вам нужна более производительная в операциях с плавающей точкой система - пожалуйста, размещайте дополнительный узел с ядрами, занимающимися вещественными вычислениями. Или же можно добавить несколько специализированных RISC-ядер или узел кэш-памяти. Такая сборная структура открывает перед нами новые возможности и гибкость по настройке производительности системы, которые даже трудно сейчас представить.
Структура Tera-scale представляет собой своеобразный "сэндвич". Память размещена в нижней части чипа и вертикально связанна с находящимся сверху ядром. Каждому ядру полагается по 64 Мбайт ОЗУ. В прототипе общий объем памяти составил 5 Гбайт, но Intel была ограничена техническими требованиями и определенным количеством транзисторов.
Коммуникационная система была создана чрезвычайно быстро благодаря использованию уже готовых компонентов Intel. Это хотя и несколько ограничило пропускную способность шины, которая без сомнения будет гораздо выше в финальном исполнении процессоров Tera-scale, тем не менее, прототип продемонстрировал впечатляющую внутреннюю пропускную способность 1.2 Тбайт/с.
Также на прототипе была реализована "экономная" система дистрибьюции сигнала синхронизации. По данным специалистов Intel около 30% всего энергопотребления процессора идет на эту операцию, а у Tera-scale это лишь 10%, что достигается благодаря меньшему числу повторов. Это позволяет передавать сигналы на большие расстояния с меньшими энергозатратами. Для этого компании пришлось преодолеть серьезную проблему в виде несовпадения фаз исходного и полученного сигнала при передаче сигналов на большие расстояния. Решение помогла найти математика: рассчитывается на сколько может измениться фаза сигнала синхронизации при передаче на определенные расстояния. Это позволяет изначально изменить передаваемый сигнал, чтобы в конечную точку он "прибыл" в нужной фазе.
Еще одной замечательной стороной новой платформы является маршрутизация. Каждое ядро само по себе снабжено маршрутизатором, который может передавать сигналы в шести направлениях. Это традиционные север, юг, восток и запад, позволяющие восьми ядрам обращаться к соседям. Есть еще два дополнительных направления: логические вверх и вниз, которые связаны с обращениями к памяти и узлу.
Каждое ядро обращается напрямую к соседним ядрам. Также напрямую связываются и узлы друг с другом. При этом совершенно не важно, что находится в узлах, главное, что они могут друг с другом общаться. А с системой маршрутизации, используемой здесь, это не составляет особого труда. Так Intel реализовала в Tera-scale масштабируемость, позволяющую создавать сколь угодно сложные вычислительные системы.
Система маршрутизации, реализованная в прототипе Tera-scale, позволяет настраивать физические пути передачи данных после отправки первоначального запроса. Когда путь открыт, отправитель передает N-число пакетов данных. После приема информации получатель посылает обратно сигнал о том, что передача прошла успешно без ошибок, после чего закрывается путь. В этом случае каждый маршрутизатор между отправителем и получателем точно знает, сколько данных будет передано. И после того, как информация передана, роутеры могут автоматически перестроиться для отправки данных в соответствии со следующим заданием.
В Tera-scale реализована мощная система самокоррекции, столь необходимая при создании многоуровневых сложных вычислительных систем. В том случае, если ядро не проходит по каким-либо причинам самоконтроль, оно может отправить другим ядрам информацию о своем выходе из строя. При этом система маршрутизации автоматически перестроится в соответствии с "внесенными" изменениями и тем самым не потребуется программное вмешательство. Это позволит процессорам на платформе Tera-scale продолжать корректное функционирование, даже если часть вычислительных ядер вышла из строя.
Также предусмотрена возможность перераспределения потоков обрабатываемых данных по наиболее эффективным "маршрутам". По словам инженеров процессорного гиганта, эта технология позволяет более эффективно управлять терморегуляцией, распределением загрузки кэша и др. Так, например, "переброска" потоков информации подальше от наиболее "горячих" узлов позволит снизить локальный нагрев и тем самым повысить эффективность теплоотвода, а также использовать свободную кэш-память.
Таким образом, полностью автоматизированная система маршрутизации может справиться с перераспределением любых потоков данных. При этом для внешнего программного обеспечения ничего не изменяется, - ОС продолжает думать, что задачу выполняет ядро №1, когда эта задача возложена уже на ядро №4. Значение подобной автоматической подстраховки сложно переоценить, особенно если она не сказывается негативно на производительности системы в целом.
В процессорах на платформе Tera-scale предусмотрено использование трехуровневой системы кэширования. Кэши L1 и L2 будут непосредственно связаны с каждым потоком и объем L1 составит от 16 до 64 Кбайт. Кэш второго уровня будет размером 256 - 1024 Кбайт. Общий для всего узла станет кэш третьего уровня объемом 8 - 32 Мбайт. Модули кэш-памяти будут размещаться на той же подложке, что и вычислительные ядра, маршрутизаторы и прочие элементы.
Структура кэш-памяти Tera-scale.
Также инженеры Intel продемонстрировали модель работы нового L4-кэша высокой ёмкости, доступного для всех узлов процессора, который будет размещаться между процессором и памятью (схема "бутерброд"). Есть также вариант размещения кэша четвертого уровня напротив процессора. У обеих схем есть свои преимущества и свои недостатки. В настоящее время эксперты компании тестируют оба варианта.
Варианты расположения кэша L4.
Еще одним важным элементом системы кэширования станет управление приоритетами выполняемых задач, реализуемое посредствам настроек QoS (Quality of Service). По данным, обнародованным представителями процессорного гиганта, благодаря внедрению QoS удается достичь 10-20% прироста производительности над системой работающей по классической схеме "первый пришел, первым обслужен". Всегда есть задачи, требующие более высокого приоритета доступа к данным, и если система установки приоритета их верно идентифицирует, то работа в целом выполняется быстрее.
По словам авторов платформы Tera-scale, при ее разработке главным критерием были требования, предъявляемые программным обеспечением в будущем, к аппаратной части. Предстояло ответить не только на вопрос " что будет нужно", но и " как этого добиться".
В ходе проектирования и создания прототипа чипа Tera-scale использовались симуляторы циклов, FPGA эмуляторы и реальные кремниевые прототипы. Процесс разработки новой платформы инженерами Intel был организован в виде:
- последовательного проектирования "на бумаге";
- создания прототипа;
-тестирования его;
-внесения изменений в программное обеспечение;
-пересмотра "бумажного" проекта, после чего цикл начинался заново.
В представленном прототипе наибольший интерес, бесспорно, представляет многоуровневая структура и использование уже имеющихся ядер в узлах. Схожая структура будет реализована в процессорах AMD Fusion, объединяющих на одной подложке общие вычислительные функции с проектированием геометрических поверхностей и иными функциями современных GPU. По словам представителей компании Intel в рамках узла платформы Tera-scale может быть реализована логика GPU, DSP, Gigabit Ethernet, полноценные видео решения, большая часть системной логики и многое другое. Любой тип кремниевых продуктов, существующих на сегодняшний день, может быть внедрен в эту модель, по крайней мере в теории.
В принципе ничто не мешает использовать в чипе Tera-scale даже ядра с иной разрядностью. Благодаря этому разработанная Intel платформа откроет ранее недоступные возможности виртуализации и оптимизации системы под конкретные задачи. В ходе демонстрационного тестирования процессорный гигант показал, что одному чипу Tera-scale под силу заменить коммерческую компьютерную систему, состоящую из 63 системных блоков, включающих 130 процессоров.
По словам представителей Intel, инженерам компании удалось очень многого добиться в кратчайшие сроки. Но при этом остается много препятствий, которые еще предстоит преодолеть. Пока же появление на рынке однокристальных 60 – 100 потоковых решений можно прогнозировать не ранее второй половины 2011 года. Наиболее вероятно появление 22 нм процессора содержащего на одном кристалле площадью 280 кв. мм. 12 ядер по 8 потоков (96 вычислительных потоков). Программное обеспечение, которое сможет в полной мере использовать возможности чипов типа Tera-scale, увидит свет лишь через 5-8 лет. Поэтому очевидно, что Intel будет ориентироваться на эти сроки и серийного выпуска вычислительных систем аналогичных Tera-scale не стоит ждать раньше 2011 года.
Джерри Батиста (Jerry Bautista), директор подразделения Intel Tera-scale Computing Research, рассказал о том, каким образом разработчики Intel намерены перенести опыт вычислений для суперкомпьютеров на будущие массовые ПК и серверы, а так же уделил особое внимание программированию грядущих многоядерных систем с десятками и сотнями ядер. Среди ключевых проектов этого направления были названы три:
- приложения с эффективной параллельностью обработки данных,
- ядра с интегрированными акселераторами (многопоточность),
- высоко эффективное управление распределённой памятью.
Intel Tera-scale является чрезвычайно гибкой и перспективной платформой, которая в будущем может ознаменовать удачное развитие новой вехи в компьютерном проектировании, открывающей доселе недоступные возможности и впервые элементы новой процессорной архитектуры мы увидим в процессорах Nehalem.
Архитектура, изученная на прототипе 80 потокового процессора, позволит выполнять огромное количество параллельных операций в рамках модели MIMD (Multiple Instruction, Multiple Data). И это можно будет реализовать, используя традиционную многоядерную модель или через добавление специализированных ядер.
Многоядерность уже завоевала себе путёвку в жизнь. Но её эффективность пока мала. В лучшем случае программное обеспечение оптимизировано под двухъядерность. Поэтому в новой Операционной Системе Windows, которую Microsoft обещал представить через 3 года после выхода Windows Vista, необходимо будет, в том числе и кардинально улучшить модель многопоточности. Скорее всего, Microsoft будет локомотивом внедрения оптимизированных под многопоточность новых программных продуктов, ориентированных на ПК, как для CRU, так и для GRU.
В перспективе процессоры Intel Tera-scale могут стать не только сверхпроизводительными процессорами с низким энергопотреблением, но и стать наследниками архитектуры x86, которая рано или поздно уступит свое место более современной разработке.
Большую роль в четырёхъкратном увеличении количества вычислительных потоков, каждый раз при переходе на новый техпроцесс ( 65 нм технология – 2 ядра ( 2 потока) на одном кристалле площадью 143 кв.мм. - Conroe , 45 нм – 4 ядра (8 потоков) на одном кристалле площадью 191 кв.мм. - Nehalem , 32 нм – 8 ядер ( 32 потока) на одном кристалле площадью 260 кв.мм.– Gesher) играет снижение себестоимости производства и возможность увеличения площади кристалла процессора за те же деньги. Производители микросхем крайне заинтересованы в переходе на 450-мм кремниевые пластины в ближайшее время. Для них переход на одновременную обработку большего количества микросхем является, прежде всего, фактором снижения себестоимости производства.
Важную роль в снижении себестоимости процессоров при использовании 300-мм подложек играют инициативы, направленные на увеличение эффективности цикла производства микросхем. Цитируя результаты исследований, можно заявить о практически двухъкратном уменьшении времени обработки одной подложки и 50% увеличении продуктивности производства 300-мм кремниевых пластин.
Как известно, идеология NetBurst, провозглашавшая магистральным путём развития производительности процессоров - рост частоты, приостановила свое развитие в 2004 году. Но мир не стоит на месте. Вот пример из несколько другой области:
Компания Toshiba представила в 2006 году транзистор на нитриде галлия (GaN) с улучшенными характеристиками, работающий при частоте 9,5 ГГц. Преимущества материала GaN перед GaAs при работе на высоких частотах очевидны. Трёхъкратное уменьшение выделения тепла и стабилизация характеристик транзистора на высоких частотах внушают оптимизм.
В своих последующих исследованиях в 2007 году японские инженеры уделили особое внимание разработке транзисторов для частотного диапазона 12-18 ГГц. Результатом их работы стало создание транзистора, способного работать на частоте 14,5 ГГц.
Возможностей для дальнейшего сокращения размеров «классических» кремниевых транзисторов становится все меньше – начинают сказываться физические ограничения, поэтому множество компаний ведут исследования, направленные на поиск альтернативных решений. Конечно, здесь Intel тоже не могла остаться в стороне. В течение двух последних лет совместно с европейской компанией Qinetiq проводились исследования возможности построения транзисторов, использующих эффект «квантового колодца», с применением соединения антимонида иридия, разработанного Qinetiq. Особые свойства антимонида иридия объясняются соединением элементов из третьей и пятой колонок периодической таблицы, поэтому подобные вещества получили также название «соединений III-V».
Принципиальное отличие транзисторов, в которых применен эффект «квантового колодца», от традиционных, – использование для описания информационных свойств не факта прохождения электронов, а их квантовых характеристик. Это позволяет, по заявлениям разработчиков, при производительности, аналогичной с существующими процессорами, обойтись одной десятой мощности питания последних, или обеспечить втрое большую частоту процессора при равном энергопотреблении.(!!!)
Intel безусловно обладает самым главным качеством лидера - высоким уровнем технологии производства и стабильным прогрессом в этом отношении. Пожалуй, это самый надёжный фундамент. Но не всё так просто.
Идея превращения графических плат в некоторое подобие "настольного суперкомпьютера" прочно овладела умами разработчиков NVIDIA и AMD, быстродействие таких систем начали оценивать в терафлопах. Например, связка из двух видеокарт серии Quadro на базе чипов G80 с совокупным объёмом памяти 3 Гб способна демонстрировать быстродействие свыше одного терафлопа.
NVIDIA и AMD уже готовят выпуск графических решений следующего поколения, которые выйдут в конце зимы 2008 года. Преемник процессора G80 (G92) с архитектурой нового поколения, построенной на модульном дизайне, использующим структурированный многоядерный подход, G100 будет обладать гораздо более высоким быстродействием, предварительно оцениваемым в три терафлопа. Похоже, и AMD в своём графическом решении R700 продемонстрирует модульный дизайн и структурированный многоядерный подход с использованием до 4 кристаллов, обеспечив конкурентоспособное быстродействие. Хочется верить, что AMD удастся нормализовать своё финансовое положение, эффективно реализовать свои наработки и снова выйти на лидирующие позиции в производстве процессоров для настольных ПК.
Микроархитектура Nehalem будет поддерживать технологию SMT (Simultaneous Multi-Treading), которая фактически является возрождением знаменитой HyperThreading (HT). Также в виде слухов проскальзывали сведения о другом названии - технологии MTT (MultiThreading Technology). Впрочем, какое бы название ни было, суть одна – в процессорах Nehalem компания Intel намерена использовать разделение каждого ядра на два логических (виртуальных) процессора. Таким образом, в случае 8-ми ядерного процессора можно организовать одновременную обработку до 16-ти потоков.
Nehalem многопроцессорные системы
Core – ядро микропроцессора, включающее только ЦП, и используемое как часть полной микросхемы;
Thread – порожденный процесс в многозадачной системе. Тред – поток - единица диспетчеризации (единица исполнения) в современных ОС. Процесс расчёта - единица распределения вычислительных ресурсов системы - может иметь несколько тредов (если ОС поддерживает многопоточность), исполняющихся одновременно и выполняющих различные задания. Например, в Windows при запуске приложение создает основной тред (main thread), который, в свою очередь, также может создавать другие треды для таких операций, как фоновая печать, ожидание событий и т. д. Когда поток выполнил свое задание, он может быть приостановлен или уничтожен.
По материалам ресурса TGDaily и с использованием статей Сергея Сырого, Алексея Садовского и Дмитрия Чеканова.
Обсудить материал можно здесь: https://forums.overclockers.ru/viewtopic.php?t=231765
реклама
Лента материалов
Соблюдение Правил конференции строго обязательно!
Флуд, флейм и оффтоп преследуются по всей строгости закона!
Комментарии, содержащие оскорбления, нецензурные выражения (в т.ч. замаскированный мат), экстремистские высказывания, рекламу и спам, удаляются независимо от содержимого, а к их авторам могут применяться меры вплоть до запрета написания комментариев и, в случае написания комментария через социальные сети, жалобы в администрацию данной сети.
Сейчас обсуждают