Еще в 2018 году компания Tachyum представила концепцию своего универсального процессора Prodigy на конференции Hot Chips 18, где он произвел настоящий фурор. Представленный чип предназначен для запуска любого кода с использованием динамического двоичного транслятора. Он продемонстрировал высокую производительность при выполнении как нативного, так и переведенного кода. Компании потребовалось некоторое время, чтобы спроектировать фактическое оборудование, приняв предварительные заказы на оценочные комплекты.
Сейчас же компания раскрыла точные характеристики своего чипа Prodigy. Выглядят они, конечно, впечатляюще, но и пугают расчетной тепловой мощностью 950 Вт на чип.
Большая производительность
Каждый процессор Tachyum Prodigy имеет до 128 проприетарных ядер, соединенных с 16 каналами памяти DDR5 (для 1024-битного интерфейса), поддерживающих скорость передачи данных до 7200 МТ/с (и, следовательно, обеспечивающих пропускную способность до 921,6 Гбит/с), а также 64 PCIe. 5,0 полос. Кроме того, чип поддерживает в общей сложности до 8 ТБ памяти DDR5, что соответствует тому, что мы увидим в будущих серверных процессорах других производителей. Что касается тактовой частоты, Prodigy от Tachyum рассчитан на работу на частоте до 5,7 ГГц и является продуктом оптимизированной для производительности технологии TSMC N5P.
Что касается производительности, Tachyum рассчитывает на свой флагманский процессор Prodigy T16128-AIX с мощностью до 90 FP64 TFLOPS для высокопроизводительных вычислений, а также до 12 «AI PetaFLOPS» для логического вывода и обучения, предположительно при запуске собственного кода и потреблении до 950 Вт (и с использованием жидкостного охлаждения), согласно спецификациям, опубликованным компанией на Golem.de. Между тем, процессоры Tachyum Prodigy могут работать в 2-процессорной и 4-процессорной конфигурациях. Чтобы представить цифры в контексте, AMD Instinct MI250X имеет пиковую пропускную способность 96 FP64 TFLOPS для высокопроизводительных вычислений при 560 Вт. В отличие от этого, Nvidia H100 SXM5 может обеспечить до 20 петаопераций в секунду/петафлопс INT8/FP8 для ИИ (до 40 петаопераций в секунду/петафлопс при разреженности) при 700 Вт. Тем не менее, ни один из вычислительных GPU не подходит для рабочих нагрузок общего назначения. И именно тогда становится интересно.
Рождение нового процессора
Prodigy от Tachyum — это универсальный однородный процессор, содержащий до 128 проприетарных 64-битных ядер VLIW с двумя 1024-битными векторными блоками на ядро и одним 4096-битным матричным блоком на ядро. Кроме того, каждое ядро имеет кэш инструкций 64 КБ, кэш данных 64 КБ, кэш L2 1 МБ и может использовать неиспользуемые кэши L2 других ядер в качестве кэша L3.
По словам Радослава Данилака, исполнительного директора и соучредителя Tachuym, Радослава Данилака, исполнительного директора и соучредителя Tachuym, ядра VLIW от Tachyum являются ядрами с упорядочением, но когда компилятор обеспечивает правильную оптимизацию, они могут поддерживать проблемы с 4-сторонними нарушениями порядка. Он также еще раз подчеркнул, что архитектура набора инструкций Prodigy может обеспечить параллелизм очень высокого уровня инструкций с программным обеспечением.
Эти ядра запускают собственный код, написанный и явно оптимизированный для Prodigy, а также двоичные файлы x86, Arm и RISC-V с использованием программной эмуляции и без снижения производительности. Исторически сложилось так, что все попытки заставить процессоры VLIW выполнять код x86 терпели неудачу (например, Crusoe от Transmeta, Itanium от Intel) главным образом из-за конкретных архитектур ЦП и неэффективности эмуляции. Глава Tachyum признает, что бинарная трансляция Qemu снижает производительность на 30-40% (без раскрытия базовых показателей), но надеется, что реальная производительность все равно будет достаточно высокой, чтобы быть конкурентоспособной. При этом некоторые программы уже поддерживаются изначально.
«Мы изначально поддерживаем GCC и Linux, и теперь FreeBSD также работает [на Prodigy]», — сказал Данилак. «Apache, MongoDB или Python уже работают изначально, также доступны платформы Pytorch и Tensorflow».
Tachyum подчеркивает, что Prodigy — это не ускоритель, а настоящий процессор, который будет конкурировать с AMD, Intel и другими. Чтобы гарантировать, что процессор может обеспечивать конкурентоспособную производительность в рабочих нагрузках общего назначения и искусственного интеллекта, компания внесла многочисленные изменения в его реализацию с момента его первого появления в 2018 году.
«Мы являемся заменой ЦП, а не компанией-ускорителем ИИ, мы нацелены на облачные/гипермасштабирующие и телекоммуникационные компании», — сказал Данилак. «Со временем мы планируем завоевать несколько клиентов-суперкомпьютеров, поэтому мы удвоили ширину блоков вектора/MAC с 512 бит до 1024 бит [что также обеспечивает необходимые пути данных для 4096-битных матричных операций для искусственного интеллекта]».
Действительно, одним из преимуществ, которые обещает Prodigy от Tachyum, является его способность выполнять другой тип кода. Предполагая, что он может обеспечить достойную производительность при выполнении рабочих нагрузок общего назначения (экземпляров), он может дать некоторую дополнительную гибкость AWS, Microsoft Azure и им подобным, поскольку они смогут использовать одни и те же машины для ИИ, HPC, и экземпляры общего назначения, если это необходимо. Это, конечно, потребует некоторой фактической работы над программным обеспечением от разных сторон, но это может сработать, по крайней мере, в теории.
Производство чипов
Следует отметить, что в Tachyum до сих пор нет готового образца Prodigy. В результате все прогнозы производительности являются продуктом моделирования, и единственное, что сейчас есть у компании, — это прототип ее процессора на FPGA.
Тем временем компания недавно начала принимать предварительные заказы на оценочную платформу Tachyum Prodigy Evaluation Platform, которая будет использоваться на некоторых микросхемах Prodigy. Компании должны размещать заказы до 31 июля 2022 года, а поставка фактического оборудования составляет примерно «от шести до девяти месяцев после получения заказа».
Tachyum рассчитывает выпустить первый кристалл Prodigy (который может быть меньше 500 мм^2) в середине августа, если все пойдет по плану. После этого компания рассчитывает получить первые образцы своего чипа примерно в декабре, и если чип будет работать должным образом, компания планирует начать выборку (т. е. разослать оценочные комплекты). Как правило, доработка кристалла занимает около года после того, как первоначальный чип возвращается с завода. Тем не менее Tachyum надеется, что ее первый процессор будет работать, как и планировалось, и компания сможет начать массовое производство в первой половине 2023 года.
В будущем Данилак предполагает, что процессор Prodigy 2, созданный с использованием одного из узлов TSMC N3, будет обеспечивать вдвое более высокую производительность при той же мощности, а также поддержку PCIe Gen6.