Groq выпускает первый ускоритель AI производительностью 1 PetaOPS

для раздела Блоги
Начислено вознаграждение
Эта новость написана посетителем сайта, и за неё начислено вознаграждение.

  Groq является сотым стартапом, пытающимся сделать карту ускорения AI и первым, у которого получился продукт достигающий производительности в 1 квадриллион операций в секунду. Это в четыре раза превышает производительность самой мощной карты Nvidia.

реклама

  Tensor Streaming Processor (TSP) Groq требует 300 Вт энергии на ядро. Однако, Groq превратил это в огромную производительность TSP. Это гигантский кусок кремния, в котором почти ничего нет, кроме векторных и матричных процессоров и кеша. Чип не содержит никаких контроллеров, а компилятор имеет прямое управление.

реклама

  TSP делится на 20 так называемых суперлейнов, каждый из которых имеет последовательность: матричный блок (320 MAC), блок коммутации, блок памяти (5,5 Мб), векторный блок (16 ALU), блок памяти (5,5 МБ), блок коммутатора, матричный блок (320 MAC). Компоненты имеют зеркальное расположение вокруг векторного модуля, это делит суперлейн на две части, которые могут действовать практически независимо.

реклама

 

реклама

  Процессор очень хорош в области обучения нейронных сетей и не способен ни на что другое. Например, в ResNet-50 он может выполнять 20 400 операций в секунду (I/S) при любом размере пакета с задержкой логического вывода 0,05 мс. Для сравнения Tesla V100 от Nvidia может выполнять 7 907 операций ввода-вывода при размере пакета 128, а задержка составляет 16 мс. Очевидно, что TSP превосходит наиболее эквивалентную карту Nvidia в этой рабочей нагрузке. Одной из сильных сторон TSP является то, что он имеет много кэша L1, однако в отличие от Nvidia,  другой памяти у него нет.

  В определенных рабочих нагрузках новинка более чем в два раза мощнее, чем Tesla V100. У TSP определенно есть будущее в таких областях, как автомобили с автопилотом, где объем входных данных предсказуем, и нейронная сеть может гарантированно справиться с поставленной задачей, а его потрясающая скорость позволит автомобилю в 320 раз быстрее реагировать на меняющуюся обстановку, чем при использовании Tesla V100 от Nvidia.

реклама


  Более подробно о работе чипа можно посмотреть здесь.

Подпишитесь на наш канал в Яндекс.Дзен или telegram-канал @overclockers_news - это удобные способы следить за новыми материалами на сайте. С картинками, расширенными описаниями и без рекламы.
Оценитe материал
рейтинг: 5.0 из 5
голосов: 8

Комментарии Правила

Возможно вас заинтересует

Популярные новости

Сейчас обсуждают