Ускорители Google TPU оставляют далеко за спиной CPU Intel и GPU NVIDIA


Без малого год назад на домашней конференции Google IO компания рассказала о том, что с 2015 года в её ЦОД работают созданные в Google ускорители Tensor Processing Units (TPU). Сам проект стартовал в 2013 году. На разработку первой ASIC, положенной в основу ускорителей TPU, ушло 15 месяцев. Подробный доклад о работе TPU, архитектуре и платформах на основе ускорителей будет сделан этим летом на отраслевой конференции, а пока компания предлагает ознакомиться с 17-страничным рефератом по теме.

Ускоритель Google Tensor Processing Units (TPU)

Ускорители TPU призваны ускорить работу самообучающихся вычислительных систем на базе глубокого машинного обучения. Нейронные сети с глубинным обучением, например, уже позволили сделать гигантский рывок в распознавании речи — самый большой за последние 20 лет. Так, если сравнивать работу Google TPU с традиционными платформами для распознавания, ошибок при распознавании слов стало на 30% меньше. Также снизились ошибки в распознавании образов. Применительно к среде ImageNet число ошибок с 2011 году уменьшилось с 26% до 3,5%. Без ускорителей TPU, признаются в Google, мощности фирменных ЦОД пришлось бы удвоить, если бы пользователи сервисов компании начали бы использовать голос для ввода команд хотя бы по три минуты в день.

Сравнение производительности на ватт Google TPU с CPU Intel и GPU NVIDIA

Ранее в компании докладывали, что ускоритель TPU демонстрирует 10-кратное преимущество в решении сходных задач перед x86-совместимыми процессорами и современными графическими процессорами. Свежий доклад говорит о более значительном преимуществе решения Google. При сравнении с процессором Intel Haswell E5-2699 v3 (22 нм, 18 ядер, 2.3 ГГц, 145 Вт) и 180-Вт ускорителем NVIDIA K80 на частоте 875 МГц ускорители Google TPU по показателю производительность на ватт в 30-80 раз превосходят конкурентов.

Структура Google TPU

Следует сказать, что по энергосбережению разработка Google пока отстаёт от Haswell и K80, но в этом Google винит короткие сроки, за которые пришлось создавать решение. Так, при нагрузке в 10% ускоритель Google TPU потребляет 88% от максимального уровня, тогда как Intel Haswell на аналогичной по уровню нагрузке потребляет 56% от максимума, а NVIDIA K80 — 66%. Также в Google признают существование более быстрых решений конкурентов — 14-нм CPU Intel и 16-нм GPU NVIDIA, которые будут выглядеть лучше моделей двухлетней давности. Но и здесь у разработчиков есть запас. К примеру, Google TPU работает с памятью DDR3, и переход на GDDR5 откроет новые горизонты для покорения производительности.

C хост-процессором Google TPU работает через шину PCI Express 3.0 x16, поддерживаемая память — DDR3

Актуальные ускорители Google TPU потребляют до 40 Вт и созданы с использованием 28-нм техпроцесса. Тактовая частота решения достигает 700 МГц. Решение ускоряет работу алгоритмов фирменного ПО компании — TensorFlow. С этим же обеспечением работают ускорители NVIDIA. Основной логикой TPU служат 65 536 8-битных блоков, оперирующих умножением с накоплением (multiply-accumulate units). Объём кэш-памяти в составе TPU аж 24 Мбайт. Блок памяти самый большой в составе чипа и занимает 29% площади кристалла. Другой большой блок (24% площади) — это массив для управления доступом к среде передачи (MAC). Внутренняя шина для передачи данных — 256-разрядная. Всё вместе взятое позволяет обеспечить выполнение 92 тера-операций в секунду.

Оценитe материал
рейтинг: 4.4 из 5
голосов: 28

Возможно вас заинтересует

Сейчас обсуждают