До сих пор в инструментах ИИ и больших языковых моделях (LLM) большое внимание уделялось количеству параметров и размеру контекстных окон. Американский стартап Groq (не путать с моделью ИИ «Grok» от xAI) в настоящее время акцентирует внимание на количестве токенов (в данном случае — это последовательность текстовых символов), которые могут обрабатываться в секунду. Потому что благодаря своим чипам искусственного интеллекта, которые компания называет языковыми процессорами (LPU), она намного превосходит облачных гигантов, которые в основном работают с чипами Nvidia.
Это огромное количество. Если посмотреть на производительность облачных провайдеров, таких как Amazon (Bedrock) или Microsoft Azure, которые также используют Llama 3, то, когда дело доходит до значения T/s, они, как правило, находятся в нижнем трехзначном диапазоне. Groq значительно превосходит их:
LPU был разработан для преодоления двух проблемных мест LLM: плотности вычислений и пропускной способности памяти. С точки зрения LLM, LPU имеет большую вычислительную мощность, чем GPU или CPU. Это решение сокращает время расчета каждого слова, позволяя генерировать текстовые последовательности намного быстрее.
«Устраняя узкие места внешней памяти, механизм вывода результатов LPU также может на несколько порядков повысить производительность LLM по сравнению с графическими процессорами», — утверждает Groq.
Основатель стартапа в области искусственного интеллекта Джонатан Росс очень известен в индустрии чипов. Росс раньше работал в Google и запустил там тензорные процессоры (TPU) — чипы, которые сейчас необходимы для машинного обучения и разработки искусственного интеллекта. До сих пор Nvidia доминировала в генеративном искусственном интеллекте со своими графическими процессорами, но Groq и некоторые другие стартапы привлекают все больше и больше внимания.