Платим блогерам
Блоги
PoZiTiv4iK
Новая архитектура значительно увеличивает производительность при снижении затрат на вычисления.

На днях NVIDIA сделала значительное заявление, представив свою новую модель искусственного интеллекта Llama-3.1-Nemotron-51B. Эта модель, основанная на предыдущей версии Llama-3.1-70B от Meta, привлекает внимание не только своим объемом параметров, но и инновационным подходом к нейронной архитектуре. В условиях растущей конкуренции на рынке ИИ, новая модель обещает стать настоящим прорывом.

Llama-3.1-Nemotron-51B включает в себя 51 миллиард параметров, что делает ее мощным инструментом для решения сложных задач. Однако настоящая изюминка заключается в использовании технологии Neural Architecture Search (NAS). Эта методика позволяет оптимизировать модель, обеспечивая баланс между производительностью и эффективностью. В результате, для работы модели требуется всего один графический процессор H100, что значительно снижает потребление ресурсов.

Сравнение с предшественницей Llama-3.1-70B показывает, что новая модель увеличивает скорость вывода в 2,2 раза, при этом сохраняя практически ту же точность. Это достижение стало возможным благодаря тщательной оптимизации, которая решает одну из главных задач в разработке крупных языковых моделей: как сохранить высокую точность, не жертвуя при этом эффективностью вычислений.

Многие модели, которые сегодня доминируют на рынке, требуют огромных аппаратных и энергетических ресурсов. Это ограничивает их применение в реальных условиях. Но Llama-3.1-Nemotron-51B демонстрирует, что можно добиться впечатляющих результатов, не перегружая систему. Она снижает пропускную способность памяти и количество операций ввода-вывода, что делает ее более доступной для разработчиков.

Одним из ключевых аспектов новой модели является её способность управлять большими рабочими нагрузками. Теперь разработчики могут развертывать высокопроизводительные языковые модели в более экономичных условиях, используя один H100 для выполнения задач, которые раньше требовали несколько графических процессоров.

Оптимизация архитектуры модели стала решающим фактором ее успеха. Традиционно языковые модели строят с использованием одних и тех же блоков, что упрощает процесс создания, но снижает общую эффективность. NVIDIA решила эту проблему, применив технологию NAS для оптимизации структуры модели. Команда разработчиков использовала метод фрагментированной дистилляции, который обучает более компактные и эффективные модели, имитирующие функциональность более крупных версий.

Еще одним важным элементом Llama-3.1-Nemotron-51B является алгоритм Puzzle. Этот алгоритм анализирует каждый потенциальный блок модели и определяет, какая конфигурация обеспечит наилучший баланс между скоростью и точностью. Используя метод дистилляции знаний, NVIDIA сумела сократить разрыв в точности между эталонной моделью и новой версией, одновременно значительно снизив вычислительные затраты.

1
Показать комментарии (1)

Популярные новости

Сейчас обсуждают