NVIDIA и OpenAI: новые модели gpt-oss получили более высокую производительность

OpenAI и NVIDIA представили две передовые модели large language с открытым исходным кодом — gpt-oss-120b и gpt-oss-20b, обеспечивающие скорость вывода 1,5 миллиона токенов в секунду.

6 августа 2025, среда 20:35

Vizir47 для раздела Блоги

OpenAI и NVIDIA представили две передовые модели large language с открытым исходным кодом (LLM) — gpt-oss-120b и gpt-oss-20b, разработанные для того, чтобы предоставить по всему миру расширенные возможности логического мышления. Как указывают разработчики, эти модели знаменуют собой важный шаг вперед в разработке открытого искусственного интеллекта, предлагая самую современную производительность, широкую гибкость и эффективность в широком спектре сред развертывания.

Разработанные на графических процессорах NVIDIA H100 и оптимизированные для развертывания в рамках обширной экосистемы CUDA, новые модели лучше всего работают на системах GB200 NVL72 на базе Blackwell, обеспечивая скорость вывода 1,5 миллиона токенов в секунду.

Обе модели выпущены под лицензией Apache 2.0. “OpenAI показал миру, что можно создать на основе искусственного интеллекта NVIDIA, и теперь они продвигают инновации в области программного обеспечения с открытым исходным кодом”, — сказал Дженсен Хуан, основатель и генеральный директор NVIDIA. Модель gpt-oss-120b практически сравнялась по производительности с o4-mini от OpenAI в тестах core reasoning и может работать на одном графическом чипе с видеопамятью 80 ГБ. А меньший по размеру gpt-oss-20b соответствует производительности o3-mini и оптимизирован для работы на периферийных устройствах всего с 16 ГБ видеопамяти.

Как сообщается, обе модели обеспечивают высокую эффективность логической цепочки (CoT) использования инструментов и структурированных выходных данных и идеально подходят для задач реального времени с низкой задержкой. Модели полностью совместимы с ведущими платформами, такими как FlashInfer, Hugging Face, llama.cpp, Ollama и vLLM, а также со стеком NVIDIA TensorRT-LLM. Такая гибкость позволяет разработчикам использовать предпочитаемые ими инструменты, извлекая выгоду из комплексной оптимизации NVIDIA.

Указывается, что в архитектурном плане обе модели используют подход, основанный на объединении экспертов (MoE): gpt-oss-120b содержит 117 миллиардов параметров, из которых только 5,1 миллиарда активных приходится на токен, в то время как gpt-oss-20b использует 3,6 миллиарда активных параметров из общего числа в 21 миллиард. Оба устройства поддерживают длину контекста 128 кб, используют поворотные позиционные вставки и передовые технологии концентрации внимания, которые обеспечивают баланс мощности и эффективности запоминания.

Разработчики сообщают, что в ходе тестовых испытаний gpt-oss-120b превзошел несколько фирменных моделей, включая OpenAI o1 и o4-mini, в задачах, связанных со здравоохранением (HealthBench), математикой (AIME 2024 и 2025) и программированием (Codeforces). Меньший по размеру gpt-oss-20b показал сравнимые результаты даже при значительно меньших требованиях к инфраструктуре. Модели были обучены с использованием сочетания контролируемой тонкой настройки, обучения с подкреплением методов, применяемых в проприетарных системах высшего уровня OpenAI. Они поддерживают различные настройки логического усилия (низкое, среднее, высокое), что позволяет разработчикам сбалансировать производительность. Для обеспечения безопасности модели были оценены с использованием системы обеспечения готовности OpenAI и состязательных тестов для точной настройки. Независимые эксперты проанализировали методологию и помогли установить стандарты безопасности.

OpenAI и NVIDIA сообщают об их сотрудничестве в этом вопросе с крупнейшими платформами развертывания, такими как Azure, AWS, Vercel и Databricks, а также с лидерами в области аппаратного обеспечения, включая AMD, Cerebras и Groq. Корпорация Майкрософт поддерживает локальный вывод gpt-oss-20b на устройствах Windows с помощью ONNX Runtime.

Перейти к полной версии Комментарии

инновации в it gpt-oss-120b gpt-oss-20b

NVIDIA и OpenAI: новые модели gpt-oss получили более высокую производительность

Теги

Лента материалов