OpenAI представила три аудиомодели в Realtime API для создания голосовых приложений

Американская компания приносит обновление для разработчиков приложений с голосовым управлением

9 мая 2026, суббота 08:38

Американская компания OpenAI на уходящей неделе представила в интерфейсе прикладного программирования Realtime API три модели. Новинками стали GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper, возможностями которых смогут воспользоваться разработчики приложений с голосовым интерфейсом. Эти модели смогут давать ответы не только в стиле «да/нет», но и поддерживать более полноценный разговор.

Изображение: OpenAI

Главной из новых моделей является GPT-Realtime-2. Здесь предлагаются рассуждения уровня языковой модели GPT-5, только голосом. Это даёт возможность обрабатывать сложные запросы по ходу разговора. Модель способна одновременно вызывать выполняемые действия фразами вроде «проверяю ваш календарь» или «позвольте мне посмотреть». Размер контекстного окна составляет 128000 токенов, что позволяет вести длительные и связные сеансы общения с пользователем. В зависимости от сложности запроса рассуждения могут меняться.

Модель GPT-Realtime-Translate в реальном времени способна переводить более чем на 70 входящих языков и 13 исходящих. Это даст возможность людям максимально удобно взаимодействовать между собой, не зная языков друг друга.

Что касается модели GPT-Realtime-Whisper, её отличительной чертой является то, что она превращает слова в речь по мере того, как они произносятся, не дожидаясь завершения фразы. Это может быть востребовано при создании субтитров в реальном времени, на совещаниях и в рабочих процессах.

Изображение: OpenAI

Пока все эти модели предлагаются только разработчикам приложений, но охват этих приложений может быть весьма широким. Ряд компаний уже тестируют новые модели. Компания Zillow ведёт работу над голосовым помощником, Priceline и Vimeo занимаются тем же самым.

Стоимость новинок начинается от $0,017 США в минуту за Whisper, $0,034 США в минуту за Translate и $32 США за миллион токенов аудиоввода для GPT-Realtime-2.

Перейти к полной версии Комментарии

OpenAI представила три аудиомодели в Realtime API для создания голосовых приложений

Теги

Лента материалов