Американская компания OpenAI на уходящей неделе представила в интерфейсе прикладного программирования Realtime API три модели. Новинками стали GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper, возможностями которых смогут воспользоваться разработчики приложений с голосовым интерфейсом. Эти модели смогут давать ответы не только в стиле «да/нет», но и поддерживать более полноценный разговор.
Главной из новых моделей является GPT-Realtime-2. Здесь предлагаются рассуждения уровня языковой модели GPT-5, только голосом. Это даёт возможность обрабатывать сложные запросы по ходу разговора. Модель способна одновременно вызывать выполняемые действия фразами вроде «проверяю ваш календарь» или «позвольте мне посмотреть». Размер контекстного окна составляет 128000 токенов, что позволяет вести длительные и связные сеансы общения с пользователем. В зависимости от сложности запроса рассуждения могут меняться.
Модель GPT-Realtime-Translate в реальном времени способна переводить более чем на 70 входящих языков и 13 исходящих. Это даст возможность людям максимально удобно взаимодействовать между собой, не зная языков друг друга.
Что касается модели GPT-Realtime-Whisper, её отличительной чертой является то, что она превращает слова в речь по мере того, как они произносятся, не дожидаясь завершения фразы. Это может быть востребовано при создании субтитров в реальном времени, на совещаниях и в рабочих процессах.
Пока все эти модели предлагаются только разработчикам приложений, но охват этих приложений может быть весьма широким. Ряд компаний уже тестируют новые модели. Компания Zillow ведёт работу над голосовым помощником, Priceline и Vimeo занимаются тем же самым.
Стоимость новинок начинается от $0,017 США в минуту за Whisper, $0,034 США в минуту за Translate и $32 США за миллион токенов аудиоввода для GPT-Realtime-2.