Рынок голосовых ИИ-моделей постепенно смещается в сторону систем, которые обрабатывают речь напрямую, без промежуточных этапов. Одну из таких разработок представила китайская компания StepFun. Компания StepFun выпустила модель StepAudio 2.5 Realtime, предназначенную для общения в режиме реального времени. Система принимает аудио на входе и формирует ответ также в виде аудио, без преобразования речи в текст.
Изображение: Decrypt
Модель поддерживает английский и китайский языки и может использоваться для диалогов с настраиваемыми персонажами. В основе лежит подход, при котором голосовой ввод и вывод обрабатываются в едином контуре. Разработчики сообщили, что система заняла первое место в пяти голосовых бенчмарках, проведенных в апреле 2026 года. В тестах она показала более высокие результаты, чем GPT Realtime 1.5 и Gemini Live, включая оценку качества диалога, эмоционального восприятия и устойчивости поведения виртуального собеседника.
Изображение: Decrypt
Для повышения стабильности общения разработчики применили обучение с подкреплением на основе обратной связи от людей (RLHF). Модель дополнительно обучали удерживать заданный характер поведения в диалоге, чтобы она не «сбивалась» с роли при длинных разговорах. В процессе обучения система получала оценки за то, насколько последовательно она сохраняет стиль, тон и поведение виртуального собеседника, а также, насколько естественно реагирует на изменения в разговоре.