Новая китайская голосовая ИИ-модель StepAudio 2.5 обошла GPT Realtime и Gemini Live в бенчмарках

Компания StepFun выпустила голосовую ИИ-модель StepAudio 2.5 Realtime, которая работает напрямую с аудио без преобразования в текст.

27 мая 2026, среда 03:05

Global_Chronicles для раздела Блоги

Рынок голосовых ИИ-моделей постепенно смещается в сторону систем, которые обрабатывают речь напрямую, без промежуточных этапов. Одну из таких разработок представила китайская компания StepFun. Компания StepFun выпустила модель StepAudio 2.5 Realtime, предназначенную для общения в режиме реального времени. Система принимает аудио на входе и формирует ответ также в виде аудио, без преобразования речи в текст.

Изображение: Decrypt

Модель поддерживает английский и китайский языки и может использоваться для диалогов с настраиваемыми персонажами. В основе лежит подход, при котором голосовой ввод и вывод обрабатываются в едином контуре. Разработчики сообщили, что система заняла первое место в пяти голосовых бенчмарках, проведенных в апреле 2026 года. В тестах она показала более высокие результаты, чем GPT Realtime 1.5 и Gemini Live, включая оценку качества диалога, эмоционального восприятия и устойчивости поведения виртуального собеседника.

Изображение: Decrypt

Для повышения стабильности общения разработчики применили обучение с подкреплением на основе обратной связи от людей (RLHF). Модель дополнительно обучали удерживать заданный характер поведения в диалоге, чтобы она не «сбивалась» с роли при длинных разговорах. В процессе обучения система получала оценки за то, насколько последовательно она сохраняет стиль, тон и поведение виртуального собеседника, а также, насколько естественно реагирует на изменения в разговоре.

Перейти к полной версии Комментарии

Новая китайская голосовая ИИ-модель StepAudio 2.5 обошла GPT Realtime и Gemini Live в бенчмарках

Теги

Лента материалов