Платим блогерам
Блоги
Global_Chronicles
Компания StepFun выпустила голосовую ИИ-модель StepAudio 2.5 Realtime, которая работает напрямую с аудио без преобразования в текст.
реклама

Рынок голосовых ИИ-моделей постепенно смещается в сторону систем, которые обрабатывают речь напрямую, без промежуточных этапов. Одну из таких разработок представила китайская компания StepFun. Компания StepFun выпустила модель StepAudio 2.5 Realtime, предназначенную для общения в режиме реального времени. Система принимает аудио на входе и формирует ответ также в виде аудио, без преобразования речи в текст.

Изображение: Decrypt

Модель поддерживает английский и китайский языки и может использоваться для диалогов с настраиваемыми персонажами. В основе лежит подход, при котором голосовой ввод и вывод обрабатываются в едином контуре. Разработчики сообщили, что система заняла первое место в пяти голосовых бенчмарках, проведенных в апреле 2026 года. В тестах она показала более высокие результаты, чем GPT Realtime 1.5 и Gemini Live, включая оценку качества диалога, эмоционального восприятия и устойчивости поведения виртуального собеседника.

Изображение: Decrypt

реклама

Для повышения стабильности общения разработчики применили обучение с подкреплением на основе обратной связи от людей (RLHF). Модель дополнительно обучали удерживать заданный характер поведения в диалоге, чтобы она не «сбивалась» с роли при длинных разговорах. В процессе обучения система получала оценки за то, насколько последовательно она сохраняет стиль, тон и поведение виртуального собеседника, а также, насколько естественно реагирует на изменения в разговоре.

Источник: decrypt.co
Теперь в новом формате

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости