OpenAI представила новые модели для транскрипции и генерации голоса

Блоги

21 мар. 2025, 08:15 Techquickie

Автор : Bryce Durbin / TechCrunch

Компания OpenAI анонсировала обновленные модели искусственного интеллекта для транскрипции и генерации голоса, которые, по словам разработчиков, значительно превосходят предыдущие версии. Эти нововведения являются частью стратегии компании по созданию автономных систем, способных выполнять задачи от имени пользователей.

Глава отдела продуктов OpenAI Оливье Годемон отметил, что новые модели соответствуют концепции "агентных" систем, которые могут взаимодействовать с клиентами бизнеса. "Мы ожидаем, что в ближайшие месяцы появится все больше таких агентов. Наша цель — помочь разработчикам и пользователям использовать полезные, доступные и точные системы", — заявил Годемон.

Одной из ключевых новинок стала модель генерации голоса "gpt-4o-mini-tts", которая, по словам OpenAI, предлагает более естественное и детализированное звучание. Разработчики могут задавать стиль речи с помощью простых инструкций, например, "говорить как безумный ученый" или "использовать спокойный голос, как у учителя медитации".

Джефф Харрис, сотрудник OpenAI, подчеркнул, что новая модель позволяет разработчикам контролировать не только содержание речи, но и её эмоциональную окраску. "В разных ситуациях требуется разный тон. Например, в службе поддержки голос может звучать извиняюще, если система допустила ошибку. Мы считаем, что пользователи хотят управлять не только тем, что говорится, но и тем, как это говорится", — пояснил Харрис.

Что касается транскрипции, OpenAI представила две новые модели — "gpt-4o-transcribe" и "gpt-4o-mini-transcribe", которые приходят на смену устаревшей системе Whisper. Новые модели, обученные на разнообразных и качественных аудиоданных, лучше справляются с распознаванием акцентов и речи в шумной обстановке. Кроме того, они реже "галлюцинируют" — проблема, которая была характерна для Whisper и приводила к появлению вымышленных слов или фраз в транскрипциях.

"Эти модели значительно улучшены по сравнению с Whisper. Точность распознавания критически важна для создания надежной системы, и мы стремимся к тому, чтобы модели слышали именно то, что было сказано, без добавления лишних деталей", — отметил Харрис.

Однако точность транскрипции может варьироваться в зависимости от языка. Согласно внутренним тестам OpenAI, модель "gpt-4o-transcribe" демонстрирует уровень ошибок около 30% для таких языков, как тамильский, телугу, малаялам и каннада. Это означает, что каждое третье слово в транскрипции может отличаться от человеческого перевода.

В отличие от предыдущих версий Whisper, новые модели транскрипции не будут выпущены в открытый доступ. Харрис объяснил это тем, что "gpt-4o-transcribe" и "gpt-4o-mini-transcribe" требуют значительно больше ресурсов и не подходят для локального использования на обычных устройствах. "Мы хотим убедиться, что если мы выпускаем что-то в открытый доступ, это действительно соответствует потребностям пользователей. Сейчас мы сосредоточены на моделях, которые лучше всего подходят для конечных устройств", — добавил он.

Новые модели уже доступны через API OpenAI.

#news #openai #chatgpt #artificial intellegence

Источник: techcrunch.com

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости

Популярные статьи