Платим блогерам
Блоги
Global_Chronicles
Xiaomi опубликовала исходный код модели синтеза речи OmniVoice. Решение поддерживает клонирование голоса и генерацию речи на сотнях языков, включая те, по которым в интернете почти нет обучающих данных.
реклама

Команда разработчиков из лаборатории искусственного интеллекта Xiaomi объявила об открытии кода новой модели преобразования текста в речь. По заявлению компании, OmniVoice способна конкурировать с коммерческими системами и превосходит их в некоторых многоязычных задачах.

 

Изображение: GizmoChina

Xiaomi заявляет, что OmniVoice стала первой в отрасли моделью синтеза речи, которая поддерживает сотни языков. При тестировании на 102 языках разборчивость сгенерированной речи оказалась близка к человеческой, а в некоторых случаях даже превзошла ее. Модель справляется с языками, где объём обучающего материала составляет менее 10 часов.

реклама

Архитектура OmniVoice заметно проще, чем у многих современных систем. Вместо нескольких модулей и этапов прогнозирования модель использует единую двунаправленную сеть Transformer. Это позволяет обойтись без дополнительного анализа текста и сложных гибридных конструкций.

Благодаря упрощённой конструкции OmniVoice работает быстро. По данным Xiaomi, обучение на 100 тысячах часов аудио занимает всего один день. При генерации речи модель работает до 40 раз быстрее реального времени. Такой запас скорости упрощает ее использование в обычных приложениях и сервисах.

Xiaomi добавила две ключевые технические особенности. Первая — стратегия случайного маскирования с полной кодовой книгой, которая повышает эффективность обучения. Вторая — использование большой языковой модели на этапе предварительного обучения. Компания утверждает, что это первый случай ее успешной интеграции в неавторегрессионную модель синтеза речи.

Пользователи могут создавать собственные голоса через описание характеристик: возраст, пол, высота тона, акцент или диалект. Модель умеет генерировать шепот и другие стили без эталонной аудиозаписи. OmniVoice автоматически удаляет фоновый шум из эталонных файлов и извлекает чистые характеристики голоса. Это помогает клонировать голос даже по записи, сделанной в плохих условиях.

Для выразительного синтеза речи доступно управление интонацией, включая эффекты смеха и вздохов. При необходимости пользователь вручную исправляет сложные произношения — например, полифонические китайские иероглифы или английские имена собственные.

реклама
Источник: gizmochina.com
Теперь в новом формате

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости