Команда разработчиков из лаборатории искусственного интеллекта Xiaomi объявила об открытии кода новой модели преобразования текста в речь. По заявлению компании, OmniVoice способна конкурировать с коммерческими системами и превосходит их в некоторых многоязычных задачах.

Изображение: GizmoChina
Xiaomi заявляет, что OmniVoice стала первой в отрасли моделью синтеза речи, которая поддерживает сотни языков. При тестировании на 102 языках разборчивость сгенерированной речи оказалась близка к человеческой, а в некоторых случаях даже превзошла ее. Модель справляется с языками, где объём обучающего материала составляет менее 10 часов.
Архитектура OmniVoice заметно проще, чем у многих современных систем. Вместо нескольких модулей и этапов прогнозирования модель использует единую двунаправленную сеть Transformer. Это позволяет обойтись без дополнительного анализа текста и сложных гибридных конструкций.
Благодаря упрощённой конструкции OmniVoice работает быстро. По данным Xiaomi, обучение на 100 тысячах часов аудио занимает всего один день. При генерации речи модель работает до 40 раз быстрее реального времени. Такой запас скорости упрощает ее использование в обычных приложениях и сервисах.
Xiaomi добавила две ключевые технические особенности. Первая — стратегия случайного маскирования с полной кодовой книгой, которая повышает эффективность обучения. Вторая — использование большой языковой модели на этапе предварительного обучения. Компания утверждает, что это первый случай ее успешной интеграции в неавторегрессионную модель синтеза речи.
Пользователи могут создавать собственные голоса через описание характеристик: возраст, пол, высота тона, акцент или диалект. Модель умеет генерировать шепот и другие стили без эталонной аудиозаписи. OmniVoice автоматически удаляет фоновый шум из эталонных файлов и извлекает чистые характеристики голоса. Это помогает клонировать голос даже по записи, сделанной в плохих условиях.
Для выразительного синтеза речи доступно управление интонацией, включая эффекты смеха и вздохов. При необходимости пользователь вручную исправляет сложные произношения — например, полифонические китайские иероглифы или английские имена собственные.

