Недавно Nvidia представила свою новую аудиомодель под названием Fugatto, которая может синтезировать звуки, ранее не существовавшие в природе. Эта модель, основанная на передовых методах синтетического обучения, стремится объединить музыку, голоса и различные звуковые эффекты в уникальные комбинации. В отличие от своих предшественников, Fugatto предлагает пользователям возможность настраивать звуковые характеристики, создавая, например, звук саксофона, играющего под водой, или сирены, поющей в хоре.
Несмотря на то что Fugatto пока не доступна для широкой публики, демонстрация возможностей модели на веб-сайте компании уже произвела впечатление на экспертов. Nvidia описывает Fugatto как «швейцарский армейский нож для звука», подчеркивая его универсальность и потенциал.
Создание обучающего набора данных для Fugatto стало настоящим вызовом для исследователей. Они столкнулись с необходимостью выявить значимые связи между аудио и языком. В отличие от стандартных языковых моделей, которые могут обрабатывать текстовые инструкции, работа с аудио требует более тонкого подхода. Исследователи начали с генерации скриптов на Python, создавая инструкции для различных аудиоперсон. Это позволило им сформировать наборы данных, содержащие как абсолютные, так и относительные инструкции, которые можно применять к аудиохарактеристикам.
Важным этапом в разработке Fugatto стало использование открытых аудиоданных. Исследователи применили существующие модели понимания аудио для создания «синтетических субтитров» для обучающих клипов, что позволило количественно оценить такие характеристики, как пол, эмоции и качество речи. Они также использовали инструменты обработки аудио для анализа акустических параметров, таких как реверберация и частотные характеристики.
Процесс обучения модели включал в себя сравнение различных аудиоколлекций, что дало возможность Fugatto изучить, какие аудиохарактеристики соответствуют определенным эмоциям. В результате исследователи создали аннотированный набор данных из 20 миллионов образцов, что эквивалентно более чем 50 000 часам аудио. С использованием 32 тензорных ядер Nvidia модель с 2,5 миллиарда параметров показала надежные результаты в тестах качества звука.
Одной из ключевых особенностей Fugatto является система ComposableART, позволяющая комбинировать различные аудиохарактеристики для создания совершенно новых звуков. Эта система может генерировать звуки, которые выходят за рамки обучающего распределения, что делает возможным создание уникальных звуковых эффектов, таких как скрипка, звучащая как смеющийся ребенок или банджо на фоне дождя.
Интересно, что Fugatto рассматривает каждую отдельную звуковую черту как континуум, а не как фиксированный набор. Например, смешение звуков акустической гитары и текущей воды может дать совершенно разные результаты в зависимости от того, как именно они интерполируются. Nvidia также упоминает возможность настройки акцентов или эмоциональных оттенков в аудиоклипах.
Помимо синтеза новых звуков, аудиомодель Fugatto способна выполнять традиционные задачи, такие как изменение эмоций в устных фрагментах или выделение вокала из музыкального произведения. Модель может также обнаруживать отдельные ноты в MIDI-музыке и заменять их различными вокальными исполнениями, обеспечивая гармонию с ритмом.
Nvidia рассматривает Fugatto как первый шаг к будущему, где многозадачное обучение будет развиваться благодаря масштабам данных и моделей. Возможности применения этой технологии варьируются от создания песен до динамического изменения звуков в видеоиграх и таргетированной рекламы. Однако компания подчеркивает, что Fugatto должна стать инструментом для творческих людей, а не заменой их творческих способностей.
Как отметил продюсер Идо Змишлани, «история музыки — это также история технологий». Каждое новое достижение в области технологий предоставляет новые возможности для творческого самовыражения, и Fugatto не станет исключением. Эта модель обещает изменить подход к созданию звуков, предоставляя артистам инструменты для воплощения самых смелых идей.