Платим блогерам
Блоги
Fantoci
Музыканты смогут использовать эту модель для генерации оригинальных саундтреков к фильмам и играм, а звукорежиссеры – для создания уникальных звуковых эффектов.

В ближайшем будущем вы сможете попросить компьютер сочинить мелодию в стиле ваших любимых исполнителей или создать звуки, которые никто никогда раньше не слышал. До недавнего времени такие звуки могли существовать лишь в нашем воображении, но благодаря генеративным технологиям искусственного интеллекта они становятся реальностью. Новейшая разработка Nvidia под названием "Fugatto" способна не только воспроизводить уже известные звуки, но и создавать совершенно уникальные аудиоэффекты, не существовавшие ранее.

Новая модель представляет собой трансформер — вид искусственного интеллекта, который ранее применялся в текстовых системах, таких как ChatGPT. Однако Fugatto обучалась не на текстах, а на огромных объемах аудиоданных. Для её тренировки использовалась мощнейшая система Nvidia DGX с 32 ускорителями H100 Hopper AI, а итоговая модель насчитывает 2,5 миллиарда параметров. Но главное достижение команды разработчиков — это не огромный массив аудиоданных, а подход к обучению, позволивший модели выйти за рамки реальности.

Ключевая особенность в разработке Fugatto заключалась в подготовке обучающих данных. Модель получила доступ к 50 миллионам часов разнообразных аудиозаписей, но чтобы сохранить её относительно компактный размер, разработчики сосредоточились на оптимизации. Вместо бесконечного добавления новых данных они использовали методы, расширяющие способности модели за счёт творческого подхода к обработке имеющегося материала. Итогом более чем годовой работы стала система, способная не просто копировать существующие звуки, но и комбинировать их свойства в неожиданных сочетаниях.

Одной из самых ярких особенностей Fugatto стала возможность генерировать "несуществующие звуки". Этот эффект исследователи назвали в честь знаменитого визуального эксперимента с "авокадным стулом", когда искусственный интеллект предлагал исследователям фантастические изображения, не имеющие аналогов в реальном мире. Fugatto демонстрирует аналогичные возможности в звуке, генерируя совершенно уникальные аудиокомпозиции, такие как "хор из сирен". Это стало возможным благодаря технологии ComposableART, которая позволяет модели совмещать различные свойства звука, даже если они не встречались вместе в исходных данных. Например, Fugatto способна генерировать уникальный голос с добавлением эмоций или акцента, открывая перед пользователем небывалую свободу творчества.


Хотя Fugatto в первую очередь воспринимается как инструмент для экспериментального звукового дизайна, её возможности могут найти практическое применение в музыке и звукорежиссуре. Модель способна анализировать загруженные аудиофайлы и, например, изолировать вокал от инструментов или моментально добавить новую партию. Кроме того, Fugatto может генерировать звуки с нуля, руководствуясь текстовым описанием. Один из авторов проекта, Рафаэль Валье, поделился впечатлениями от первых результатов работы модели: "Когда Fugatto впервые создала музыку на основе нашего запроса, это было просто невероятно."

Пока что Fugatto недоступна широкой публике, но Nvidia предлагает ознакомиться с примерами её работы на специальном сайте. Эти аудиозаписи демонстрируют, как далеко продвинулись технологии генерации звука. Известные композиторы никогда не ожидали услышать кричащую виолончель, но Nvidia доказала, что такие фантазии могут стать реальностью.

Совершенно очевидно, что Fugatto открывает новую эру в создании и обработке звука, предоставляя музыкантам, продюсерам и всем пользователям, кто работает со звуком, мощный и гибкий инструмент для реализации самых смелых творческих идей. Эта технология способна перевернуть представление о том, какими могут быть звуки, и, несомненно, окажет огромное влияние на развитие музыки и аудиоиндустрии в целом.

Источник: blogs.nvidia.com
+
Написать комментарий (0)

Популярные новости

Сейчас обсуждают