Yandex представила открытый набор данных Yambda для разработки музыкальных рекомендаций
Компания Yandex выпустила открытый набор данных Yambda, предназначенный для разработки алгоритмов рекомендации музыки. Это может помочь в создании сервисов, похожих на Spotify или Tidal, но с открытым подходом к данным. Данные были собраны за десять месяцев и включают 4.79 миллиарда взаимодействий пользователей Yandex Music с 9.39 миллионами треков.

В набор вошли предпочтения слушателей: что они запускали, ставили лайк или дизлайк. Все данные временно завязаны, что позволяет точно анализировать поведение аудитории. Набор доступен в разных объёмах: 50 млн событий (для тестов), 500 млн и полная версия — 5 млрд событий. Последняя занимает не менее 85 ГБ и хранится в формате Apache Parquet, удобном для обработки и исследований.
Yambda может стать важным инструментом для разработчиков и исследователей, которые хотят понять, как работает персонализация в потоковых сервисах. В отличие от Spotify или Apple Music, Yandex делится информацией, которая обычно остаётся закрытой. Это открывает возможность для создания новых решений в области искусственного интеллекта и машинного обучения в сфере музыки.
Сейчас данные уже доступны для загрузки. Они могут пригодиться как небольшим стартапам, так и научным группам, изучающим поведение слушателей. Это не первый шаг компании в сторону открытых данных, но один из самых масштабных. А значит, Yandex продолжает быть проводником в мир технологий, где музыка и ИИ работают вместе, чтобы звучать точнее и умнее.
Теги
Лента материалов
Соблюдение Правил конференции строго обязательно!
Флуд, флейм и оффтоп преследуются по всей строгости закона!
Комментарии, содержащие оскорбления, нецензурные выражения (в т.ч. замаскированный мат), экстремистские высказывания, рекламу и спам, удаляются независимо от содержимого, а к их авторам могут применяться меры вплоть до запрета написания комментариев и, в случае написания комментария через социальные сети, жалобы в администрацию данной сети.


Комментарии Правила