Новый алгоритм распознавания эмоций в речи разработан в РФ

Ученые из Сбербанка и МФТИ создали алгоритм CA-SER для точного определения эмоций по голосу. Эта модель значительно улучшает существующие технологии и доступна для дальнейших исследований.
8 февраля 2025, суббота 13:40
Global_Chronicles для раздела Блоги

Группа исследователей из лаборатории искусственного интеллекта Сбербанка, Института AIRI и МФТИ представила новый алгоритм, который способен с высокой точностью распознавать эмоции в человеческой речи. Модель, названная CA-SER, значительно превосходит существующие решения и открывает новые возможности для применения в различных сферах.

Алгоритм CA-SER основан на принципах самообучения и сочетает несколько современных подходов к анализу устной речи. Он сначала выделяет ключевые характеристики звучания, а затем добавляет информацию о громкости и тональности голоса. Это позволяет учитывать особенности восприятия звуков человеком, что в свою очередь повышает точность определения эмоций.

Исследователи протестировали систему на базе данных IEMOCAP, которая содержит разнообразные аудиозаписи и видеоматериалы, отражающие множество человеческих эмоций. Результаты показали, что CA-SER значительно обошел большинство аналогичных систем, а по точности сопоставим с нейросетью HuBERT от Meta*, известной своей сложностью. Ученые надеются, что их разработка улучшит работу голосовых помощников и контакт-центров, где важно правильно интерпретировать эмоции пользователей.

Исходный код алгоритма доступен для других исследователей, это открывает возможности для дальнейших экспериментов и адаптации к различным языкам.

* Meta признана в РФ экстремистской организацией