
Группа исследователей из лаборатории искусственного интеллекта Сбербанка, Института AIRI и МФТИ представила новый алгоритм, который способен с высокой точностью распознавать эмоции в человеческой речи. Модель, названная CA-SER, значительно превосходит существующие решения и открывает новые возможности для применения в различных сферах.
Алгоритм CA-SER основан на принципах самообучения и сочетает несколько современных подходов к анализу устной речи. Он сначала выделяет ключевые характеристики звучания, а затем добавляет информацию о громкости и тональности голоса. Это позволяет учитывать особенности восприятия звуков человеком, что в свою очередь повышает точность определения эмоций.
Исследователи протестировали систему на базе данных IEMOCAP, которая содержит разнообразные аудиозаписи и видеоматериалы, отражающие множество человеческих эмоций. Результаты показали, что CA-SER значительно обошел большинство аналогичных систем, а по точности сопоставим с нейросетью HuBERT от Meta*, известной своей сложностью. Ученые надеются, что их разработка улучшит работу голосовых помощников и контакт-центров, где важно правильно интерпретировать эмоции пользователей.
Исходный код алгоритма доступен для других исследователей, это открывает возможности для дальнейших экспериментов и адаптации к различным языкам.
* Meta признана в РФ экстремистской организацией

