
Общение с группой людей, говорящих на разных языках, создает сложности для автоматических переводчиков. Новая разработка из США стремится упростить этот процесс, используя комбинацию распознавания пространства и голосового клонирования.
Ученые из Вашингтонского университета разработали систему «пространственного перевода речи». Она встроена в модифицированные шумоподавляющие наушники и предназначена для ситуаций, когда одновременно говорят несколько человек. Устройство не просто переводит речь, а отслеживает говорящих в пространстве и сохраняет выразительные особенности их голосов.
Технология использует встроенные микрофоны и алгоритмы, которые работают как своеобразный радар. Система определяет, сколько человек говорит рядом, где они находятся и как перемещаются. Она следит за направлением источников звука и обновляет свою модель в реальном времени. В результате каждый голос переводится с небольшой задержкой — от двух до четырех секунд — с сохранением громкости, интонации и направления, откуда он звучит.
Разработчики протестировали систему в десяти разных помещениях и на открытом воздухе. В тесте с 29 участниками большинство выбрало именно этот вариант перевода, в отличие от систем, которые не учитывают пространственные параметры. По словам авторов, при задержке в 3–4 секунды алгоритмы допускали меньше ошибок, чем при попытке ускорить работу до двух секунд.
Интересно, что система работает автономно, без обращения к облачным серверам. Это связано с тем, что технология клонирует голос каждого участника, а значит, требует особого внимания к конфиденциальности данных. Прототип успешно функционирует на устройствах с чипом Apple M2, включая ноутбуки и гарнитуру Vision Pro.
Исследователи отметили, что их система пока работает только с разговорной речью. Сложные термины и профессиональный жаргон пока остаются вне зоны охвата. Тем не менее, обучение модели позволило перевести уже около сотни языков. Следующая задача команды — сократить задержку перевода, не жертвуя точностью.

