
В ходе новаторской разработки исследователи создали акустическую систему, оснащенную семью «саморазвертывающимися» микрофонами, которые могут динамически перенастраиваться для создания отдельных «речевых зон» в комнате. Эта инновационная технология позволяет точно отслеживать и идентифицировать различные голоса, даже во время их движения.
Эта "нетрадиционная" акустическая система, опубликованная в журнале Nature Communications, представляет собой так называемый «роботизированный акустический рой». «Саморазвертывающиеся» микрофоны представляют собой миниатюрных роботов, напоминающих наперстки, обладающих способностью общаться друг с другом. Эти крошечные роботы автономно перемещаются по комнате на миниатюрных колесах, похожих на миниатюрные роботы-пылесосы, и могут при необходимости возвращаться на зарядную станцию.
Автор исследования Малек Итани из Школы компьютерных наук и инженерии Пола Аллена подчеркнул важность этого нововведения, заявив: «Впервые мы используем то, что мы называем роботизированным «акустическим роем», мы можем отслеживать позиции нескольких людей, говорящих в комнате, и разделять их речь».

Чтобы эффективно ориентироваться в окружающей среде, эти прототипы используют технику, напоминающую высокочастотную эхолокацию. Мобильность имеет решающее значение, поскольку она позволяет широко распределять микрофоны, что способствует более точным расчетам.
Соавтор исследования Туочао Чен подробно рассказал о новой технологии: «Мы разработали нейронные сети, которые используют эти сигналы с задержкой по времени, чтобы отделять то, что говорит каждый человек, и отслеживать его положение в пространстве. Таким образом, вы можете позволить четырем людям вести два разговора, изолировать любой из четырех голосов и найти каждый из голосов в комнате».
Работоспособность этой технологии была подтверждена в ходе реальных экспериментов, проведенных в различных условиях, включая офисы и кухни, при участии трех-пяти человек. Примечательно, что система добилась локализации голоса с точностью 90%, сохраняя расстояние в пределах полуметра друг от друга. Средняя ошибка была еще более впечатляющей: во всех сценариях она составляла чуть менее 15 сантиметров.

Однако скорость обработки системы имеет небольшое ограничение: для обработки трехсекундного звука требуется в среднем 1,82 секунды. Это может повлиять на эффективность таких приложений, как видеоконференции.
В будущем исследователи намерены применить эти методы подавления и разделения звука в физических пространствах реального времени. Они предполагают использовать локализующие микрофоны для достижения того же, как наушники с шумоподавлением, но в масштабе всей комнаты.
Эта инновационная технология роботизированного акустического роя может совершить революцию в обработке и локализации звука в различных областях, включая связь и наблюдение.

