Очки с искусственным интеллектом EchoSpeech распознают беззвучные команды владельца по движению губ

Блоги

11 апр. 2023, 18:55 Fantoci

Новые очки Корнельского университета позволяют пользователям бесшумно задействовать «умных помощников» своих гаджетов.

Современный мир изобилует «умными помощниками», но большинство из них требуют, чтобы вы произносили (или выкрикивали) команды вслух. В уединении вашего дома или автомобиля это достаточно удобно; на публике немного неловко просить Алису или Марусю написать сообщение маме. Тут на помощь приходят новые очки с искусственным интеллектом от Корнельского университета, которые призваны решить эту проблему путем расшифровки устных или «невокализованных» команд.

Команда аспирантов из лаборатории интеллектуальных компьютерных интерфейсов для будущих взаимодействий (SciFi Lab) Корнелла работала вместе над разработкой EchoSpeech, минимально навязчивого носимого устройства с бесшумным речевым интерфейсом (SSI). Хотя EchoSpeech выглядит как обычная пара очков в толстой оправе, крошечные микрофоны и динамики, прикрепленные к нижнему краю, обнаруживают движения рта и превращают их в действенные запросы.

Два динамика размером с ластик для карандашей расположены в нижней части правого обода пользователя. Эти динамики посылают закодированные звуковые волны, которые отскакивают и отрываются от губ пользователя, когда он произносит команду. Два микрофона — тоже размером с карандашный ластик — в нижней части левого обода пользователя улавливают пути акустических волн, а затем отправляют их в специальный конвейер глубокого обучения, размещенный в смартфоне пользователя. Нейронная сеть расшифровывает движения пользователя, сравнивая их с набором распознаваемых команд, выбирая наиболее подходящий вариант из списка и направляя смартфон на выполнение этой команды.

S1 и S2 представляют динамики EchoSpeech; M1 и M2 представляют собой микрофоны.

В эксперименте с участием 12 разных пользователей команда SciFi Lab обнаружила, что EchoSpeech может надежно расшифровывать 31 изолированную команду и цифры от трех до шести цифр. Благодаря профилям шума, которые помогают нейронной сети EchoSpeech различать преднамеренные и случайные движения (например, при ходьбе), уровень ошибок системы никогда не превышает 6,1%. Более того, новому пользователю требуется всего шесть минут, чтобы «обучить» систему расшифровывать нужные ему команды.

Несмотря на то, что они выбрали именно эти оправы из-за их относительной универсальности, команда пишет, что их система может работать с различными стилями оправ, и что технология, лежащая в основе EchoSpeech, не пострадала в экспериментах с другими коммерчески доступными стилями. Важно то, чтобы оправа была подобрана правильно; если очки постоянно скользят по лицу пользователя, датчики будут слишком близко ко рту, чтобы работать должным образом.

EchoSpeech может не только убрать неловкость (или, в некоторых случаях, откровенную грубость), связанную с озвучиванием команд на публике. Они также могут стать ценным инструментом для людей, которые не говорят из-за черепно-мозговой травмы, аутизма или другого заболевания. Раньше у невербальных людей не было возможности быстро и легко задействовать умных помощников без помощи рук; теперь простое движение губ может помочь им получить доступ к командам, не задействуя голосовые связки. EchoSpeech может даже работать с дополнительными системами, способными говорить от имени пользователя с ограниченными возможностями.

#искусственный интеллект #нейросети #умные очки #echospeech

Источник: extremetech.com

Наш Telegram-канал @overclockers_news
Подписывайся, чтобы быть в курсе всех новостей!

Популярные новости

Популярные статьи