Компания Яндекс в ближайшем будущем собирается представить нейросетевую модель объёмом не более 200 КБ, которая будет работать посредством голосового управления. Рассказал о ней руководитель направления голосовой активации Дмитрий Солодуха, упомянув, что подобный размер меньше, чем весит одна фотография.
Данная модель пойдёт в состав носимых устройств вроде смарт-часов и наушников. Здесь требуется минимальное энергопотребление, отсутствие лишней нагрузки на процессор и быстрая реакция на запросы. Это означает, что, работая локально, модель должна постоянно слушать окружение без повышенного расхода энергии.
Изображение: пресс-служба «Яндекса»
Чтобы достичь желаемого результата, разработчикам пришлось действовать в два этапа. Облегчённая модель ищет в звуковом потоке речь людей. Если она найдена, в дело вступает основная нейросеть и занимается распознаванием команд.
Использование новой архитектуры позволило на порядок уменьшить число параметров в этой модели. Устройства будут применять чипы с нейропроцессорами, способными ускорять работу с алгоритмами искусственного интеллекта и тратить энергии меньше, чем традиционные центральные процессоры.
Модель вначале может войти в состав наушников «Яндекс Дропс».

