Как сообщает WCCFTech, специалисты из Apple исследуют новый подход к синтезу речи для своих систем ИИ. В центре их работы — замена традиционного метода подбора фонетических токенов на систему, основанную на акустическом сходстве звуков.
Изображение издания WCCFTech
Стандартные модели ИИ, включая, по всей видимости, нынешнюю Siri, генерируют речь, последовательно подбирая короткие фонетические фрагменты — токены. Этот авторегрессионный процесс, как пишет издание, создает неизбежные задержки и иногда приводит к неестественному звучанию из-за ограниченности обучающих данных.
В Apple предлагают другой путь. Инженеры компании хотят группировать речевые токены не по очереди, а на основе их визуального сходства на спектрограмме, формируя так называемые группы акустического сходства (Acoustic Similarity Groups, ASG). Эти группы частично перекрываются.
Далее модель использует вероятностный поиск уже внутри этих более крупных и осмысленных групп. По замыслу авторов, такой подход позволит ИИ гораздо быстрее находить подходящий звук для ответа. В теории это должно сократить время отклика и улучшить плавность синтезированной речи.
В публикации отмечается, что сама по себе эта научная работа не носит революционного характера. Однако она четко показывает внутреннее стремление Apple развивать собственные технологии машинного обучения. Компания продолжает искать пути для создания целостного и независимого ИИ-решения для своей экосистемы, минимизируя зависимость от сторонних разработок, таких как модели Google Gemini.

