В июле 2023 года Microsoft объявила, что модель OpenAI Whisper скоро появится в Azure OpenAI Services. 15 сентября 2023 года компания объявила, что модель теперь доступна для клиентов, использующих Azure OpenAI service и Azure AI Speech service.
Модель OpenAI whisper - это нейронная сеть, которая может выполнять задачи распознавания речи и перевода на 57 языков. Он обучается на большом и разнообразном наборе аудио- и текстовых данных, собранных из интернета. Он использует простой сквозной подход, основанный на архитектуре Transformer encoder-decoder, и может создавать расшифровки с улучшенной читаемостью и временными метками на уровне фраз.
Предприятия теперь могут создавать приложения на основе модели OpenAI Whisper, используя следующие два способа:
OpenAI уже предлагает Whisper API самостоятельно. Используя этот новый сервис Azure OpenAI, разработчики могут использовать тот же OpenAI Whisper API по функциям, включая возможности транскрипции и перевода. REST API-интерфейсы модели Whisper для транскрипции и перевода можно найти на сервисном портале Azure OpenAI.
Пользователи Azure AI Speech теперь могут использовать новую модель Whisper от OpenAI в сочетании с существующим API пакетной транскрипции Azure AI Speech. Пользователи Whisper in Azure AI Speech извлекают выгоду из существующих функций, включая асинхронную обработку, ведение дневника говорящего, настройку и файлы большего размера.
Azure AI Speech улучшает транскрипцию шепотом, позволяя использовать файлы размером до 1 Гб, а также возможность обрабатывать большие объемы файлов, позволяя группировать до 1 тыс. файлов за один запрос. При использовании Azure AI Speech результат распознавания включает временные метки на уровне слов, что позволяет определить, где в аудиозаписи произнесено каждое слово.
Это еще одна полезная функция Azure AI Speech, которая идентифицирует отдельных говорящих в аудиофайле и помечает их речевые сегменты. Эта функция позволяет клиентам различать говорящих, точно расшифровывать их слова и создавать более организованную и структурированную транскрипцию аудиофайлов. Возможность настройки речи в Azure Speech позволяет клиентам точно настраивать Whisper на основе своих собственных данных для повышения точности и согласованности распознавания.