Платим блогерам
Блоги
amv212
OpenAI, некоммерческий разработчик искусственного интеллекта, утверждает, что его программное обеспечение для распознавания речи отличается высокой эффективностью.

реклама

Некоммерческая организация OpenAI, целью которой является разработка и внедрение искусственного интеллекта (ИИ) на благо всего человечества, выпустила в открытый доступ (релиз) систему Whisper. Whisper — это технология автоматического распознавания речи, которая, по словам OpenAI, позволяет осуществлять "надежную" транскрипцию на нескольких языках. Кроме того, Whisper автоматически переводит речь с разных языков на английский.

Транскрипция речи происходит автоматически. Voice Record

реклама

Автоматическое распознавание речи (ASR) всегда бросало вызов искусственному интеллекту и машинному обучению. Благодаря программе Whisper компания OpenAI сделала еще один успешный шаг в развитии этого направления.

Множество различных вариантов

Существует огромное количество различных систем распознавания речи, которые являются основой программного обеспечения и сервисов таких технологических гигантов, как Google, Meta и Amazon. Отличительной чертой Whisper является то, что эта платформа обучалась в течение 680 000 часов на основе данных, собранных из Интернета в многоязычном и многозадачном режиме.

Такой подход позволил улучшить распознавание уникальных акцентов, вариантов фонового шума, а также технической терминологии и жаргона.

"Основными предполагаемыми пользователями моделей Whisper являются специалисты в области ИИ, изучающие степень надежности, потенциал, погрешности, генерализацию и ограничения текущей модели. Однако Whisper также может быть потенциально полезен как решение для автоматического распознавания речи среди разработчиков, особенно для распознавания английской речи." заявили представители OpenAI в репозитории GitHub. Любой желающий может скачать Whisper с GitHub; он полностью бесплатен.

Модели продемонстрировала свои возможности

В своем пресс-релизе OpenAI сообщает: "Модели показали хорошие результаты ASR примерно на 10 языках. Настроенные на выполнение определенных задач, таких как определение голосовой активности, диктофонная запись и классификация дикторов, они могут продемонстрировать массу полезных преимуществ. Однако пока они не были тщательно протестированы в этих областях". Ограничения технологии

В определенных областях, таких как прогнозирование текста, у Whisper существуют определенные недостатки. Так как система обучалась на большом количестве "зашумленных" наборов данных, компания предупреждает, что Whisper может включать в свои транскрипции слова, которые в действительности не были произнесены. Это может быть связано с необходимостью предсказывать следующее слово и одновременно пытаться расшифровать аудиопоток.

Кроме того, Whisper не одинаково эффективно работает на разных языках. При работе с носителями языков, которые недостаточно представлены в обучающих данных или моделях, система допускает более высокий процент ошибок.

Компания утверждает: "Хотя модели Whisper нельзя использовать для транскрипции в реальном времени из коробки, их быстродействие и многофункциональность позволяют специалистам разрабатывать на их основе продукты, способные распознавать и переводить речь практически мгновенно. Истинная ценность приложений, созданных на основе моделей Whisper, говорит о том, что несопоставимая производительность этих систем может иметь реальные экономические преимущества".

 Деятельность OpenAI не ограничена только технологией Whisper. В настоящее время компания также занимается созданием таких коммерческих проектов, как DALL-E 2 и GPT-3. Кроме того, в OpenAI постоянно ведутся чисто теоретические разработки, одна из которых - системы искусственного интеллекта, которые обучаются, изучая записанные видеоматериалы.

Источники: Репозитарий GitHub
1.  (https://github.com/openai/Video-Pre-Training)
2. (https://github.com/openai/whisper/blob/main/model-card.md)

 

+
Написать комментарий (0)

Популярные новости

Сейчас обсуждают