ChatGPT получает ряд существенных обновлений, которые позволят чат-боту работать с голосовыми командами и запросами, основанными на изображениях. Пользователи смогут вести голосовой разговор с ChatGPT на Android и iOS, а также передавать ему изображения на всех платформах. В настоящее время OpenAI расширяет набор функций. Сначала они будут доступны пользователям Plus и Enterprise, остальные получат доступ к функциям, основанным на изображениях, позже.

Для того чтобы опробовать эти функции, вам необходимо подключиться к голосовым разговорам в приложении ChatGPT (перейдите в раздел "Настройки", затем "Новые возможности"). Нажав на кнопку микрофона, вы сможете выбрать один из пяти различных голосов.

фото: gridinsoft.com

В OpenAI утверждают, что в основе голосовых диалогов лежит новая модель преобразования текста в речь, которая позволяет генерировать "человекоподобный звук из одного лишь текста и нескольких секунд образцов речи". Для создания пяти голосов были привлечены профессиональные актеры. С другой стороны, система распознавания речи Whisper преобразует произнесенные пользователем слова в текст.

Интригуют и функции, основанные на изображениях. По словам OpenAI, можно, например, показать чатботу фотографию гриля и спросить, почему он не включается, попросить его составить план питания на основе снимка того, что есть в холодильнике, или предложить ему решить математическую задачу, которую вы сфотографировали. Как известно, на прошлой неделе в ходе мероприятия, посвященного Surface, Microsoft рассказала о способности ИИ Copilot решать математические задачи в Windows.

Для работы функций распознавания изображений OpenAI использует GPT-3.5 и GPT-4. Чтобы воспользоваться функциями ChatGPT, основанными на изображениях, нажмите кнопку фото (на iOS или Android сначала нужно нажать кнопку "плюс"), чтобы сделать снимок, или выберите существующее изображение на своем устройстве. Вы можете задать ChatGPT вопрос по нескольким фотографиям и использовать инструмент рисования, чтобы сфокусироваться на определенной части изображения.

В сообщении в блоге, анонсирующем обновления, OpenAI отметила потенциальную возможность нанесения вреда. Злоумышленники могут подражать голосам общественных деятелей (и обычных людей) и, возможно, совершать мошеннические действия. Именно поэтому OpenAI сосредоточился на голосовых разговорах ChatGPT с помощью этой технологии и работает с избранными партнерами над другими ограниченными вариантами использования (подробнее об этом чуть позже).

Что касается изображений, то OpenAI сотрудничал с бесплатным приложением Be My Eyes, с помощью которого слепые и слабовидящие люди могут лучше ориентироваться в окружающей обстановке благодаря добровольцам, участвующим в видеосвязи с ними. " По словам пользователей, они считают полезным вести общие беседы по поводу изображений, на которых случайно присутствуют люди, например, если кто-то появляется в телевизоре, когда вы пытаетесь разобраться с настройками пульта дистанционного управления", - говорится в сообщении OpenAI. Компания отметила, что она также ограничила возможности ChatGPT по анализу и прямому утверждению о людях, появляющихся на изображениях, "поскольку ChatGPT не всегда точна, а такие системы должны уважать частную жизнь людей". Компания опубликовала документ, посвященный свойствам безопасности функциональности, основанной на изображениях, которую она называет GPT-4 with vision.

ChatGPT эффективнее понимает английский текст на изображениях, чем другие языки. OpenAI утверждает, что на данный момент чатбот "плохо справляется" с другими языками, особенно с теми, которые используют нелатинскую письменность. Поэтому пользователям, не владеющим английским языком, рекомендуется пока воздержаться от использования ChatGPT для работы с текстом на изображениях.

Тем временем компания Spotify объединилась с OpenAI для использования голосовых технологий в интересных целях. Компания объявила о запуске пилотной версии инструмента под названием Voice Translation для подкастеров. Он позволяет переводить подкасты на разные языки с помощью голосов участников телешоу. По словам представителей Spotify, при переводе голоса на другой язык инструмент может сохранять особенности речи диктора.