New York Times: чат-бот GPT-4 обучался с использованием расшифровок видео на YouTube

В поисках легально доступных данных по обучению ИИ компания OpenAI обратилась к видео на платформе YouTube. Сама Google, кажется, их использует для обучения своего ИИ.

8 апреля 2024, понедельник 10:10

kosmos_news для раздела Блоги

Информация, которую даёт пользователям программное обеспечение чат-бота GPT-4, возможно, была взята на YouTube. Разработчик OpenAI, судя по всему, пропустил миллионы часов видеоматериалов из потокового сервиса через свою программу-переводчик Whisper и использовал ее для обучения своего искусственного интеллекта. Об этом сообщает New York Times. Причиной этого шага называют далеко идущие ограничения на легальное получение больших объемов данных.

Изображение: REUTERS
Эксперты по правовым вопросам OpenAI установили, что использование расшифрованных видео YouTube подпадает под «добросовестное использование» контента. Как сообщает The Verge, Google смотрит на вещи иначе. Политика YouTube запрещает несанкционированное использование контента YouTube. Однако сама Google, похоже, использовала большое количество видеороликов, созданных пользователями на YouTube, для обучения своего ИИ.

Чтобы обезопасить себя с юридической точки зрения, Google, очевидно, изменила свои правила пользования платформой. Чтобы дать возможность штатным разработчикам ИИ использовать расшифровки видеороликов YouTube, были внесены изменения. Они были опубликованы в праздничный день в США, чтобы остаться максимально незамеченными широкой аудиторией.

Получение больших объемов обучающих данных становится все более серьезной проблемой для разработчиков ИИ. Книги — еще один потенциальный источник данных для компаний, занимающихся искусственным интеллектом. Однако весь контент, находящийся в свободном доступе, уже давно используется OpenAI GPT-4, Google Gemini и другими моделями. Для добавления нового контента рассматривается возможность приобретения лицензий на книги современных авторов или целые издательства.

YouTube не только имеет доходы от рекламы, но и получает все больше подписчиков на премиум-аккаунты, а также уже продает фильмы через платформу; есть еще сервис YouTube Music, который приносит доход. В целом бизнес по подписке становится все более важным для Google и уже принес интернет-компании 15 миллиардов долларов в 2023 году.

Перейти к полной версии Комментарии

New York Times: чат-бот GPT-4 обучался с использованием расшифровок видео на YouTube

Теги

Лента материалов