Информация, которую даёт пользователям программное обеспечение чат-бота GPT-4, возможно, была взята на YouTube. Разработчик OpenAI, судя по всему, пропустил миллионы часов видеоматериалов из потокового сервиса через свою программу-переводчик Whisper и использовал ее для обучения своего искусственного интеллекта. Об этом сообщает New York Times. Причиной этого шага называют далеко идущие ограничения на легальное получение больших объемов данных.
Чтобы обезопасить себя с юридической точки зрения, Google, очевидно, изменила свои правила пользования платформой. Чтобы дать возможность штатным разработчикам ИИ использовать расшифровки видеороликов YouTube, были внесены изменения. Они были опубликованы в праздничный день в США, чтобы остаться максимально незамеченными широкой аудиторией.
Получение больших объемов обучающих данных становится все более серьезной проблемой для разработчиков ИИ. Книги — еще один потенциальный источник данных для компаний, занимающихся искусственным интеллектом. Однако весь контент, находящийся в свободном доступе, уже давно используется OpenAI GPT-4, Google Gemini и другими моделями. Для добавления нового контента рассматривается возможность приобретения лицензий на книги современных авторов или целые издательства.
YouTube не только имеет доходы от рекламы, но и получает все больше подписчиков на премиум-аккаунты, а также уже продает фильмы через платформу; есть еще сервис YouTube Music, который приносит доход. В целом бизнес по подписке становится все более важным для Google и уже принес интернет-компании 15 миллиардов долларов в 2023 году.