С каждым днем технологии искусственного интеллекта становятся все более распространенными и мощными, и компании стремятся использовать все доступные ресурсы для их обучения. Однако с этим стремлением приходит и необходимость соблюдать этические нормы и законы. Недавняя утечка информации о компании NVIDIA привлекла внимание к тому, как крупные игроки в индустрии могут нарушать правила использования контента, в частности, видео с YouTube, для создания своих ИИ-продуктов.
Недавние расследования показали, что NVIDIA, как и другие крупные компании, использовала миллионы видеороликов с YouTube для обучения своих систем искусственного интеллекта. Утечка электронных писем и внутренних чатов компании раскрыла, что сотрудники были вовлечены в сбор видео с таких платформ, как YouTube и Netflix, что идет вразрез с условиями предоставления услуг YouTube.
Ранее в этом месяце стало известно, что NVIDIA, Apple и другие крупные игроки в сфере ИИ использовали общедоступные наборы данных, которые включали расшифровки из более чем 170 000 видеозаписей на YouTube. Это использование контента без разрешения является нарушением правил платформы, которая четко заявляет, что любой несанкционированный сбор данных строго запрещен, особенно если они используются для коммерческих целей.
Недавний отчет 404 Media, основанный на информации от бывшего сотрудника NVIDIA, указывает на то, что компания активно извлекала видео из различных источников для создания наборов данных, используемых в таких продуктах, как генератор трехмерного мира Omniverse, системы беспилотных автомобилей и ИИ-аватары. Внутренние документы показывают, что NVIDIA даже запускала «виртуальные машины» для сокрытия своих действий от YouTube.
Вице-президент по исследованиям NVIDIA, Минг-Юй Лю, в одном из своих электронных писем упомянул о создании «фабрики видеоданных», которая сможет ежедневно генерировать обучающие данные, эквивалентные «визуальному опыту за всю жизнь человека». Это заявление подчеркивает амбициозные планы компании в области искусственного интеллекта, но также вызывает вопросы о том, как эти данные были собраны.
Согласно внутренним переговорам, когда сотрудники выражали сомнения по поводу этичности использования данных, их успокаивали, утверждая, что у компании есть разрешение на использование контента. Лю объяснял, что это решение исходило от руководства и что у них есть «общее одобрение на все данные». Это поднимает серьезные вопросы о культуре внутри компании и о том, насколько высокие уровни руководства осведомлены о возможных нарушениях.
NVIDIA была поставлена в сложное положение, когда ее попросили прокомментировать эти обвинения. Представители компании уверили, что их методы обучения ИИ полностью соответствуют законам об авторском праве. Однако, учитывая масштабы сбора данных и использование видео с YouTube, многие эксперты в области права и этики выражают сомнения в правомерности таких действий.