Корпорация Microsoft разрабатывает систему атрибуции данных, используемых при обучении генеративного искусственного интеллекта. Атрибуция в данном контексте означает точное определение и оценку степени влияния каждого отдельного источника (текста, изображения и т.п.) на конечный результат, сгенерированный ИИ. Этот проект призван решить не только этические вопросы, но и снизить юридические и регуляторные риски.
Некоторые компании, в частности Bria, Adobe и Shutterstock, уже внедряют системы вознаграждения авторов. Однако механизмы расчёта выплат в этих системах остаются непрозрачными. Крупные ИИ-лаборатории пока ограничиваются заключением лицензионных соглашений с поставщиками контента или предлагают создателям сложную процедуру «отказа» от использования их данных, которая, к тому же, не действует в отношении уже обученных моделей.
Внутренний проект Microsoft, известный как «training-time provenance» («происхождение во время обучения»), реализуется при участии Джарона Ланье, ученого из Microsoft Research и сторонника концепции «достоинства данных». Эта концепция предполагает установление четкой связи между цифровым контентом и его создателем. Ланье считает, что если ИИ, например, создает анимационный фильм, система должна определять ключевых художников, актёров озвучки и сценаристов, внесших наибольший вклад, и, возможно, обеспечивать им вознаграждение.
Примечательно, что Microsoft уже столкнулась с двумя исками от правообладателей. The New York Times обвиняет корпорацию и OpenAI в нарушении авторских прав из-за обучения моделей на миллионах статей издания. Разработчики ПО подали иск, утверждая, что ИИ-помощник GitHub Copilot был незаконно обучен на их защищённых кодах.
В описании вакансии для стажёра-исследователя (LinkedIn, декабрь) говорится о планах Microsoft продемонстрировать возможность обучения ИИ-моделей с «эффективной и полезной оценкой» влияния отдельных данных. Подчёркивается «непрозрачность» нейросетей в отношении источников и необходимость это изменить, в том числе для поощрения авторов будущих моделей. Генеративный ИИ — предмет патентных споров, поскольку обучение часто ведётся на данных из сети, включая защищённые. Компании ссылаются на «добросовестное использование», но авторы не согласны.
Ряд ведущих ИИ-лабораторий (Google, OpenAI) выступают за ослабление копирайта в сфере разработки ИИ. OpenAI призывает определить и установить принцип «добросовестного использования» данных для обучения. Стоит отметить, что ранее OpenAI анонсировала похожую технологию, но инструмент так и не был выпущен. Не исключено, что и проект Microsoft останется лишь концепцией.