JASON REDMOND / AFP / Getty Images
Корпорация Microsoft запускает исследовательский проект, целью которого является оценка влияния конкретных примеров данных на тексты, изображения и другие типы медиа, создаваемые генеративными моделями искусственного интеллекта. Об этом стало известно из описания вакансии, опубликованной в декабре и недавно вновь появившейся на LinkedIn.
Согласно описанию, проект направлен на разработку методов, которые позволят эффективно и полезно оценивать вклад отдельных данных — например, фотографий или книг — в результаты работы моделей ИИ.
«Современные архитектуры нейронных сетей не предоставляют информации о источниках своих результатов, и есть веские причины это изменить, — говорится в описании вакансии. — Одной из таких причин является создание стимулов, признания и потенциальной оплаты для людей, чьи данные оказались ценными для моделей, которые могут появиться в будущем».
Генераторы текста, кода, изображений, видео и музыки на основе ИИ уже стали предметом множества судебных исков, связанных с нарушением авторских прав. Часто компании обучают свои модели на огромных объемах данных, собранных с публичных веб-сайтов, включая материалы, защищенные авторским правом. Многие из этих компаний утверждают, что их практика сбора и обучения данных защищена доктриной добросовестного использования. Однако творческие работники — от художников до программистов и авторов — с этим не согласны.
Microsoft сама сталкивается с как минимум двумя судебными исками от владельцев авторских прав. В декабре The New York Times подала в суд на технологического гиганта и его партнера OpenAI, обвинив их в нарушении авторских прав путем использования моделей, обученных на миллионах статей издания. Несколько разработчиков программного обеспечения также подали иски против Microsoft, утверждая, что их защищенные работы были незаконно использованы для обучения ИИ-ассистента GitHub Copilot.
Новый исследовательский проект Microsoft, описанный в вакансии как «установление происхождения данных на этапе обучения», reportedly involves Jaron Lanier, известного технолога и междисциплинарного ученого из Microsoft Research. В своей статье в The New Yorker в апреле 2023 года Ланиер писал о концепции «достоинства данных», которая, по его мнению, должна связывать «цифровые объекты» с «людьми, которые хотят быть признанными за их создание».
«Подход, основанный на достоинстве данных, позволит отслеживать наиболее уникальных и влиятельных авторов, когда модель предоставляет ценный результат, — писал Ланиер. — Например, если вы попросите модель создать “анимационный фильм о моих детях в мире масляной живописи с говорящими кошками”, то определенные художники, портретисты, актеры озвучки и писатели — или их наследники — могут быть признаны уникально важными для создания нового шедевра. Они будут признаны и мотивированы. Возможно, они даже получат оплату».
Уже несколько компаний пытаются реализовать подобные идеи. Например, разработчик моделей ИИ Bria, недавно привлекший $40 миллионов венчурного капитала, заявляет, что «программно» компенсирует владельцам данных их вклад. Adobe и Shutterstock также выплачивают вознаграждения авторам данных, хотя точные суммы остаются неясными.
Большинство крупных лабораторий не создали программ выплат отдельным авторам, ограничиваясь лицензионными соглашениями с издателями, платформами и брокерами данных. Вместо этого они предлагают владельцам авторских прав возможность «отказаться» от использования их данных для обучения. Однако некоторые из этих процессов сложны и применяются только к будущим моделям, а не к уже обученным.
Конечно, проект Microsoft может остаться лишь концепцией. Уже есть прецеденты: в мае прошлого года OpenAI заявила о разработке аналогичной технологии, которая позволит авторам указывать, как их работы могут быть включены в данные для обучения или исключены из них. Однако спустя почти год инструмент так и не был выпущен, и его разработка не считалась приоритетной внутри компании.
Microsoft также может пытаться «этически отмыть» свою репутацию или предупредить регуляторные и судебные решения, которые могут негативно повлиять на ее бизнес в области ИИ.
Тем не менее, исследование Microsoft способов отслеживания данных для обучения примечательно на фоне недавних заявлений других лабораторий ИИ о добросовестном использовании. Некоторые ведущие компании, включая Google и OpenAI, опубликовали документы, в которых рекомендуют администрации Трампа ослабить защиту авторских прав в контексте разработки ИИ. OpenAI прямо призвала правительство США закрепить добросовестное использование для обучения моделей, что, по ее мнению, освободит разработчиков от обременительных ограничений.
Представители Microsoft не сразу ответили на запрос о комментариях.
Источник : TechCrunch

